APOAI 2025 Mock Basketball

来源：noai-mis/roai-solved/international-contests/apoai/2025-mock/01-basketball.ipynb
类型：Tabular ML
原始资料：solution notebook
题面完整性：题面缺失；根据 notebook 变量和代码推断
解法资料完整性：有解法 notebook

题面大意

根据篮球投篮相关表格特征预测 shot_made_flag，即投篮是否命中。Notebook 中使用 PyTorch Dataset 读取 CSV，标签列为 shot_made_flag，训练二分类 MLP，并以 binary accuracy 监控。

数据特点

数据是结构化表格，特征可能包含投篮位置、距离、时间、比赛上下文、球员或动作类型等。标签是 0/1。若来源类似 Kaggle Kobe shot selection，类别比例和空间位置特征会很重要，且部分类别型字段需要编码。

考点

考点是基础表格二分类：清洗、编码、标准化、模型选择和概率提交。Notebook 采用 MLP，但传统模型如 logistic regression、random forest、gradient boosting 也适合。

涉及知识点

缺失值处理与类别编码。
数值特征标准化。
二分类 loss：BCE。
Accuracy / logloss / AUC 等指标。
MLP 与传统表格模型对比。

解法思路

先做 EDA，区分数值和类别特征。对类别特征做 one-hot 或 target encoding，对坐标/距离做标准化。可以训练 MLP：输入特征，若干全连接层，输出 sigmoid 概率。小数据下传统模型常更稳，可用随机森林或逻辑回归作为基线，最后平均概率。

可选/多种解法

MLP 二分类：与 notebook 一致。

Logistic/Tree 模型：更快更稳，便于解释。

特征工程增强：投篮距离、角度、比赛时间段、位置桶。

特殊技巧

空间位置通常是投篮命中率强特征，可把 (x,y) 转成距离篮筐和角度。若数据有球员或赛季字段，要防止测试集中未见类别导致编码失败。

调参优化

表格预测题优先建立稳定交叉验证，再调模型。若是胜负分类，重点扫描树模型的 n_estimators、max_depth、learning_rate、subsample、colsample_bytree、正则项和分类阈值；若是分数/概率回归，则用 logloss/Brier 或题目指标校准概率。篮球数据常有队伍、赛季和主客场分布差异，验证切分应尽量按时间或比赛批次，避免未来信息泄漏。特征层面的 rolling statistics 窗口长度也应作为超参数。

注意事项

该题缺少独立 statement，本文档中题面大意为推断。提交格式以 notebook 中 Submission 部分为准。

推广意义

这是表格二分类练习题，适合学习从 CSV 到模型到提交的完整竞赛流水线。

APOAI 2025 Mock Basketball ​

题面大意 ​

数据特点 ​

考点 ​

涉及知识点 ​

解法思路 ​

可选/多种解法 ​

特殊技巧 ​

调参优化 ​

注意事项 ​

推广意义 ​