Appearance
APOAI 2025 Mock Basketball
- 来源:
noai-mis/roai-solved/international-contests/apoai/2025-mock/01-basketball.ipynb - 类型:Tabular ML
- 原始资料:solution notebook
- 题面完整性:题面缺失;根据 notebook 变量和代码推断
- 解法资料完整性:有解法 notebook
题面大意
根据篮球投篮相关表格特征预测 shot_made_flag,即投篮是否命中。Notebook 中使用 PyTorch Dataset 读取 CSV,标签列为 shot_made_flag,训练二分类 MLP,并以 binary accuracy 监控。
数据特点
数据是结构化表格,特征可能包含投篮位置、距离、时间、比赛上下文、球员或动作类型等。标签是 0/1。若来源类似 Kaggle Kobe shot selection,类别比例和空间位置特征会很重要,且部分类别型字段需要编码。
考点
考点是基础表格二分类:清洗、编码、标准化、模型选择和概率提交。Notebook 采用 MLP,但传统模型如 logistic regression、random forest、gradient boosting 也适合。
涉及知识点
- 缺失值处理与类别编码。
- 数值特征标准化。
- 二分类 loss:BCE。
- Accuracy / logloss / AUC 等指标。
- MLP 与传统表格模型对比。
解法思路
先做 EDA,区分数值和类别特征。对类别特征做 one-hot 或 target encoding,对坐标/距离做标准化。可以训练 MLP:输入特征,若干全连接层,输出 sigmoid 概率。小数据下传统模型常更稳,可用随机森林或逻辑回归作为基线,最后平均概率。
可选/多种解法
MLP 二分类:与 notebook 一致。
Logistic/Tree 模型:更快更稳,便于解释。
特征工程增强:投篮距离、角度、比赛时间段、位置桶。
特殊技巧
空间位置通常是投篮命中率强特征,可把 (x,y) 转成距离篮筐和角度。若数据有球员或赛季字段,要防止测试集中未见类别导致编码失败。
调参优化
表格预测题优先建立稳定交叉验证,再调模型。若是胜负分类,重点扫描树模型的 n_estimators、max_depth、learning_rate、subsample、colsample_bytree、正则项和分类阈值;若是分数/概率回归,则用 logloss/Brier 或题目指标校准概率。篮球数据常有队伍、赛季和主客场分布差异,验证切分应尽量按时间或比赛批次,避免未来信息泄漏。特征层面的 rolling statistics 窗口长度也应作为超参数。
注意事项
该题缺少独立 statement,本文档中题面大意为推断。提交格式以 notebook 中 Submission 部分为准。
推广意义
这是表格二分类练习题,适合学习从 CSV 到模型到提交的完整竞赛流水线。