Skip to content

APOAI 2025 Mock Basketball

  • 来源:noai-mis/roai-solved/international-contests/apoai/2025-mock/01-basketball.ipynb
  • 类型:Tabular ML
  • 原始资料:solution notebook
  • 题面完整性:题面缺失;根据 notebook 变量和代码推断
  • 解法资料完整性:有解法 notebook

题面大意

根据篮球投篮相关表格特征预测 shot_made_flag,即投篮是否命中。Notebook 中使用 PyTorch Dataset 读取 CSV,标签列为 shot_made_flag,训练二分类 MLP,并以 binary accuracy 监控。

数据特点

数据是结构化表格,特征可能包含投篮位置、距离、时间、比赛上下文、球员或动作类型等。标签是 0/1。若来源类似 Kaggle Kobe shot selection,类别比例和空间位置特征会很重要,且部分类别型字段需要编码。

考点

考点是基础表格二分类:清洗、编码、标准化、模型选择和概率提交。Notebook 采用 MLP,但传统模型如 logistic regression、random forest、gradient boosting 也适合。

涉及知识点

  • 缺失值处理与类别编码。
  • 数值特征标准化。
  • 二分类 loss:BCE。
  • Accuracy / logloss / AUC 等指标。
  • MLP 与传统表格模型对比。

解法思路

先做 EDA,区分数值和类别特征。对类别特征做 one-hot 或 target encoding,对坐标/距离做标准化。可以训练 MLP:输入特征,若干全连接层,输出 sigmoid 概率。小数据下传统模型常更稳,可用随机森林或逻辑回归作为基线,最后平均概率。

可选/多种解法

MLP 二分类:与 notebook 一致。

Logistic/Tree 模型:更快更稳,便于解释。

特征工程增强:投篮距离、角度、比赛时间段、位置桶。

特殊技巧

空间位置通常是投篮命中率强特征,可把 (x,y) 转成距离篮筐和角度。若数据有球员或赛季字段,要防止测试集中未见类别导致编码失败。

调参优化

表格预测题优先建立稳定交叉验证,再调模型。若是胜负分类,重点扫描树模型的 n_estimatorsmax_depthlearning_ratesubsamplecolsample_bytree、正则项和分类阈值;若是分数/概率回归,则用 logloss/Brier 或题目指标校准概率。篮球数据常有队伍、赛季和主客场分布差异,验证切分应尽量按时间或比赛批次,避免未来信息泄漏。特征层面的 rolling statistics 窗口长度也应作为超参数。

注意事项

该题缺少独立 statement,本文档中题面大意为推断。提交格式以 notebook 中 Submission 部分为准。

推广意义

这是表格二分类练习题,适合学习从 CSV 到模型到提交的完整竞赛流水线。