淘天 Problem 1：MAGIC Gamma 望远镜粒子识别

来源：noai-mis/淘天/Problem 1
类型：Tabular ML
原始资料：lesson.ipynb、baseline.ipynb、scoring.py、NOAI竞赛实战课程大纲最终版.pdf
题面完整性：notebook 教学材料完整
解法资料完整性：完整教学 notebook

题面大意

基于 MAGIC Gamma Telescope 数据，用 10 个连续数值特征判断粒子事件是 gamma (g) 还是 hadron/background (h)。提交应输出属于 gamma 的概率/分数，评分使用 ROC-AUC。

数据特点

10 个特征全为连续变量，没有缺失值。任务是标准二分类，特征工程不是重点，重点在模型选择、验证方式和 AUC 指标理解。课程大纲将本题定位为“交叉验证与模型选择”，要求对比单次切分和 5-Fold 交叉验证的波动，并用学习曲线判断欠拟合/过拟合。

考点

核心考点是用可靠验证机制选择模型。ROC-AUC 衡量随机正例得分高于随机负例的概率，因此提交概率/排序分比硬标签更合适。单次 holdout 的结果可能受划分偶然性影响，必须用 K-Fold 或 Stratified K-Fold 估计平均表现和方差。

涉及知识点

Decision Tree / RandomForest / GBDT / XGBoost。
Gini impurity 和连续特征切分。
Stratified K-Fold。
ROC-AUC 与概率输出。
学习曲线、欠拟合/过拟合。

解法思路

按课程大纲，推荐从“验证方式”而不是“堆模型”开始。先做一次 train/validation split，训练 Logistic Regression、RandomForest、GradientBoosting，记录 ROC-AUC；再改成 5-Fold Stratified CV，观察每折分数和单次切分分数的差异，用这个实验说明单次切分不可靠。模型输出必须保留 predict_proba 或 decision score，因为 AUC 需要排序分数。

模型比较后，绘制学习曲线：如果训练分和验证分都低，说明模型欠拟合，可换 GBDT/XGBoost 或增加树模型复杂度；如果训练分高而验证分低，说明过拟合，应限制树深、增加叶子最小样本或增强正则。最终解法可将逻辑回归、随机森林、GBDT 的概率做 averaging/soft voting，得到比单模型更稳定的提交分数。

可选/多种解法

单次切分 baseline：快速跑通流程，但只用于演示波动。

5-Fold Stratified CV：课程推荐的模型选择主线。

逻辑回归 + 树模型对比：展示线性模型与非线性模型差异。

Soft voting/averaging：把多个模型概率平均，提升 AUC 排序稳定性。

特殊技巧

使用 StratifiedKFold 保持正负比例。不要提交 0/1 标签，AUC 需要排序分数。学习曲线不是装饰图，而是决策工具：它决定下一步是加模型复杂度、加数据/特征，还是做正则化。

调参优化

MAGIC 这类入门二分类题适合系统比较传统模型参数。建议固定 5-Fold Stratified CV 后，再调 Logistic Regression 的 C、SVM 的 C/gamma、RandomForest 的树数/深度/最小叶样本数、GBDT 的学习率/树深/迭代轮数。若评分是 ROC-AUC，重点调概率排序质量而不是分类阈值；阈值只在额外关心 precision/recall 时才需要扫描。特征缩放对 Logistic/SVM/KNN 影响明显，对树模型影响较小，因此模型比较时要保持预处理管线一致。

注意事项

若使用 XGBoost，要确认环境安装；lesson 中会自动跳过缺失依赖。交叉验证模型选择要看平均值和波动，不要只看一次 holdout。

推广意义

这是表格二分类和树模型入门题，适合建立“指标 -> 验证 -> 模型选择 -> 提交概率”的竞赛基本流程。

淘天 Problem 1：MAGIC Gamma 望远镜粒子识别 ​

题面大意 ​

数据特点 ​

考点 ​

涉及知识点 ​

解法思路 ​

可选/多种解法 ​

特殊技巧 ​

调参优化 ​

注意事项 ​

推广意义 ​