Appearance
APOAI 2026 T1 Cosmic Probe
- 来源:
noai-mis/APOAI/2026/T1 - 类型:Tabular ML
- 原始资料:
statement.md、baseline.ipynb、train.csv - 题面完整性:完整
- 解法资料完整性:有 baseline;无独立题解,以下结合题面推断
题面大意
使用 SDSS DR17 的五个光学波段 model magnitudes u,g,r,i,z,将天体分类为 STAR、GALAXY 或 QSO。训练集 30000 条,A/B 各 15000 条。最终唯一指标是加权 F2,强调召回,尤其不要漏掉稀有的 quasar。提交 submission_val.csv 与 submission_test.csv,列为 objid,type。
数据特点
输入是低维天文表格数据,包含 objid, ra, dec, modelMag_u..z 和标签。题面要求使用五波段星等作为输入,但 ra/dec 也在数据中;合理做法是谨慎评估坐标是否会带来分布捷径。类别不均衡,QSO 约 18.8%,且容易与恒星或紧致星系混淆。
考点
核心考点是低维表格分类、类别不平衡和面向 F2 的阈值/决策调整。普通 accuracy 或 logloss 最优不一定对应 F2 最优,模型应提升少数类召回。
涉及知识点
- 颜色指数特征:
u-g, g-r, r-i, i-z。 - 表格模型:RandomForest、ExtraTrees、SVM、Logistic Regression、MLP。
- 类别权重与阈值调整。
- F-beta 指标,尤其 F2 的召回偏好。
- 交叉验证与 A/B 提交格式。
解法思路
基础方案是构造颜色特征。天文分类中绝对星等值和相邻波段差值都重要:u-g 对 QSO/恒星区分常有用,g-r, r-i, i-z 描述光谱能量分布。可将原始 5 个星等、所有相邻颜色、若干二阶差值和总亮度特征输入随机森林或梯度提升类模型。
由于禁用外部预训练但不禁用常规 sklearn,可用 RandomForest/ExtraTrees/SVC/Logistic 等集成。训练后不要只取 argmax,可在验证集上调 QSO 类概率阈值,提升召回并观察 weighted F2。若 QSO recall 低,可适当 class_weight 或 oversampling。
可选/多种解法
RandomForest baseline:实现简单,对非线性颜色边界有效。
ExtraTrees/ensemble:多个树模型概率平均,提高稳定性。
校准 + 阈值优化:在验证集上搜索每类阈值,尤其提高 QSO recall。
特殊技巧
星等差值比单独星等更像“颜色”,对天体类别更稳。F2 强调 recall,宁可多报一些 QSO,也不要漏掉太多;但指标是 weighted average,不能牺牲 GALAXY/STAR 到不可接受。若使用 ra/dec,要检查是否只是采样区域泄漏。
调参优化
这类科学表格题通常树模型强于普通线性模型。建议先用 KFold/GroupKFold 固定验证,再调 LightGBM/XGBoost/CatBoost 的树深、叶子数、学习率、迭代轮数、行列采样、L1/L2 正则和 early stopping。特征工程参数也要纳入调参,例如异常值裁剪分位数、标准化方式、交互项选择和缺失值编码。若目标分布长尾,可比较原目标、log 目标和稳健 loss,最终按题目指标反变换后评估。
注意事项
行顺序和 objid 必须与测试文件一致。题面限制 CPU 20 分钟,不适合复杂深度模型。外部 LLM/API 或预训练权重不可用于预测、标注或特征生成。
推广意义
这题是科学表格数据分类的入门模板:用领域特征(颜色指数)加经典 ML,就能在小维度数据上取得强效果。它也说明指标驱动决策阈值比盲目追求 accuracy 更重要。