APOAI 2026 T1 Cosmic Probe

来源：noai-mis/APOAI/2026/T1
类型：Tabular ML
原始资料：statement.md、baseline.ipynb、train.csv
题面完整性：完整
解法资料完整性：有 baseline；无独立题解，以下结合题面推断

题面大意

使用 SDSS DR17 的五个光学波段 model magnitudes u,g,r,i,z，将天体分类为 STAR、GALAXY 或 QSO。训练集 30000 条，A/B 各 15000 条。最终唯一指标是加权 F2，强调召回，尤其不要漏掉稀有的 quasar。提交 submission_val.csv 与 submission_test.csv，列为 objid,type。

数据特点

输入是低维天文表格数据，包含 objid, ra, dec, modelMag_u..z 和标签。题面要求使用五波段星等作为输入，但 ra/dec 也在数据中；合理做法是谨慎评估坐标是否会带来分布捷径。类别不均衡，QSO 约 18.8%，且容易与恒星或紧致星系混淆。

考点

核心考点是低维表格分类、类别不平衡和面向 F2 的阈值/决策调整。普通 accuracy 或 logloss 最优不一定对应 F2 最优，模型应提升少数类召回。

涉及知识点

颜色指数特征：u-g, g-r, r-i, i-z。
表格模型：RandomForest、ExtraTrees、SVM、Logistic Regression、MLP。
类别权重与阈值调整。
F-beta 指标，尤其 F2 的召回偏好。
交叉验证与 A/B 提交格式。

解法思路

基础方案是构造颜色特征。天文分类中绝对星等值和相邻波段差值都重要：u-g 对 QSO/恒星区分常有用，g-r, r-i, i-z 描述光谱能量分布。可将原始 5 个星等、所有相邻颜色、若干二阶差值和总亮度特征输入随机森林或梯度提升类模型。

由于禁用外部预训练但不禁用常规 sklearn，可用 RandomForest/ExtraTrees/SVC/Logistic 等集成。训练后不要只取 argmax，可在验证集上调 QSO 类概率阈值，提升召回并观察 weighted F2。若 QSO recall 低，可适当 class_weight 或 oversampling。

可选/多种解法

RandomForest baseline：实现简单，对非线性颜色边界有效。

ExtraTrees/ensemble：多个树模型概率平均，提高稳定性。

校准 + 阈值优化：在验证集上搜索每类阈值，尤其提高 QSO recall。

特殊技巧

星等差值比单独星等更像“颜色”，对天体类别更稳。F2 强调 recall，宁可多报一些 QSO，也不要漏掉太多；但指标是 weighted average，不能牺牲 GALAXY/STAR 到不可接受。若使用 ra/dec，要检查是否只是采样区域泄漏。

调参优化

这类科学表格题通常树模型强于普通线性模型。建议先用 KFold/GroupKFold 固定验证，再调 LightGBM/XGBoost/CatBoost 的树深、叶子数、学习率、迭代轮数、行列采样、L1/L2 正则和 early stopping。特征工程参数也要纳入调参，例如异常值裁剪分位数、标准化方式、交互项选择和缺失值编码。若目标分布长尾，可比较原目标、log 目标和稳健 loss，最终按题目指标反变换后评估。

注意事项

行顺序和 objid 必须与测试文件一致。题面限制 CPU 20 分钟，不适合复杂深度模型。外部 LLM/API 或预训练权重不可用于预测、标注或特征生成。

推广意义

这题是科学表格数据分类的入门模板：用领域特征（颜色指数）加经典 ML，就能在小维度数据上取得强效果。它也说明指标驱动决策阈值比盲目追求 accuracy 更重要。

APOAI 2026 T1 Cosmic Probe ​

题面大意 ​

数据特点 ​

考点 ​

涉及知识点 ​

解法思路 ​

可选/多种解法 ​

特殊技巧 ​

调参优化 ​

注意事项 ​

推广意义 ​