Appearance
APOAI 2026 T3 Molecular Energy and Dipole Prediction
- 来源:
noai-mis/APOAI/2026/T3 - 类型:Tabular ML / scientific ML
- 原始资料:
statement.md、baseline.ipynb、train/training_ref.csv - 题面完整性:完整
- 解法资料完整性:有 baseline;无独立题解,以下结合题面推断
题面大意
给定 QM9 中分子的 .xyz 坐标和原子类型,训练 200 个带标签分子,预测 600 个分子的能量和偶极矩大小。分子最多 50 个原子,元素仅 H/C/N/O/F。目标性质在平移和旋转下不变。
数据特点
训练样本只有 200,属于极小样本科学回归。输入是变长三维点云和原子类型,输出为两个标量。能量通常与原子组成、键结构、分子大小强相关;偶极矩与电负性分布、几何不对称性有关。题面提供原子核电荷、质量、半径、价电子、电负性等可用先验。
考点
核心考点是构造旋转/平移不变的分子特征,而不是直接把坐标展平。要把几何结构转成距离矩阵、原子组成、近邻图、库仑矩阵或手工化学描述符,再用小样本回归模型。
涉及知识点
.xyz文件解析。- 平移/旋转不变特征:距离、角度、径向分布。
- 原子组成特征和 Coulomb matrix。
- Kernel Ridge、RandomForest、SVR、Gaussian Process。
- 多目标回归与目标标准化。
解法思路
基础特征包括各元素计数、总核电荷、总质量、平均/最大/最小原子距离、距离分布直方图、按元素对分组的距离统计。能量可先用元素计数线性模型拟合大小效应,再用几何特征拟合残差。偶极矩可加入电负性加权坐标相对质心的统计,但要保证旋转不变,可使用带电负性权重的距离/协方差特征或主轴特征。
更强方案是 Coulomb matrix:矩阵对角表示原子自能,非对角为 Zi*Zj / distance,再取排序后的特征值或按行范数排序展开。它天然平移旋转不变,适合小分子性质预测。训练模型可用 kernel ridge/SVR/随机森林,多模型平均提升稳定性。
可选/多种解法
元素计数 + 距离统计 + tree/SVR:实现简单,样本少时稳。
Coulomb matrix 特征:更符合分子性质,适合经典 ML。
图神经网络:理论上适合分子,但 200 样本和时间限制下过拟合风险高,除非强正则和预训练不可用。
特殊技巧
目标标准化很重要,能量和偶极矩尺度不同。能量与原子数强相关,先做 composition baseline 会显著降低难度。距离直方图最好按元素对分开,如 C-H、C-O、H-H;不同元素对对应不同化学键和非键作用。
调参优化
分子能量预测的调参要同时覆盖特征和模型。若使用分子描述符/指纹,重点调 fingerprint 半径、bit 数、描述符筛选、缺失处理和标准化;模型侧调 GBDT 的深度、叶子数、学习率、迭代轮数和正则,或神经网络的 hidden size、dropout、weight decay。验证切分最好考虑 scaffold split 或相似分子分组,随机切分可能高估泛化。若评估是 MAE/RMSE,应分别比较 Huber、MAE、MSE loss 与目标缩放方式。
注意事项
不能把坐标直接按文件顺序展平后训练,因为分子旋转/平移和原子顺序会破坏泛化。测试分 A/B,各 300。多目标模型可以分别训练两个回归器,不必强行共享。
推广意义
这题体现科学机器学习中的核心思想:把物理/化学对称性写进特征。类似原则适用于材料性质预测、蛋白结构建模、点云回归和分子 QSAR。