Appearance
IOAI 2024 Lost in Hyperspace
- 来源:
noai-mis/IOAI/IOAI-2024/On-Site-Round/Lost_in_Hyperspace - 类型:Tabular ML / regression
- 原始资料:
Lost_in_Hyperspace.ipynb、Solution/Lost_in_Hyperspace_Solution.ipynb - 题面完整性:notebook 内完整
- 解法资料完整性:solution notebook 更接近 baseline,完整高分思路需推断
题面大意
根据 Glowing Hypercubes 的高维表示预测三个重要性质。输入是固定形状的多维特征/张量,输出是 3 个连续目标。题面限制与 home task 类似:注意时间限制,不能使用监督神经网络作为特征提取器;简单监督模型用于特征选择或回归是允许的。
数据特点
训练/验证/测试数据存于 pickle,X_train, y_train, X_val, y_val, X_test。输出 3 个目标尺度不同,solution 中有 SCALING_WEIGHTS = [100/15, 100/8, 100/100],说明评分对三个目标做不同缩放。输入可能是 5 维超立方体结构,具有空间/维度对称性。
考点
核心考点是高维结构化特征工程和多目标回归。需要从原始张量中提取统计、投影、频域或几何特征,再用线性/树模型预测目标。
涉及知识点
- 多目标回归。
- 高维数组统计特征。
- 特征选择。
- 线性回归、岭回归、随机森林。
- 目标标准化与加权评分。
解法思路
baseline 使用线性回归直接拟合。更强做法应先对每个 hypercube 提取统计特征:全局均值/方差/分位数、各维度投影统计、局部差分、对称性相关特征、最大最小位置等。对三个目标可分别训练模型,因为它们物理含义和尺度不同。岭回归/ElasticNet 可以处理高维特征,树模型可捕捉非线性。
可选/多种解法
统计特征 + Ridge:稳健,解释性强。
特征筛选 + RandomForest/ExtraTrees:捕捉非线性。
PCA/无监督投影 + 回归:若原始维度大,可压缩特征。
特殊技巧
三个目标分开标准化和建模通常优于共享一个模型。若输入有维度排列对称性,聚合统计比固定展平更稳。题面限制监督神经网络特征提取,但无监督降维或手工特征可用。
调参优化
这题若涉及高维空间或坐标恢复,调参重点在距离度量、降维维度、邻居数和正则强度。可比较 PCA/UMAP/AutoEncoder 表征,再扫描 kNN 的 k、距离权重、特征标准化方式,以及回归/分类模型的复杂度。验证时要用题目最终指标评估恢复结果,不能只看低维可视化是否好看。若存在噪声点,异常值裁剪阈值和鲁棒 loss 往往比增加模型容量更有效。
注意事项
不要用禁止的监督深度模型做特征提取。验证集已有标签,应作为模型选择依据。提交格式由 notebook 的 answer file 函数生成,不要手写错列顺序。
推广意义
这题是高维科学数据回归的模板。它强调在模型受限时,结构化统计特征和目标缩放能显著提升性能。