Skip to content

IOAI 2024 Lost in Hyperspace

  • 来源:noai-mis/IOAI/IOAI-2024/On-Site-Round/Lost_in_Hyperspace
  • 类型:Tabular ML / regression
  • 原始资料:Lost_in_Hyperspace.ipynbSolution/Lost_in_Hyperspace_Solution.ipynb
  • 题面完整性:notebook 内完整
  • 解法资料完整性:solution notebook 更接近 baseline,完整高分思路需推断

题面大意

根据 Glowing Hypercubes 的高维表示预测三个重要性质。输入是固定形状的多维特征/张量,输出是 3 个连续目标。题面限制与 home task 类似:注意时间限制,不能使用监督神经网络作为特征提取器;简单监督模型用于特征选择或回归是允许的。

数据特点

训练/验证/测试数据存于 pickle,X_train, y_train, X_val, y_val, X_test。输出 3 个目标尺度不同,solution 中有 SCALING_WEIGHTS = [100/15, 100/8, 100/100],说明评分对三个目标做不同缩放。输入可能是 5 维超立方体结构,具有空间/维度对称性。

考点

核心考点是高维结构化特征工程和多目标回归。需要从原始张量中提取统计、投影、频域或几何特征,再用线性/树模型预测目标。

涉及知识点

  • 多目标回归。
  • 高维数组统计特征。
  • 特征选择。
  • 线性回归、岭回归、随机森林。
  • 目标标准化与加权评分。

解法思路

baseline 使用线性回归直接拟合。更强做法应先对每个 hypercube 提取统计特征:全局均值/方差/分位数、各维度投影统计、局部差分、对称性相关特征、最大最小位置等。对三个目标可分别训练模型,因为它们物理含义和尺度不同。岭回归/ElasticNet 可以处理高维特征,树模型可捕捉非线性。

可选/多种解法

统计特征 + Ridge:稳健,解释性强。

特征筛选 + RandomForest/ExtraTrees:捕捉非线性。

PCA/无监督投影 + 回归:若原始维度大,可压缩特征。

特殊技巧

三个目标分开标准化和建模通常优于共享一个模型。若输入有维度排列对称性,聚合统计比固定展平更稳。题面限制监督神经网络特征提取,但无监督降维或手工特征可用。

调参优化

这题若涉及高维空间或坐标恢复,调参重点在距离度量、降维维度、邻居数和正则强度。可比较 PCA/UMAP/AutoEncoder 表征,再扫描 kNN 的 k、距离权重、特征标准化方式,以及回归/分类模型的复杂度。验证时要用题目最终指标评估恢复结果,不能只看低维可视化是否好看。若存在噪声点,异常值裁剪阈值和鲁棒 loss 往往比增加模型容量更有效。

注意事项

不要用禁止的监督深度模型做特征提取。验证集已有标签,应作为模型选择依据。提交格式由 notebook 的 answer file 函数生成,不要手写错列顺序。

推广意义

这题是高维科学数据回归的模板。它强调在模型受限时,结构化统计特征和目标缩放能显著提升性能。