Appearance
IOAI 2025 Antique Painting Authentication
- 来源:
noai-mis/IOAI/IOAI-2025/Individual-Contest/Antique - 类型:Tabular ML / semi-supervised learning
- 原始资料:
Antique.ipynb、Solution/Antique_Solution.ipynb、metrics.py - 题面完整性:notebook 内完整
- 解法资料完整性:有 reference solution
题面大意
判断古董画作是真品还是仿品。只有一小部分样本有真伪标签,大多数样本未标注;但数字特征存在强结构模式。任务要求利用有标注和无标注样本训练模型,对验证/测试集预测真伪。
数据特点
训练 CSV 中前 5 列为数值特征,第 6 列为标签;reference solution 中 y == 0 表示未标注,其他值为有标注类别。特征维度低,结构性强,适合聚类和半监督学习。样本标签少,直接监督分类可能不稳。
考点
核心考点是半监督表格分类。需要利用未标注数据的分布结构,先聚类/伪标注,再训练监督分类器。
涉及知识点
- Spectral Clustering。
- Pseudo labeling。
- SVM / RBF kernel。
- 低维数据可视化与聚类。
- 半监督学习假设:同簇同标签。
解法思路
reference solution 先对全部训练特征做 SpectralClustering(n_clusters=2, affinity='rbf', gamma=10),然后用每个 cluster 中有标注样本的多数标签给整个 cluster 赋伪标签。随后用原始特征和伪标签训练 RBF SVM,对 validation/test 特征预测。
这个流程利用了“所有样本结构模式明显”的题设:未标注点的空间分布帮助确定决策边界,而少量标签只负责解释每个簇对应真/伪。
可选/多种解法
谱聚类 + SVM:官方参考思路。
KMeans/GMM + 标签映射:更简单,但非凸结构可能较弱。
Label propagation:直接在图上从有标注点传播标签。
特殊技巧
聚类数通常为 2,对应真品/仿品。RBF gamma 对谱聚类效果敏感,可在验证集调。未标注标签值 0 不是一个真实类别,训练监督模型前必须剔除或伪标注。
调参优化
古董价格/属性类表格题通常有长尾目标和类别稀疏问题。建议调目标变换(原值、log1p、分位数缩放)、类别编码方式、稀有类别合并阈值、文本/描述字段特征、GBDT 深度、叶子数、学习率和 early stopping。若指标是 RMSLE/MAE 一类,调参时必须在反变换后计算真实指标。异常高价样本会影响模型,裁剪或单独建模的分位点也应在验证集上选择。
注意事项
不要把 y==0 当作第三类。验证/测试 CSV 没有标签,仅 5 维特征。若聚类簇中没有有标注样本,需要 fallback,例如最近有标注点或全局多数类。
推广意义
这题是半监督学习的干净例子:当未标注数据揭示几何结构时,聚类/图传播可以显著超过只用少量标签的模型。适用于质检、风控、医学小标注场景。