Skip to content

IOAI 2025 Pixel Efficiency

  • 来源:noai-mis/IOAI/IOAI-2025/Individual-Contest/Pixel
  • 类型:CV / model interpretability and masking
  • 原始资料:Pixel.ipynbPixel_Solution.ipynbREADME.mdmetrics.py
  • 题面完整性:notebook 内完整
  • 解法资料完整性:有 reference solution

题面大意

为野外相机陷阱图像选择最关键的少量像素,以便在带宽有限时只传输必要视觉信息。参赛者需要为每张图输出 mask,保留关键像素,使下游模型仍能完成识别/分类任务。baseline 是随机 mask,reference solution 使用 CLIP 视觉模型分析重要区域。

数据特点

输入是自然图像,目标是生成稀疏 mask,而不是直接分类。保留比例很低(reference 中 RETAIN_RATIO=0.0625),需要选择最能支持类别判断的区域。图像中主体动物和上下文可能都重要,但背景冗余大。

考点

核心考点是重要像素选择和模型可解释性。可以利用预训练视觉模型的 attention、patch 相似度或遮挡敏感性来估计哪些像素/patch 对预测最重要。

涉及知识点

  • Mask generation。
  • CLIP vision transformer。
  • Patch importance / attention rollout。
  • Occlusion sensitivity。
  • JSONL 提交格式。

解法思路

reference solution 加载 CLIP ViT-L/14,处理图像并估计 patch 重要性。常见方法是对每个 patch 计算与文本类别/图像 embedding 的贡献,选 top-k patch,再上采样成像素 mask。也可用滑动遮挡:遮掉某区域看模型置信度下降,下降越大越重要,但计算更慢。

可选/多种解法

CLIP attention/patch ranking:强且通用。

显著性检测/主体分割:优先保留动物区域。

梯度 saliency:若可访问模型梯度,对预测类别求输入梯度。

特殊技巧

mask 过碎可能不利于压缩和下游识别,选择连通 patch 往往比随机散点更好。保留主体头部、身体边缘和高对比纹理比保留均匀背景更有效。可以结合 top-k patch 与形态学膨胀,让 mask 更连续。

调参优化

这题的调参目标不是单纯精度,而是“像素预算下的信息效率”。建议把采样点数、采样策略(均匀/边缘优先/不确定性优先)、重建模型容量、平滑正则和后处理滤波强度作为主要超参数。若任务需要分类或分割,可在验证集上画出像素数与得分曲线,选择边际收益最高的预算点。不要只调模型深度;在有限像素条件下,采样位置和先验插值方法通常决定上限。

注意事项

输出 submission.jsonl 格式必须符合 metrics。保留比例要严格控制,超过限制可能无效或扣分。若从 HuggingFace 加载 CLIP,需保证评测环境可用或已缓存。

推广意义

这题把模型解释、显著性和实际带宽限制结合起来。类似问题存在于遥感边缘设备、视频编码、主动感知和隐私保护图像传输。