Skip to content

IOAI 2025 Concepts

  • 来源:noai-mis/IOAI/IOAI-2025/Individual-Contest/Concepts
  • 类型:Multimodal / LLM-assisted game
  • 原始资料:Concepts.ipynbConcepts_Solution.ipynbREADME.mdjudge_api.py
  • 题面完整性:notebook 内完整
  • 解法资料完整性:有 official solution 与 LLM proxy tutorial

题面大意

Concepts 是用有序图标序列提示 secret 词语的游戏。Clue-Giver 只能选择共享图标,Guesser 根据图标序列猜 secret。任务是为验证/测试 secret 生成图标序列,使黑盒 AI guesser 尽可能猜中。提交 clues_a.jsonlclues_b.jsonl

数据特点

每个图标有图像和文字描述,hint 是图标 ID 序列。AI guesser 是 LLM 驱动,存在一定随机性;比赛期间允许通过受限 proxy 调用 LLM 辅助开发,但 inference 阶段不能访问 judge API。提示序列的顺序有语义,首个图标通常表达核心概念。

考点

核心考点是 black-box prompt optimization。参赛者需要理解 guesser 的语义偏好,搜索或生成能让它输出目标 secret 的图标组合。它不是传统监督学习,而是受限动作空间下的语义提示设计。

涉及知识点

  • LLM prompt engineering。
  • 图标描述 embedding 检索。
  • 黑盒评测与离线代理。
  • 搜索/优化:beam search、候选生成、reranking。
  • JSONL 提交工程。

解法思路

一种思路是把每个 secret 文本和所有图标描述嵌入到同一语义空间,选取与 secret 最相近的几个图标作为候选。再根据图标顺序组织:第一个图标放最核心概念,后续图标补充属性、场景或消歧。可用本地 LLM 或 sentence embeddings 生成候选,并用可访问的 judge API 在开发阶段验证。

官方 README 提到 solution 使用 LLM API/proxy。更强方法会对每个 secret 构造多套候选图标序列,使用本地 guesser 或历史 API 反馈筛选,最终提交稳定命中的序列。

可选/多种解法

Embedding 最近邻:无需大量 API,稳定可复现。

LLM 辅助候选生成:让 LLM 从图标描述中挑提示组合。

黑盒搜索:在调用预算内试探 guesser,对候选序列 rerank。

特殊技巧

顺序重要,首图标应最像目标词。对于抽象词,直接图标可能不存在,需要用多个图标组合表达隐喻。避免过长 hint,太多图标可能让 guesser 分散。开发阶段的 API 随机性需用多次评估或稳健候选。

调参优化

这题调参主要发生在候选图标选择与排序策略。建议在 validation 上扫描图标数量、首图标权重、相似度模型、候选池大小、去重规则、属性/场景/类别图标比例,以及是否使用 judge API 做重排。若使用 LLM 生成候选,可调 temperature、候选数和提示模板,但最终选择要由验证猜中率决定。常见问题是图标过泛或过细,前者靠提高语义相似阈值,后者靠加入上位类图标消歧。

注意事项

比赛限制包括 API 预算、上传大小和 inference 不能访问 judge API。本地 judge_api.py 可能随机性更高,不完全等同官方。提交必须是列表形式的图标 ID 序列。

推广意义

Concepts 是 LLM 黑盒交互优化的竞赛化版本。它启发了如何在没有模型权重的情况下,通过语义检索、prompt 搜索和反馈优化控制模型行为。