谷歌DeepMind团队近日推出QuestBench新基准,旨在通过约束满足问题(CSPs)框架,评估大型语言模型(LLMs)在推理任务中识别和获取缺失信息的能力。该研究针对现实场景中信息不完备的挑战,如用户提问遗漏细节或机器人在部分可观测环境中工作,强调模型需主动识别信息缺口并生成针对性澄清问题。
QuestBench覆盖逻辑推理、规划和小学数学三大领域,通过变量数量、约束复杂度等维度分类任务,精准揭示模型性能瓶颈。测试显示,思维链提示可提升模型表现,但复杂问题仍暴露能力不足。未来研究将聚焦增强模型在信息缺口识别与澄清方面的能力。