智谱技术团队于12月26日通过其公众号宣布,开源了CogAgent-9B-20241220模型。这一模型基于GLM-4V-9B训练,专为智能体(Agent)任务设计,仅需屏幕截图作为输入,无需HTML等文本表征,便能根据用户指定的任务,结合历史操作,预测下一步的GUI操作。
CogAgent-9B-20241220模型的普适性使其可广泛应用于个人电脑、手机、车机设备等基于GUI交互的场景。相较于2023年12月开源的第一版CogAgent模型,新版本在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升,并支持中英文双语的屏幕截图和语言交互。
该模型的输入仅包含用户的自然语言指令、已执行历史动作记录和GUI截图,无需任何文本形式表征的布局信息或附加元素标签信息。其输出涵盖思考过程、下一步动作的自然语言描述、下一步动作的结构化描述以及下一步动作的敏感性判断四个方面。
CogAgent-9B-20241220在多个数据集上进行了测试,并与GPT-4o-20240806、Claude-3.5-Sonnet等模型进行了比较,结果显示其在多个数据集上取得了领先的结果,证明了其在GUI Agent领域强大的性能。