微软发布OmniParser V2.0:AI智能体操控计算机能力再升级

2月12日,微软推出OmniParser最新版本V2.0,进一步强化了AI智能体对计算机的操控能力。作为一款基于纯视觉的GUI解析工具,OmniParser V2.0支持OpenAI、DeepSeek、Qwen和Anthropic等模型,使其能够精准识别屏幕上的可交互元素。

与V1版本相比,V2.0通过更大规模的交互元素检测数据和图标功能标题数据进行训练,显著提升了检测准确率和推理速度,延迟降低60%。在高分辨率Agent基准测试ScreenSpot Pro中,V2.0搭配GPT-4o的准确率高达39.6%,远超GPT-4o原始表现。

为加速智能体实验,微软还开源了OmniTool,这是一个集成屏幕理解、定位、动作规划和执行等功能的Docker化Windows系统,成为将大模型转化为智能体的核心工具。此次升级标志着AI在计算机操控领域的进一步突破。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1