大模型之家讯 近日,微软官方宣布发布视觉Agent解析框架OmniParser最新版本V2.0。该版本支持将OpenAI(4o/1o3- mini)、DeepSeek(R1)、Qwen(2.5VL)和Anthropic(Sonnet)等大模型转化为“计算机使用智能体”(Computer Use Agent)。相比前代,OmniParser V2在检测更微小的可交互元素时精度更高,并显著提升了推理速度。V2通过使用更大规模的交互元素检测数据集和图标功能描述数据进行训练,并优化了图标描述模型的输入图像尺寸,使推理延迟较前代降低60%,进一步推动人工智能在智能交互领域的应用发展。