首页 AI教程资讯人人拥有贾维斯？浙大团队OS Agents综述讲明白了

人人拥有贾维斯？浙大团队OS Agents综述讲明白了

2025-08-22 来源｜AI图库吧

图｜OSAgents领域在近些年的发展进程，包括基础模型、Agent框架、基准测试和产品等。

在过去的一年里，人工智能（AI）领域出现了一个格外引人关注的新方向——OSAgents。它指的是能够直接在电脑、手机、浏览器，甚至各种设备上帮你“动手”的智能体（agent）。

例如，它可以替你点奶茶、填表格、订机票，真正把指令变成行动。相比偏聊天的Chatbot，OSAgents让“能干活的助手”变得越来越真实。

OSAgents代表了AI行业发展的下一个趋势：AI不再只停留在回答层面，而是逐步走向“全能操作员”。未来，也许每个人都能拥有一个属于自己的AI操作系统，帮你跨平台完成各种任务，让生活和工作效率都翻倍。

此前，浙江大学团队及其合作者发表了一篇关于OSAgents的综述，近期又在预印本网站arXiv上发布。这篇综述文章颇具价值。对于想紧跟AI发展趋势的你来说，是个不错的“入门读物”。分享给大家。

该综述详细介绍了基于多模态大语言模型（MLLM）的Agent如何在不同平台和任务环境中发挥其潜力，揭示了当前面临的技术瓶颈和未来发展方向。

论文链接：https://arxiv.org/abs/2508.04482

我们离JARVIS还有多远？

构建一个类似于漫威电影《钢铁侠》中J.A.R.V.I.S.的超级智能AI助手——能够协助TonyStark操控各种系统、自动完成任务——是我们无数人的梦想。

在AI行业，类似这样的实体被称为OSAgents，它们通过操作系统提供的环境与界面（如图形用户界面GUI），使用计算设备（如计算机和移动终端）完成任务。OSAgents能够自主执行操作，或可提升全球数十亿用户的生活质量。

试想一个由Agents无缝完成诸如网购、行程安排等日常事务的世界，这将极大提高人们的效率与生产力。

在过去，Siri、GoogleAssistant等虚拟助手已初步展示了这类潜力，但由于模型能力受限，缺乏上下文理解能力，这些产品并不具备完整功能，且尚未被广泛应用。

幸运的是，近年来MLLM的快速发展，为OSAgents的实现提供了新的可能性。这些模型具备强大的理解与生成能力，使OSAgents更加擅长理解复杂任务，并能够操控计算设备予以执行。

OSAgents是什么？

OSAgents能够利用操作系统提供的环境、输入和输出接口，通常通过计算设备来响应用户设定的目标。它们的核心设计目标是自动化执行操作系统内部的任务，并依靠MLLM的理解与生成能力，从而提升用户体验感和操作效率。

为实现这一目标，OSAgents构建在三个关键组成部分之上：环境、观察空间和动作空间，这三者共同支持Agents与操作系统之间的高效交互。

环境，是指OSAgents运行的平台或系统，可以是桌面操作系统、移动端或网页端。这些环境涵盖了各种任务，要求Agents在多个界面之间进行规划和推理。

观察空间，是指OSAgents能够访问的系统状态和用户活动信息，Agents通过这些观察结果来理解环境、做出明智决策，并决定如何执行合适的行动以达成用户设定的目标。

动作空间，则定义了OSAgents通过操作系统输入接口操控环境的所有交互方式。

此外，OSAgents还需具备三项核心能力：理解、规划和grounding。这些能力使得它们能够理解任务需求、制定行动策略，并在操作环境中有效执行具体操作。

理解，是OSAgents的一项关键能力，它要求Agents理解复杂的操作系统环境。这种能力不仅对信息检索任务至关重要，也是执行其他各类任务的前提。

规划，是OSAgents的基础能力，它使Agents能够将复杂的任务分解为可管理的子任务，并制定行动序列以实现具体目标。

grounding，是一种将文本指令或计划转化为操作环境中可执行的具体动作的能力。

图｜OSAgents的基础原理。

构建“能用”的OSAgents

为OSAgents构建基础模型主要涉及两个关键方面：模型架构与训练策略。模型架构决定了模型在操作系统环境中如何处理输入与输出，而训练策略则赋予模型完成复杂任务的能力。

图｜在基础模型构建中应用的训练策略

这些训练策略主要包括预训练、有监督微调和强化学习。近期基础模型中用于OSAgents的架构和训练策略如下：

图｜OSAgents基础模型。Arch：架构，Exist：现有，Mod：修改，Concat：拼接，PT：预训练，SFT：监督微调，RL：强化学习

OSAgents框架通常由四个核心组件构成：感知、规划、记忆和行动。其中，感知模块负责收集并分析环境信息；规划模块负责任务分解和行动序列的生成；记忆模块用于信息存储和经验积累；而行动模块则负责执行特定的操作指令。

所有这些组件共同协作，使得OSAgents能够具备理解、规划、记忆并与操作系统进行有效交互的完整能力。

OSAgents框架在这四个核心模块的基础上，具有一定的技术特征和其具体的实现方式。

图｜用于OSAgents的Agents框架，TD：文本描述，GS：GUI屏幕截图，VG：视觉定位，SG：语义定位，DG：双重定位，GL：全局，IT：迭代，AE：自动化探索，EA：经验增强，MA：管理，IO：输入操作，NO：导航操作，EO：扩展操作。

评估在OSAgents的开发过程中起着至关重要的作用，因为它有助于衡量Agents在不同场景中的表现和有效性。当前文献采用了多种评估技术，这些技术根据具体环境和应用的不同而有所变化。

OSAgents评估的关键在于评估原则和评估方法。评估需要多方面和多技术的结合，以全面了解Agents的能力与局限性。评估过程主要分为客观评估和主观评估。

OSAgent的评估过程主要考察其理解、规划和grounding方面的能力。

为了全面评估OSAgents的性能和能力，研究人员开发了多种基准测试。这些基准测试基于不同的平台和配置，构建了多样的评估环境，并涵盖了各种任务类型。

图｜OSAgents基准测试

挑战与未来

尽管OSAgents已取得了令人瞩目的进展，但该领域仍然面临诸多挑战，需要进一步的研究与改进。

安全是OSAgents落地过程中必须慎重考虑的关键问题。学术界已经开始研究针对OSAgents的对抗攻击，一些研究者也着手构建LLMAgents的安全框架与策略。未来的研究应集中于为OSAgents开发全面且可扩展的安全解决方案。除了安全，隐私也是不容忽视的因素。

正如电影中钢铁侠的Jarvis根据TonyStark的偏好提供量身定制服务一样，开发个性化的OSAgents同样是AI研究的一个长期目标。目前，一些大型模型（如OpenAI的新功能memory）已开始朝这个方向迈进，赋予模型“记住”的能力。然而，总体而言，多数（M）LLM在提供个性化体验和在用户交互中的自我进化能力上仍显不足。

此外，将记忆的模态从文本扩展到其他形式，如图像、语音，以及如何有效地管理和检索这些记忆也是目前面临的重大挑战。

研究人员相信，未来如果能够克服这些挑战，OSAgents将能够提供更加个性化、动态且具上下文感知能力的帮助。同时，这些Agents还将具备更复杂的自我进化机制，能够持续适应用户的需求和偏好。

MLLM的快速发展为OSAgents开辟了新的机会，使得“人人拥有贾维斯”的梦想离我们更近。

本文来自微信公众号“学术头条”（ID：SciTouTiao），作者：学术头条，经授权发布。

上一篇：1万台！天太机器人斩获全球人形机器人最大订单