Fara-7B:可在您的桌面上感知并采取行动的设备端智能AI
微软研究院悄然推进了设备端人工智能的一个里程碑:Fara-7B,一个拥有 70 亿参数的智能小型语言模型 (SLM),旨在通过预测鼠标和键盘操作来查看网页和操作电脑,现在它已作为开源研究成果提供,供用户进行实践实验。
背景/概述
微软将 Fara-7B 描述为其首个专用计算机使用代理 (CUA) ——这类模型超越了传统的文本生成,能够通过分析屏幕截图和文本上下文,在桌面环境中执行一系列“观察→思考→行动”的步骤。该模型是一个多模态的、仅解码器的代理,以 Qwen2.5-VL-7B 为骨干网络,支持超长上下文(最多 12.8 万个词元),并经过专门训练和调优,用于规划和执行多步骤的 Web 任务,例如购物、预订、搜索和摘要。
微软于 2025 年 11 月 24 日发布了一篇技术博客和一张模型卡片,正式发布了 Fara-7B,并通过 Magentic-UI(其以人为本的实验性 UI 沙箱)提供了演示。该公告强调 Fara-7B 在设备上运行(或在本地配置的沙箱中运行),并包含关键点等安全措施——在任务工作流程中,模型必须暂停并寻求用户确认(例如在结账、登录或购买时)。
Fara-7B 的实际作用:实际应用视角
这些功能使 Fara-7B 能够模拟人类浏览页面:搜索、点击、输入文本,并在用户敏感节点停留。微软随版本发布的演示展示了该模型如何将商品添加到购物车、汇总搜索结果以及使用地图服务计算距离——每个步骤都在 Magentic-UI 工作区中可见。
技术深度解析
模型架构和训练
Fara-7B 被构建为一个基于 Qwen2.5-VL-7B 的智能体序列语言模型 (SLM)。该模型使用一种新型的合成多智能体数据生成管道 (Magentic-One) 进行训练,其中协调者和网络浏览者智能体生成、验证并过滤了大量的多步骤交互轨迹。随后,微软对单个 Fara 模型进行监督,通过监督式微调将多智能体功能提炼为一个紧凑的模型(主要结果未报告 RLHF)。最终成果是一个紧凑的 7B 参数模型,能够处理屏幕截图定位和长序列规划。
微软公布的关键技术数据如下:
输入、输出和工具集
Fara‑7B 接受:
输出结果:
器件上和硅片优化
微软发布了针对Copilot+ PC(配备 NPU 和本地推理能力的设备)的量化和硅优化版本。其目标是低延迟和本地隐私:通过将屏幕截图和推理过程保留在设备本地,微软称之为“像素主权”。在本地运行代理程序可以减少往返延迟,并避免将敏感的 UI 图像发送到云服务。Copilot+ 生态系统和相关的代理工作区架构被推广为操作系统基础组件,使 Windows 能够安全地托管这些代理程序。
基准测试和声明:微软和其他公司报告了什么
微软发布的基准测试结果显示,Fara-7B 在定制的 Web 代理基准测试(WebVoyager、Online-M2W、DeepShop 和新的 WebTailBench)中表现优于其他 7B 计算代理,甚至优于一些规模更大的多模型代理。例如,微软报告称,Fara-7B 在 WebVoyager 上的成功率为73.5%,而基于 GPT-4o 的“标记集”(SoM)代理在被要求模拟 Web 代理时,成功率仅为65.1%。微软还强调,Fara-7B 完成任务所需的步骤数远少于其他代理(平均约 16 步,而某些同类代理平均约 41 步),从而提高了效率并降低了成本。这些数据来自微软的技术文档,并在其他相关报道中也有提及。
需要注意的是:这些基准测试是由微软提供的,并使用了微软创建的数据集和评估工具。在将这些结论视为定论之前,还需要进行独立验证、实际的 A/B 测试以及跨厂商的基准测试。外部媒体报道(例如科技媒体的报道)在很大程度上证实了微软的说法,但也指出指标选择和及时的工程设计会对比较结果产生实质性影响。
为什么 Fara-7B 对 Windows 用户和开发人员至关重要?
安全、限制和负责任的使用
微软明确表示 Fara-7B 仍处于实验阶段。该团队记录了当前 LLM 系统普遍存在的局限性:
为降低这些风险,模型训练和部署包括:
独立报道也指出了治理方面的漏洞:开源发布虽然有助于研究人员和防御者检查行为,但也让恶意行为者更容易研究模型并尝试越狱。微软的红队演练和 MIT 许可证的选择降低了实验的门槛——这是一把双刃剑,既增加了透明度,也增加了风险。
如何安全地尝试使用 Fara-7B(实用检查清单)
企业和OEM厂商的影响
文件大小、打包和分发——预期结果
微软表示,Fara-7B 已在 Foundry 和 Hugging Face 上以开放权重文件的形式发布,并针对 Copilot+ PC 提供了硅优化版本。官方模型页面展示了模型卡、函数签名和分发渠道,但并未为每个版本硬编码一个统一的“下载大小”声明,因为量化方式、格式(safetensors 与 pt)以及 NPU 的封装方式各不相同。模型卡文档列出了硬件和软件依赖项(torch、transformers、vLLM),并提供了一个 Magentic-UI Docker 沙箱用于本地测试。
一些社区报告和基准测试表明,当以实用的 4 位量化格式存储,并包含相应的标记器和配置文件时,量化后的 7B Qwen 风格权重文件的大小通常在15-17 GB左右。这些数字会因量化后端、格式和压缩方式的不同而有所差异;它们可以作为规划磁盘和显存需求的经验法则,但应通过在 Hugging Face 或 Microsoft Foundry 上检查您计划下载的具体版本文件来验证其大小。将任何单一的“X GB”声明视为特定于具体实现的、有条件的准确声明。
(重要提示:一些热门科技媒体对微软 UI 沙盒的拼写略有不同——微软的公开资料将其称为Magentic-UI,而不是“Magnetic-UI”。这在搜索文档和下载时很重要。)
优势和战略理由
主要风险和未解决的问题
给Windows管理员和高级用户的建议
结论
Fara-7B 标志着技术和产品迈出了意义重大的一步:它证明了一个拥有 70 亿参数的智能体,经过大型合成交互数据集的训练,能够高效地识别屏幕并在桌面上执行操作。其架构、长上下文支持以及微软提出的集成方案(Magentic-UI、Copilot+ PC、Agent Workspace)展现了设备端智能体自动化的愿景,如果能够解决安全、稳健性和治理方面的重要问题,这将对生产力和隐私产生变革性的影响。
负责任的前进方向很明确:将 Fara-7B 视为一项研究级功能,在沙箱环境中进行测试,由独立团队进行审计,只有在完善的治理、监控和安全控制措施到位后才能投入生产环境。对于 Windows 爱好者和开发者而言,此次开源发布邀请他们探索智能体自动化——同时也提醒他们,本地化能力既带来能力,也带来责任。