Fara-7B:可在您的桌面上感知并采取行动的设备端智能AI

微软研究院悄然推进了设备端人工智能的一个里程碑:Fara-7B,一个拥有 70 亿参数的智能小型语言模型 (SLM),旨在通过预测鼠标和键盘操作来查看网页和操作电脑,现在它已作为开源研究成果提供,供用户进行实践实验。

背景/概述

微软将 Fara-7B 描述为其首个专用计算机使用代理 (CUA) ——这类模型超越了传统的文本生成,能够通过分析屏幕截图和文本上下文,在桌面环境中执行一系列“观察→思考→行动”的步骤。该模型是一个多模态的、仅解码器的代理,以 Qwen2.5-VL-7B 为骨干网络,支持超长上下文(最多 12.8 万个词元),并经过专门训练和调优,用于规划和执行多步骤的 Web 任务,例如购物、预订、搜索和摘要。
微软于 2025 年 11 月 24 日发布了一篇技术博客和一张模型卡片,正式发布了 Fara-7B,并通过 Magentic-UI(其以人为本的实验性 UI 沙箱)提供了演示。该公告强调 Fara-7B 在设备上运行(或在本地配置的沙箱中运行),并包含关键点等安全措施——在任务工作流程中,模型必须暂停并寻求用户确认(例如在结账、登录或购买时)。


Fara-7B 的实际作用:实际应用视角

  • 它会接收浏览器/桌面屏幕截图以及文本目标,然后预测一系列操作(鼠标坐标、点击、输入、滚动或像 web_search() 这样的工具调用)来实现该目标。

  • 它能够原生预测点击和输入目标的像素坐标,而不是依赖于辅助功能树或 DOM 解析,这使得它即使在结构混乱的网站上也能运行。

  • 它以开源组件的形式在 Microsoft Foundry 和 Hugging Face 上分发,并与 Magentic-UI 集成,使研究人员能够在沙盒化的 Docker 环境中运行、观察和评估智能体的行为。

这些功能使 Fara-7B 能够模拟人类浏览页面:搜索、点击、输入文本,并在用户敏感节点停留。微软随版本发布的演示展示了该模型如何将商品添加到购物车、汇总搜索结果以及使用地图服务计算距离——每个步骤都在 Magentic-UI 工作区中可见。


技术深度解析

模型架构和训练

Fara-7B 被构建为一个基于 Qwen2.5-VL-7B 的智能体序列语言模型 (SLM)。该模型使用一种新型的合成多智能体数据生成管道 (Magentic-One) 进行训练,其中协调者和网络浏览者智能体生成、验证并过滤了大量的多步骤交互轨迹。随后,微软对单个 Fara 模型进行监督,通过监督式微调将多智能体功能提炼为一个紧凑的模型(主要结果未报告 RLHF)。最终成果是一个紧凑的 7B 参数模型,能够处理屏幕截图定位和长序列规划。
微软公布的关键技术数据如下:

  • 参数数量:70亿

  • 上下文窗口:最多 128k 个标记(支持长上下文)。

  • 底座:Qwen2.5‑VL‑7B

  • 训练方法:合成多智能体轨迹+监督微调。

  • 安全:将培训后的红队演练和关键点识别融入行为之中。

输入、输出和工具集

Fara‑7B 接受:

  • 文本用户目标(系统提示),

  • 一张或多张屏幕截图

  • 特工过往的思想和行为记录。

输出结果:

  • 描述内部推理的思维导图模块

  • 一个包含结构化操作的工具调用块(例如,left_click(坐标)、type(文本)、visit_url(网址)、web_search(查询))。Hugging Face 模型卡片和微软博客包含了这些函数签名,并解释了 Magentic-UI 如何向代理公开 Playwright 风格的鼠标/键盘界面。

器件上和硅片优化

微软发布了针对Copilot+ PC(配备 NPU 和本地推理能力的设备)的量化和硅优化版本。其目标是低延迟和本地隐私:通过将屏幕截图和推理过程保留在设备本地,微软称之为“像素主权”。在本地运行代理程序可以减少往返延迟,并避免将敏感的 UI 图像发送到云服务。Copilot+ 生态系统和相关的代理工作区架构被推广为操作系统基础组件,使 Windows 能够安全地托管这些代理程序。


基准测试和声明:微软和其他公司报告了什么

微软发布的基准测试结果显示,Fara-7B 在定制的 Web 代理基准测试(WebVoyager、Online-M2W、DeepShop 和新的 WebTailBench)中表现优于其他 7B 计算代理,甚至优于一些规模更大的多模型代理。例如,微软报告称,Fara-7B 在 WebVoyager 上的成功率为73.5%,而基于 GPT-4o 的“标记集”(SoM)代理在被要求模拟 Web 代理时,成功率仅为65.1%。微软还强调,Fara-7B 完成任务所需的步骤数远少于其他代理(平均约 16 步,而某些同类代理平均约 41 步),从而提高了效率并降低了成本。这些数据来自微软的技术文档,并在其他相关报道中也有提及。
需要注意的是:这些基准测试是由微软提供的,并使用了微软创建的数据集和评估工具。在将这些结论视为定论之前,还需要进行独立验证、实际的 A/B 测试以及跨厂商的基准测试。外部媒体报道(例如科技媒体的报道)在很大程度上证实了微软的说法,但也指出指标选择和及时的工程设计会对比较结果产生实质性影响。


为什么 Fara-7B 对 Windows 用户和开发人员至关重要?

  • 设备端代理自动化:Fara-7B 展示了一种新型本地代理,它不仅可以提供文本建议,还能在桌面端执行操作。这带来了真正的生产力提升:多应用工作流、自动表单填写以及可生成验证结果的委托网络搜索。

  • 隐私与延迟之间的权衡:由于 Fara-7B 无需向云端发送屏幕截图或操作轨迹即可运行,因此,如果正确实施,它有望为交互式流程提供更低的延迟,并为受监管环境(例如医疗或金融行业)提供更好的隐私保护。风险投资报告重点介绍了微软针对受监管行业的“像素主权”框架。

  • 新的安全和治理层面:能够自动点击和输入的代理程序极大地扩展了终端攻击面。Windows 的 Agent Workspace 和 Copilot 治理概念旨在提供一个沙盒化的、可审计的运行时环境,其中包含代理身份和日志,但 IT 专业人员需要策略、MDM 控制和 DLP 变更才能安全地管理这些功能。社区预览和论坛帖子显示,微软正在 Insider 预览版中测试代理门控、选择加入开关和会话级权限。


安全、限制和负责任的使用

微软明确表示 Fara-7B 仍处于实验阶段。该团队记录了当前 LLM 系统普遍存在的局限性:

  • 出现幻觉和在复杂任务中出错,

  • 未能完全遵循指示,

  • 如果被滥用,可能会产生有害或欺骗性的自动化效果。

为降低这些风险,模型训练和部署包括:

  • 在任何不可逆步骤(登录、购买、发送通信)之前阻止代理流程的关键点

  • 针对恶意或高风险任务的拒绝策略

  • 建议在沙盒环境中运行实验,并在测试期间避免使用敏感域名或个人数据。

独立报道也指出了治理方面的漏洞:开源发布虽然有助于研究人员和防御者检查行为,但也让恶意行为者更容易研究模型并尝试越狱。微软的红队演练和 MIT 许可证的选择降低了实验的门槛——这是一把双刃剑,既增加了透明度,也增加了风险。


如何安全地尝试使用 Fara-7B(实用检查清单)

  • 使用提供的 Magentic‑UI Docker 沙箱或完全隔离的虚拟机离线运行模型;不要在生产机器上运行实验。

  • 首先执行只读任务(搜索和摘要),这些任务不会达到关键点(不涉及登录、购买或消息)。

  • 监控 Magentic-UI Agent 工作区或沙箱日志中的每一步;对任何敏感步骤要求明确确认。

  • 尽可能使用 Azure AI 内容安全及类似检查服务,以编程方式过滤输出。

  • 在受监管的环境下进行测试时,应将模型工件和日志保存在物理隔离或严格控制的基础设施上。

  • 在全面推广之前,安排安全红队尝试绕过关键点或诱发不良行为。


企业和OEM厂商的影响

  • IT 和安全团队需要将代理功能视为新的特权主体:代理工作区中的代理帐户必须具有可审计的访问控制列表 (ACL)、撤销机制和严格的资源范围。早期 Windows Insider 预览版表明,微软正在提供每个代理的帐户和日志,以实现管理员控制。

  • OEM厂商和硬件供应商必须规范NPU功能并公布有意义的基准测试结果。如果没有一致的测试协议,宣传的TOPS(万亿次运算)数据毫无意义;必须通过独立测试在实际任务上进行验证。论坛讨论表明,微软期望具备强大NPU支持的Copilot+硬件成为设备端模型的主流平台。

  • 对于企业而言,本地推理的商业价值包括降低出口成本、降低延迟以及潜在的合规优势,但治理和审计负担也会相应增加。


文件大小、打包和分发——预期结果

微软表示,Fara-7B 已在 Foundry 和 Hugging Face 上以开放权重文件的形式发布,并针对 Copilot+ PC 提供了硅优化版本。官方模型页面展示了模型卡、函数签名和分发渠道,但并未为每个版本硬编码一个统一的“下载大小”声明,因为量化方式、格式(safetensors 与 pt)以及 NPU 的封装方式各不相同。模型卡文档列出了硬件和软件依赖项(torch、transformers、vLLM),并提供了一个 Magentic-UI Docker 沙箱用于本地测试。
一些社区报告和基准测试表明,当以实用的 4 位量化格式存储,并包含相应的标记器和配置文件时,量化后的 7B Qwen 风格权重文件的大小通常在15-17 GB左右。这些数字会因量化后端、格式和压缩方式的不同而有所差异;它们可以作为规划磁盘和显存需求的经验法则,但应通过在 Hugging Face 或 Microsoft Foundry 上检查您计划下载的具体版本文件来验证其大小。将任何单一的“X GB”声明视为特定于具体实现的、有条件的准确声明。

(重要提示:一些热门科技媒体对微软 UI 沙盒的拼写略有不同——微软的公开资料将其称为Magentic-UI,而不是“Magnetic-UI”。这在搜索文档和下载时很重要。)



优势和战略理由

  • 紧凑的智能体能力: Fara-7B 展示了当使用精心构建的合成轨迹进行训练时,一个规模适中的模型如何能够吸收复杂的多步骤行为,从而提高效率并实现设备上的部署。

  • 设备端隐私和延迟:对于许多消费者和企业用户而言,将屏幕截图和操作轨迹保留在本地可以减少信息泄露并加快交互速度。这是微软在 Copilot+ 硬件中采取的一种务实的权衡方案。

  • 开放权重分发:以宽松的条款提供模型,可以加速研究、外部审计和第三方工具集成。这有助于快速迭代,并构建更广泛的安全使用模式生态系统。


主要风险和未解决的问题

  • 实际应用稳定性:基准测试结果令人鼓舞,但由厂商运行;在高度异构的网络上运行的代理程序会因用户界面变化、动态内容、验证码和反机器人机制而变得脆弱。预计在实验室环境之外,其稳定性会受到影响。

  • 新的攻击面:能够控制输入硬件的模型带来了以往在终端设备上未曾出现的自动化风险。除非策略和运行时控制严格限制这些行为,否则威胁行为者可能会尝试利用社会工程工作流程,让代理协助进行欺诈或数据窃取。

  • 治理复杂性:企业采用取决于策略控制、日志记录、认证和第三方审计。微软的 Agent Workspace 原语看起来很有前景,但真正的 IT 部署需要时间和标准。

  • 模型滥用和双重用途问题:开放权重发布有助于防御者,但也使对手能够研究行为并创建规避技术;持续的红队演练和外部审计至关重要。

  • 声明与独立验证:微软报告称其代理基准测试中表现优于 GPT-4o,但这些声明与上下文相关;在进行概括之前,跨多个数据集和提示设置的独立基准测试至关重要。


给Windows管理员和高级用户的建议

  • 坚持隔离测试:在沙盒虚拟机中运行 Fara 实验,避免在生产帐户中进行试运行。

  • 使用与您的实际任务相匹配的第三方基准来验证供应商的性能声明。

  • 定义严格的 DLP 和代理权限:使用策略限制哪些代理可以运行、哪些文件夹可以访问以及是否可以访问网络。

  • 监控审计日志,并要求对任何超出开发/测试阶段的代理进行认证。


结论

Fara-7B 标志着技术和产品迈出了意义重大的一步:它证明了一个拥有 70 亿参数的智能体,经过大型合成交互数据集的训练,能够高效地识别屏幕并在桌面上执行操作。其架构、长上下文支持以及微软提出的集成方案(Magentic-UI、Copilot+ PC、Agent Workspace)展现了设备端智能体自动化的愿景,如果能够解决安全、稳健性和治理方面的重要问题,这将对生产力和隐私产生变革性的影响。
负责任的前进方向很明确:将 Fara-7B 视为一项研究级功能,在沙箱环境中进行测试,由独立团队进行审计,只有在完善的治理、监控和安全控制措施到位后才能投入生产环境。对于 Windows 爱好者和开发者而言,此次开源发布邀请他们探索智能体自动化——同时也提醒他们,本地化能力既带来能力,也带来责任。



标签: Fara-7B

添加新评论 »