微軟首款專為電腦操作設計的開源智能體小模型 Fara-7B 發布：支持 Win11 端側運行，性能達同級最強

神马作文网教育资讯 2025-11-25 17:57:34 50

11 月 25 日消息，當地時間 11 月 24 日，微軟宣布推出全新的開源小型語言模型 Fara-7B，定位為專門用於計算機操作的「Agentic」模型，可通過鼠標和鍵盤執行網頁任務。

作為微軟首個面向電腦使用場景的小模型（SLM），Fara-7B 由 70 億參數構成，在同級體量中達到領先性能，並能在設備端本地運行，實現更低延遲及更好的隱私保護。

據介紹，Fara-7B 不像傳統聊天模型依賴文本交互，而是通過視覺解析網頁截圖，並在螢幕上執行點擊、輸入、滾動等動作，不需要依賴額外的可訪問性樹（Accessibility Tree）或多個大模型協作。

微軟為此構建了一條全新的合成數據生成流程，用以模擬複雜多步驟的網頁任務，來源包括真實用戶需求和真實網頁。該流程依託 Magentic-One 框架，涵蓋任務生成、任務求解及軌跡驗證三個階段，最終用於訓練模型的包括 14.5 萬條任務軌跡、100 萬步驟，並包含定位、描述與視覺問答等輔助任務數據。

IT之家從微軟官方獲悉，該模型基於 Qwen2.5-VL-7B 底座，支持最長 128k 上下文。在執行任務時，Fara-7B 會在預測動作前輸出推理內容，並調用 Playwright 的標準操作（例如 click (x,y) 和 type ()）及網頁宏操作（如 web_search ()）。訓練方式以監督微調為主，並未使用強化學習。

在測試中，Fara-7B 在多項公開基準（WebVoyager、Online-Mind2Web、Deepshop）以及微軟新公布的 WebTailBench 中表現亮眼，在部分任務中領先同級模型 UI-TARS-1.5-7B，並可與更大規模、通過複雜提示方式驅動的系統（如使用 Set-Of-Marks 的 GPT-4o）競爭。

另外，微軟第三方合作機構 Browserbase 還採用了人工驗證的方式對 Fara-7B 進行評測，最終發現該模型在 WebVoyager 上取得 62% 的通過率（包含重試）。

微軟強調 Fara-7B 仍為實驗性發布，特別是在複雜任務的準確性、指令遵循和降低幻覺方面仍存在局限，未來會持續改進。

鑒於電腦使用智能體模型的特殊風險，微軟在模型中加入了多項安全措施，包括要求模型在涉及敏感操作（如提交個人數據或不可逆行為）時停在「關鍵點」（Critical Point）並徵求用戶同意；所有操作均會被記錄；模型需在沙盒環境運行；並在訓練中加入拒絕執行不當任務的示例。Fara-7B 在 WebTailBench-Refusals 的 111 個紅隊測試任務中拒絕率達到 82%。

目前，Fara-7B 已在 Microsoft Foundry 與 Hugging Face 以 MIT 許可發布並開源，同時整合進 Magentic-UI 研究原型。

微軟還宣布將提供量化與面向 Copilot+ PC 的優化版本，可通過 VSCode 的 AI Toolkit 下載並在 Windows 11本地運行，支持 NPU 加速。微軟表示，未來更強的端側 CUA 模型仍有提升空間，包括依賴更優底座模型與在真實及沙盒環境中使用強化學習。

本文地址： http://smzww.com/1437580.html

文章来源： IT之家