11 月 25 日消息,當地時間 11 月 24 日,微軟宣布推出全新的開源小型語言模型 Fara-7B,定位為專門用於計算機操作的「Agentic」模型,可通過鼠標和鍵盤執行網頁任務。
作為微軟首個面向電腦使用場景的小模型(SLM),Fara-7B 由 70 億參數構成,在同級體量中達到領先性能,並能在設備端本地運行,實現更低延遲及更好的隱私保護。
據介紹,Fara-7B 不像傳統聊天模型依賴文本交互,而是通過視覺解析網頁截圖,並在螢幕上執行點擊、輸入、滾動等動作,不需要依賴額外的可訪問性樹(Accessibility Tree)或多個大模型協作。
微軟為此構建了一條全新的合成數據生成流程,用以模擬複雜多步驟的網頁任務,來源包括真實用戶需求和真實網頁。該流程依託 Magentic-One 框架,涵蓋任務生成、任務求解及軌跡驗證三個階段,最終用於訓練模型的包括 14.5 萬條任務軌跡、100 萬步驟,並包含定位、描述與視覺問答等輔助任務數據。
IT之家從微軟官方獲悉,該模型基於 Qwen2.5-VL-7B 底座,支持最長 128k 上下文。在執行任務時,Fara-7B 會在預測動作前輸出推理內容,並調用 Playwright 的標準操作(例如 click (x,y) 和 type ())及網頁宏操作(如 web_search ())。訓練方式以監督微調為主,並未使用強化學習。
在測試中,Fara-7B 在多項公開基準(WebVoyager、Online-Mind2Web、Deepshop)以及微軟新公布的 WebTailBench 中表現亮眼,在部分任務中領先同級模型 UI-TARS-1.5-7B,並可與更大規模、通過複雜提示方式驅動的系統(如使用 Set-Of-Marks 的 GPT-4o)競爭。
另外,微軟第三方合作機構 Browserbase 還採用了人工驗證的方式對 Fara-7B 進行評測,最終發現該模型在 WebVoyager 上取得 62% 的通過率(包含重試)。
微軟強調 Fara-7B 仍為實驗性發布,特別是在複雜任務的準確性、指令遵循和降低幻覺方面仍存在局限,未來會持續改進。
鑒於電腦使用智能體模型的特殊風險,微軟在模型中加入了多項安全措施,包括要求模型在涉及敏感操作(如提交個人數據或不可逆行為)時停在「關鍵點」(Critical Point)並徵求用戶同意;所有操作均會被記錄;模型需在沙盒環境運行;並在訓練中加入拒絕執行不當任務的示例。Fara-7B 在 WebTailBench-Refusals 的 111 個紅隊測試任務中拒絕率達到 82%。
目前,Fara-7B 已在 Microsoft Foundry 與 Hugging Face 以 MIT 許可發布並開源,同時整合進 Magentic-UI 研究原型。
微軟還宣布將提供量化與面向 Copilot+ PC 的優化版本,可通過 VSCode 的 AI Toolkit 下載並在 Windows 11本地運行,支持 NPU 加速。微軟表示,未來更強的端側 CUA 模型仍有提升空間,包括依賴更優底座模型與在真實及沙盒環境中使用強化學習。