蘋果新研究：AI 不聽錄音，憑文本描述能零樣本識別洗碗等 12 種活動

神马作文网教育资讯 2025-11-22 19:52:24 12

11 月 22 日消息，科技媒體 9to5Mac 昨日（11 月 21 日）發布博文，報道稱在最新公布的研究報告中，蘋果指出大語言模型（LLM）可通過分析音頻和運動數據的文本描述，精準識別用戶活動，未來可能會應用於 Apple Watch 上。

這項名為「後期多模態傳感器融合」（Late Multimodal Sensor Fusion）的技術，主要結合 LLM 的推理能力與傳統傳感器數據，即使在傳感器信息不足的情況下，也能精確判斷用戶正在進行的具體活動。

研究的核心方法頗具新意。大語言模型並未直接處理用戶的原始音頻錄音或運動數據，而是分析由專門的小型模型生成的文本描述。

具體來說，音頻模型會生成描述聲音環境的文字（如「水流聲」），而基於慣性測量單元（IMU）的運動模型則會輸出動作類型的預測文本。這種方式不僅保護了用戶隱私，還驗證了 LLM 在理解和融合多源文本信息以進行複雜推理方面的強大能力。

為驗證該方法，研究團隊使用了包含數千小時第一人稱視角視頻的 Ego4D 數據集。他們從中篩選出 12 種日常活動，包括吸塵、烹飪、洗碗、打籃球、舉重等，每段樣本時長 20 秒。

隨後，研究人員將小模型生成的文本描述輸入給谷歌的 Gemini-2.5-pro 和阿里的 Qwen-32B 等多個大語言模型，並測試其在「零樣本」（無任何示例）和「單樣本」（提供一個示例）兩種情況下的識別準確率。

測試結果顯示，即使沒有任何針對性地訓練，大語言模型在活動識別任務中的表現也遠超隨機猜測的水平，其 F1 分數（衡量精確率和召回率的指標）表現優異。當獲得一個參考示例後，模型的準確度還會進一步提升。

這項研究表明，利用 LLM 進行後期融合，可以有效開發出強大的多模態應用，而無需為特定場景開發專門模型，從而節省了額外的內存和計算資源。蘋果公司還公開了實驗數據和代碼，以供其他研究者復現和驗證。

本文地址： http://smzww.com/1437178.html

文章来源： IT之家