研究顯示谷歌 AI 模型 Veo-3 可生成逼真手術視頻，但缺乏實質性醫學理解

神马作文网教育资讯 2025-11-09 19:56:18 8

11 月 9 日消息，研究人員用真實的手術錄像對谷歌最新視頻生成人工智慧模型 Veo-3 進行了測試，結果發現該模型雖能生成高度逼真的視覺內容，卻嚴重缺乏對醫學操作流程的實質性理解。

研究中，研究人員僅提供單張手術圖像作為輸入，要求 Veo-3 預測接下來 8 秒內的手術進展。為系統評估其表現，一支國際研究團隊構建了名為 SurgVeo 的專用評測基準，涵蓋 50 段真實腹腔與腦部手術視頻。評估環節由四位經驗豐富的外科醫生獨立完成，從視覺真實性、器械使用合理性、組織反饋表現及操作醫學邏輯性四個維度對 AI 生成視頻進行打分（滿分 5 分）。

Veo-3 生成的視頻初看極具欺騙性，部分外科醫生甚至評價其畫質「令人震驚地清晰」。然而深入分析後，其內容邏輯迅速崩塌：在腹腔手術測試中，模型在 1 秒時的視覺合理性尚達 3.72 分；但一旦涉及醫學準確性，得分便大幅下滑 —— 器械操作僅 1.78 分、組織反應僅 1.64 分，而最核心的手術邏輯性評分最低，僅為 1.61 分。模型雖能生成高度擬真的影像，卻無法再現真實手術室中應有的操作流程與因果關係。

IT之家注意到，在對精細度要求極高的神經外科場景中，Veo-3 表現更為遜色。自第 1 秒起，其即難以把握神經外科所需的精準操作：器械使用得分降至 2.77 分（腹腔手術為 3.36 分），而 8 秒後的手術邏輯性評分更是跌至 1.13 分。

研究團隊進一步歸類錯誤類型發現：超 93% 的錯誤源於醫學邏輯層面 —— 例如憑空「發明」不存在的手術器械、虛構違反生理規律的組織反應，或執行在臨床上毫無意義的操作；而僅極小比例的錯誤（腹腔手術 6.2%、腦部手術 2.8%）與圖像質量相關。

研究人員嘗試為模型提供更多上下文線索（如手術類型、具體操作階段等），但結果未呈現顯著或穩定的改善。團隊指出，問題核心並非信息缺失，而在於模型根本缺乏對醫學知識的理解與推理能力。

SurgVeo 研究清晰表明：當前視頻生成 AI 距離真正的醫學理解仍有巨大鴻溝。儘管未來系統或有望用於醫生培訓、術前規劃乃至術中引導，但現有模型遠未達到安全、可靠的應用門檻 —— 它們可生成「以假亂真」的影像，卻缺乏支撐正確臨床決策的知識基礎。

研究團隊計劃將 SurgVeo 基準數據集開源至 GitHub，以推動學界共同提升模型醫學理解能力。

該研究亦警示：將此類 AI 生成視頻用於醫學培訓存在重大隱患。與英偉達利用 AI 視頻訓練通用任務機器人不同，在醫療領域，此類「幻覺」可能帶來嚴重後果 —— 若 Veo-3 類系統生成看似合理實則違反醫學規範的操作視頻，或將誤導手術機器人或醫學生習得錯誤技術。

結果還表明，當前將視頻模型視為「世界模型」（world models）的設想仍過於超前。現有系統僅能模仿表觀運動與形態變化，卻無法可靠掌握解剖結構、生物力學及手術中的因果邏輯。其輸出視頻雖具表面說服力，實則無法捕捉手術背後真實的生理機制與操作邏輯。

本文地址： http://smzww.com/1435773.html

文章来源： IT之家