11 月 9 日消息,研究人員用真實的手術錄像對谷歌最新視頻生成人工智慧模型 Veo-3 進行了測試,結果發現該模型雖能生成高度逼真的視覺內容,卻嚴重缺乏對醫學操作流程的實質性理解。
研究中,研究人員僅提供單張手術圖像作為輸入,要求 Veo-3 預測接下來 8 秒內的手術進展。為系統評估其表現,一支國際研究團隊構建了名為 SurgVeo 的專用評測基準,涵蓋 50 段真實腹腔與腦部手術視頻。評估環節由四位經驗豐富的外科醫生獨立完成,從視覺真實性、器械使用合理性、組織反饋表現及操作醫學邏輯性四個維度對 AI 生成視頻進行打分(滿分 5 分)。
Veo-3 生成的視頻初看極具欺騙性,部分外科醫生甚至評價其畫質「令人震驚地清晰」。然而深入分析後,其內容邏輯迅速崩塌:在腹腔手術測試中,模型在 1 秒時的視覺合理性尚達 3.72 分;但一旦涉及醫學準確性,得分便大幅下滑 —— 器械操作僅 1.78 分、組織反應僅 1.64 分,而最核心的手術邏輯性評分最低,僅為 1.61 分。模型雖能生成高度擬真的影像,卻無法再現真實手術室中應有的操作流程與因果關係。
IT之家注意到,在對精細度要求極高的神經外科場景中,Veo-3 表現更為遜色。自第 1 秒起,其即難以把握神經外科所需的精準操作:器械使用得分降至 2.77 分(腹腔手術為 3.36 分),而 8 秒後的手術邏輯性評分更是跌至 1.13 分。
研究團隊進一步歸類錯誤類型發現:超 93% 的錯誤源於醫學邏輯層面 —— 例如憑空「發明」不存在的手術器械、虛構違反生理規律的組織反應,或執行在臨床上毫無意義的操作;而僅極小比例的錯誤(腹腔手術 6.2%、腦部手術 2.8%)與圖像質量相關。
研究人員嘗試為模型提供更多上下文線索(如手術類型、具體操作階段等),但結果未呈現顯著或穩定的改善。團隊指出,問題核心並非信息缺失,而在於模型根本缺乏對醫學知識的理解與推理能力。
SurgVeo 研究清晰表明:當前視頻生成 AI 距離真正的醫學理解仍有巨大鴻溝。儘管未來系統或有望用於醫生培訓、術前規劃乃至術中引導,但現有模型遠未達到安全、可靠的應用門檻 —— 它們可生成「以假亂真」的影像,卻缺乏支撐正確臨床決策的知識基礎。
研究團隊計劃將 SurgVeo 基準數據集開源至 GitHub,以推動學界共同提升模型醫學理解能力。
該研究亦警示:將此類 AI 生成視頻用於醫學培訓存在重大隱患。與英偉達利用 AI 視頻訓練通用任務機器人不同,在醫療領域,此類「幻覺」可能帶來嚴重後果 —— 若 Veo-3 類系統生成看似合理實則違反醫學規範的操作視頻,或將誤導手術機器人或醫學生習得錯誤技術。
結果還表明,當前將視頻模型視為「世界模型」(world models)的設想仍過於超前。現有系統僅能模仿表觀運動與形態變化,卻無法可靠掌握解剖結構、生物力學及手術中的因果邏輯。其輸出視頻雖具表面說服力,實則無法捕捉手術背後真實的生理機制與操作邏輯。