新研究發現 AI 的最大破綻:不是不夠聰明,而是不會「罵人」

神马作文网 教育资讯 13

11 月 8 日消息,科技媒體 Ars Technica 今天(11 月 8 日)發布博文,報道稱最新研究稱 AI 模型在社交媒體上極易被識破,其致命弱點竟是「過於禮貌」。

蘇黎世大學、阿姆斯特丹大學、杜克大學和紐約大學的研究人員於近日聯合發布報告指出,在社交媒體互動中,AI 模型因其過於友好的情感基調而極易暴露身份。

研究團隊開發的自動化分類器在 Twitter / X、Bluesky 和 Reddit 三大平台上進行測試,識別 AI 生成回復的準確率高達 70% 至 80%。這意味著,當你在網上遇到一個異常禮貌的回覆時,對方很可能是一個試圖融入人群卻以失敗告終的 AI 機器人。

為量化 AI 與人類語言的差距,該研究引入了一種名為「計算圖靈測試」的新框架。與依賴人類主觀判斷的傳統圖靈測試不同,該框架運用自動化分類器和語言學分析,精準識別機器生成內容與人類原創內容的具體特徵。

研究團隊負責人、蘇黎世大學的尼科洛・帕根(Nicolò Pagan)表示,即便校準相關模型,其輸出內容仍在情感基調和情緒表達上與人類文本存在明顯區別,這些深層情感線索成為識別 AI 的可靠依據。

研究的核心發現被稱為「毒性特徵暴露」。團隊測試了包括 Llama 3.1、Mistral 7B、Deepseek R1,Qwen 2.5 在內的九款主流開源大語言模型。

當被要求回復真實用戶的社交媒體帖子時,這些 AI 模型始終無法達到人類帖子中常見的那種隨意的負面情緒和自發的情感表達水平。在所有三個測試平台上,AI 生成內容的「毒性」分數(衡量攻擊性或負面情緒的指標)始終顯著低於人類的真實回復。

為了彌補這一缺陷,研究人員嘗試了多種優化策略,例如提供寫作範例或進行上下文檢索,以求在句子長度、詞彙數量等結構性指標上更接近人類。然而,儘管這些結構差異有所縮小,情感基調上的根本差異依然頑固存在。這表明,讓 AI 學會像人一樣「不那麼友好」,可能比讓它變得更聰明還要困難。


抱歉,评论功能暂时关闭!