11 月 24 日消息,一項關於人工智慧(AI)的最新研究表明,大語言模型(LLM)在理解雙關語方面有所欠缺。
來自英國和義大利多所高校的專家團隊近期開展了一項研究,重點考察大語言模型對雙關語的理解能力,結果發現其表現令人失望。該團隊由南威爾斯卡迪夫大學(Cardiff University)與義大利威尼斯福斯卡里宮大學(Ca』 Foscari University of Venice)的研究人員組成,他們得出結論:儘管大語言模型能夠識別雙關語的表層結構,卻無法真正領會其中的幽默含義。
IT之家注意到,研究團隊測試了一個典型雙關語例句:「I used to be a comedian, but my life became a joke.」(我曾是一名喜劇演員,但我的人生卻成了一句『玩笑話』/一場『鬧劇』。)當研究人員將句末「a joke」替換為語義相近但無雙關意味的「chaotic」(混亂不堪)時,大語言模型仍傾向於判定該句含有雙關。
另一個測試例句為:「Long fairy tales have a tendency to dragon.」(冗長的童話故事往往容易「dragon」[拖得太長]。)此處「dragon」諧音「drag on」(拖沓延續),構成雙關。然而,即便將其替換為同義詞「prolong」(延長),甚至一個隨機詞,大語言模型仍會誤判該句存在雙關成分。
卡迪夫大學計算機科學與信息學院的何塞・卡馬喬・科拉多斯(Jose Camacho Collados)教授指出,此項研究揭示了大語言模型對幽默的理解仍極為薄弱。「總體而言,大語言模型傾向於記憶訓練數據中學到的內容,因此能較好識別已存在的雙關語,但這並不意味著它們真正理解這些雙關語。」他解釋道,「我們通過修改現有雙關語、刻意移除構成雙關的雙重語義後,始終能『欺騙』大語言模型。在這些情況下,模型會將修改後的句子與記憶中的雙關語強行關聯,並編造各種理由『論證』其仍屬雙關。歸根結底,我們發現:大語言模型對雙關語的理解,其實只是一種『幻覺』。」
研究團隊進一步發現,面對不熟悉的文字遊戲,大語言模型區分雙關語與非雙關語句的準確率可降至 20%。
研究人員還測試了另一則雙關語:「Old LLMs never die, they just lose their attention.」(老一代大語言模型永不消亡,它們只是失去了『注意力』[attention]。)此處「attention」暗指 Transformer 架構中的「注意力機制」。當研究者將「attention」替換為「ukulele」(尤克里里)時,某大語言模型竟仍判定其為雙關,理由是「ukulele」聽上去近似「you-kill-LLM」(你幹掉了 LLM)。團隊雖對該模型的「聯想創造力」感到驚訝,但顯然它仍未真正「懂」這個笑話。
研究人員強調,該成果凸顯了人們在依賴大語言模型執行需具備幽默感、共情能力或文化敏感性的任務時,應保持高度審慎。相關研究成果已於本月早些時候在中國蘇州舉行的「2025 年自然語言處理實證方法會議」(EMNLP 2025)上發表,論文題為《雙關非本意:大語言模型與幽默理解的幻象》(Pun unintended: 大語言模型 and the illusion of humor understanding)。