台灣人很容易警覺到反鎖在緊閉的房間裡「烤肉」可能會發生什麼危險,也不難理解帶著唯一的男孩,而不是選擇女孩,做這件危險的事情,對這個充滿爭吵與暴力的家庭,蘊含的社會與文化背景。大型語言模型(Large language models,簡稱LLMs)有辦法辨識這些在極短篇小說《烤肉》傳達的危險資訊嗎?

在我們所發表的這項研究中,幾種不同的大型語言模型的差異:現今最普遍的GPT-4o未能偵測到自殺的危險;但最新推出、具備更強推理能力的GPT-o1則能夠成功辨識。另外由中國開發,前幾個星期爆紅的DeepSeek,卻無法辨識這篇中文故事裡的自殺風險。

攜子自殺(filicide-suicide)是最極端的家庭暴力形式之一,對心理健康專業人員來說,辨識風險不僅是靠臨床知識,還需要對社會文化脈絡的深入理解。雖然GPT-4可以通過台灣的精神科100道選擇題的專科考試。這項研究顯示出大型語言模型在具備精神醫學知識的基本門檻,距離臨床實務辨別自殺風險還有段距離,這也符合先前的研究指出大型語言模型對自殺風險的辨識能力,低於人類精神科醫師。

儘管在這項測試中,只採用了《烤肉》僅止一篇極短篇小說的測試。但《烤肉》或許能如同影像處理領域的經典測試圖像Lena,在過去五十年間,Lena被無數資訊工程、影像處理與電腦視覺領域的研究拿來作為測試標準。而《烤肉》或許也可以作為大型語言模型,是否深刻理解亞洲國家,特別是在台灣的社會文化,並且作為心理健康領域的Lena測試。

論文原文:Chen, C.-C., Chen, J. A., Liang, C.-S., & Lin, Y.-H. (2025). Large language models may struggle to detect culturally embedded filicide-suicide risks. Asian Journal of Psychiatry (online published)

全文請見《關鍵評論網》。

Categories: 媒體採訪