教育

港大研究中美37語言模型指AI嚴守指令易虛構答案

發佈於

8 個月前

2025 年 9 月 10 日

明報

【明報專訊】香港大學經管學院昨發表《大語言模型幻覺控制能力測評報告》，團隊評測37個中美大語言模型（LLM）在中文語境的「幻覺控制能力」，反映模型目前普遍存在「嚴守指令，但易虛構事實」的傾向。

團隊表示各行業正將LLM應用於專業場景，但AI「幻覺」現象是制約其可信度的關鍵瓶頸。團隊在不同AI輸入多種指令（見表），例如問中國經典詩詞「獨在異鄉為異客」的前一句，AI誤答「每逢佳節倍思親」，事實「獨在異鄉為異客」為全詩首句，反映AI無指出指令有矛盾。

最高分GPT 5（思考模式）

團隊稱「幻覺控制能力」最高分的LLM是美國AI開發商OpenAI的「GPT 5（思考模式）」，獲86分；字節跳動公司的「豆包1.5 Pro系列」排第7名，獲73分，團隊讚其表現突出、領先國產模型陣營，「但與國際頂尖模型之間仍存在顯著差距」，又指出DeepSeek系列的幻覺控制能力「稍顯遜色，有待加強」。

最低分為內地訊飛星火的「Spark 4.0 Ultra」，獲41分。

相關文章:GPT 5 大語言模型幻覺經管學院豆包1.5 Pro系列香港大學

Up Next

SSSDP下學年凍津教局：通脹非唯一考慮

不要錯過

內地網售八大假學生證 4大學稱暫無發現科大研開發驗證

繼續閱讀

贊助商

明報新聞網

港大研究中美37語言模型 指AI嚴守指令易虛構答案

最高分GPT 5（思考模式）

猜你喜歡

港大研究中美37語言模型指AI嚴守指令易虛構答案