教育
港大研究中美37語言模型 指AI嚴守指令易虛構答案

【明報專訊】香港大學經管學院昨發表《大語言模型幻覺控制能力測評報告》,團隊評測37個中美大語言模型(LLM)在中文語境的「幻覺控制能力」,反映模型目前普遍存在「嚴守指令,但易虛構事實」的傾向。
團隊表示各行業正將LLM應用於專業場景,但AI「幻覺」現象是制約其可信度的關鍵瓶頸。團隊在不同AI輸入多種指令(見表),例如問中國經典詩詞「獨在異鄉為異客」的前一句,AI誤答「每逢佳節倍思親」,事實「獨在異鄉為異客」為全詩首句,反映AI無指出指令有矛盾。
最高分GPT 5(思考模式)
團隊稱「幻覺控制能力」最高分的LLM是美國AI開發商OpenAI的「GPT 5(思考模式)」,獲86分;字節跳動公司的「豆包1.5 Pro系列」排第7名,獲73分,團隊讚其表現突出、領先國產模型陣營,「但與國際頂尖模型之間仍存在顯著差距」,又指出DeepSeek系列的幻覺控制能力「稍顯遜色,有待加強」。
最低分為內地訊飛星火的「Spark 4.0 Ultra」,獲41分。
繼續閱讀
