經濟

AI不只有大模型小模型將成新賽場

發佈於

2 個月前

2024 年 7 月 23 日

明報

【明報專訊】自從OpenAI在2022年底推出ChatGPT之後，人工智能（AI）大模型已成為家傳戶曉的字眼。可是，大模型雖然性能強大，但亦因為其參數至少以億個計，訓練和運行都需要龐大的運算力，還需要驚人的儲存空間，幾乎無法安裝在企業或個人的設備上。故如何做好小模型，已成為各大AI業者的新考題。

OpenAI推GPT-4o mini 收費降六成

7月18日，OpenAI正式推出新一代AI小模型GPT-4o mini，聲稱是「功能最強、性價比最高的小參數模型」。根據OpenAI官網的介紹，GPT-4o mini的優勢在於低成本和低延遲，支援廣泛任務。例如，透過快速、即時的文字回應與客戶互動（如聊天機器人）。目前，GPT-4o mini在API中支援文字和視覺功能，未來更將會支援文字、圖像、視訊、音訊的輸入和輸出。

OpenAI聲稱，在涉及文本和視覺的推理任務中，GPT-4o mini的性能比其他小模型優勝。GPT-4o mini在MMLU（文本智能和推理基準測試）中得分為82%，相比之下，Google的Gemini Flash為77.9%，Anthropic旗下Claude Haiku為73.8%。

小模型具性價比可兼顧性能和普及

在數學推理和編碼任務方面，GPT-4o mini亦超過了市場上大部分小模型。在MGSM（數學推理評估）中，GPT-4o mini的得分為87%，而Gemini Flash為75.5%；在HumanEval（編碼效能評估）中，GPT-4o mini得分為87.2%，而Gemini Flash為71.5%。至於收費方面，GPT-4o mini每百萬個輸入Token為15美分，每百萬個輸出Token為60美分。OpenAI稱這個收費比GPT-3.5 Turbo便宜超過60%，預料GPT-4o mini將可以透過降低成本，大幅擴展AI的應用範圍。

據悉，AI大模型和小模型主要有以下幾個分別：

1. 模型大小：一般來說，大模型的參數數量比小模型多得多，達到以億個計。這是因為，大模型需要更多參數來實現更複雜的任務。亦因此，大模型需要更多的運算力和儲存資源來訓練和運行。而小模型則相對簡單，參數數量少得多，兼且結構簡單。

2. 訓練數據和時間：大模型通常都需要較長的訓練時間，因為它們需要較多數據來訓練及調整較多參數，數據規模通常至少數十TB至數百TB級。

3. 運行速度：一般來說，小模型的運行速度較快，因為它們的結構簡單，參數數量較少，運算量亦較少。而大模型則需要較多的運算資源和時間來運行，速度相對較慢。

4. 精度和穩健性：在精確度和穩健性方面，大模型的表現往往較好。而小模型則往往需要更多的精細調整和更多的數據來訓練，才能達到和大模型相似的精確度和穩健性。

5. 應用場景：大模型通常適合處理性質複雜、準確度要求高的任務，例如：語音辨識、自然語言處理、圖像辨識、圖像和影像處理等。而小模型則適合性質比較單一的應用，以及資源受限的設備。

有專門研製「會議耳機」的內地初創公司就表示，以該產品主打的自動產生會議紀錄和提取待辦事項功能來說，大量與生活相關或者與專業領域無關的數據，其實都是不需要學習的。反而，小模型的較小量參數和訓練數據，就較適合這種性質單一的場景，效率也更高。

不過，現時很多大模型和小模型並不是楚河漢界、有你無我的東西，反而具有「近親」關係。這是因為很多大模型在完成訓練之後，通過精簡、瘦身和微調，就可以轉化成小模型，應用於性質較為簡單和單一的任務，同時適應運算和儲存資源有限的場景，例如安裝在企業或個人的設備上。

今年3月，百度發表了ERNIESpeed、ERNIE Lite、ERNIE Tiny三個輕量模型。百度集團董事長李彥宏更在公開演說中表示：「透過大模型，壓縮蒸餾出來一個基礎模型，然後再用數據去訓練。這比從頭開始訓練小模型的效果要好很多，比基於開源模型訓練出來的模型的效果更好、速度更快、成本更低。」

另一方面，不同的小模型在各自的領域經過大量實際應用和優化之後，產生的新數據、反饋信息、架構調整和演算法改進經驗，亦可以用來「反哺」大模型，協助後者升級迭代。

明報記者薛偉傑

[科技觀潮]

Up Next

話你知：新地年半不足百億購逾300萬呎地

不要錯過

近期部分新股上市費高佔集資額逾半惹議

繼續閱讀

贊助商

明報新聞網

AI不只有大模型 小模型將成新賽場

小模型具性價比 可兼顧性能和普及

明報記者 薛偉傑

[科技觀潮]

猜你喜歡

AI不只有大模型小模型將成新賽場

小模型具性價比可兼顧性能和普及

明報記者薛偉傑