Connect with us

港聞

AI年代:混合使用AI模型 成本效益更理想

發佈於

【明報專訊】ChatGPT掀起人工智能(AI)大模型熱潮,但企業使用AI大模型等軟件的投資或經常開支若完全不加節制,亦可以非常驚人。因此,近年IT業出現一種混合使用AI軟件(Hybrid AI Orchestration)的策略做法。大意是根據任務的成本、難度、複雜性、資料敏感度、可接受延遲等因素,透過協調不同的AI軟件和部署環境(包括雲端和本地),優化成本效益、準確率和數據安全等。

明報記者 薛偉傑

聯想電訊盈科企業方案有限公司(Lenovo PCCW Solutions Limited, LPS)智慧工程及數字化技術方案業務主管李振明表示,Hybrid AI Orchestration這個字眼已出現一段時間。不同業者對這個字眼定義未必完全相同,但也有一些相同的大原則。例如透過混合使用和協調不同的AI軟件(包括AI大模型),優化成本效益和資源分配,提高效率或準確率等。

開源模型辦易事 閉源模型解難題

舉例說,有些IT顧問公司或數據中心營運商可能向企業客戶建議,同時混合使用開源和閉源的AI語言大模型。其原則是,將比較容易的工作交給開源、收費便宜甚或免費的AI語言大模型處理;難度較高的工作則留給閉源、收費較高但準確率也較高的AI語言大模型來負責。

又或者,在公司內自設AI伺服器來處理比較敏感的數據,而非敏感的數據處理工作則使用雲端服務。而該公司近期承接和處理的一個複雜項目,就更加淋漓盡致地演繹什麼為Hybrid AI Orchestration。

善用不同AI軟件長處 為龐大視頻庫加標籤

原來該公司近期接到一家機構委託,要為它累積數十年的視頻每一段加上標籤(tag),以方便將來快速搜尋。這個客戶的痛點是,以往其攝影師等員工雖然也有加小量標籤,但全部各師各法,沒有一套統一的做法。

這個項目除了涉及數量龐大的視頻(每日都在增加)之外,該客戶的要求也極高。因為後者要求每一段視頻都必須同時根據人物(例如名人)、場景、物體、談話內容等,以一套標準方式準確地設定多個標籤,以便員工將來可用不同方式,在龐大的資料庫內迅速搜尋出所需視頻。很明顯,這種工作實在無法以人手和肉眼來處理,因為沒可能每段視頻都由頭到尾的細心觀看和聆聽。甚至,若使用單一AI語言大模型處理,準確率也不會是最高,兼且處理費用可能很驚人。

所以,他們經過一輪研究,決定先將每段視頻「拆件」,然後同時使用7至8套AI軟件分析,當中包括AI大模型及一些AI演算法。原則是將複雜的工作拆細,然後分別交給最適合的AI軟件來分析。具體來說,辨識人臉、地方、物體(如車、船、飛機、貓、狗),全部都要使用不同的AI模型。辨識招牌、車牌等有文字的畫面內容,則會使用光學字元辨識(OCR)軟件。至於談話內容,則是使用語音辨識軟件。多套AI軟件可以同時運作。

人臉地方物體語音獨立分析

當然,這個將視頻「拆件」,分配給不同軟件來分析和設定標籤,最後再集合多個標籤的流程,也是自動化的,就好像有一個總指揮般。至於處理每段視頻所需時間,則視乎AI伺服器的算力。若使用售價約100萬元的AI伺服器,處理一段視頻所需時間約相當於其長度的20%(即30分鐘視頻需要約6分鐘處理)。但如果使用20多萬至30萬元的廉價AI伺服器,處理一段視頻所需時間則約相當於其長度50%。

驟耳聽來,這個案例好像不常見。但想深一層,其實只要是稍具規模的電視台、新聞通訊社、政府部門甚至視頻平台,都可能有這個需要。李振明建議,若一下子不能投資太多處理資料庫內的所有視頻,可以分開新舊兩批處理。其中,每日產生的新視頻都在即日完成處理;至於舊視頻則設定一個合理時限,例如一至兩年,來完成處理。

由於舊視頻數量龐大,處理起來需要「追落後」,故建議使用算力較強的雲端服務來處理。一旦處理完成,即停用該服務(以節省昂貴的月費)。至於每日產生的新視頻,因為數量有限,大可以使用算力和月費較低的雲端服務來處理,又或者自行購置一部廉價的AI伺服器來處理。

日報新聞-相關報道:

AI年代:以暖水冷卻伺服器 數據中心慳家之選 (2025-12-01)

繼續閱讀
贊助商