Connect with us

港聞

AI年代:自研AI模型+LLM 解決運作成本問題

發佈於

【明報專訊】MotoNerv的​「視覺理解​人​工智能模型​」包括兩個部分,分別稱為Vision AI(視覺AI)和Reasoning AI(推理AI)。Vision AI為該公司使用過百萬條短片自行訓練出來的人工智能模型,作用類似人類的眼睛。Reasoning AI是市場上某個主流的人工智能語言大模型(LLM)(若有需要,可以隨時更換另一個),作用類似人類的大腦。

Vision AI負責將影像內的人類、動物、植物、昆蟲​、物件​、汽車、家具​、背景​、環境​​,以及行為動作、交互等詳盡細節​,轉化成LLM能夠高效讀取的「檢索增強生成」(RAG)文本格式。然後,Reasoning AI讀入這些文本資料,分析有沒有和監察要求相符的情况。若有的話,便標記下來。​

MotoNerv共同創辦人兼行政總裁馮鑫傑解釋,若要LLM直接分析影片,它也辦得到,但這樣做的算力要求和運作成本極高。分析幾分鐘短片,要幾十至幾百美元。若直接使用LLM來全日24小時分析多個鏡頭的影像,成本沒有機構能夠負擔。所以,該公司才構思出這個二部曲方案,由2023年初開始研發,到2024年初推出市場。現時該公司亦有就這個方案申請專利。

該公司網頁(www.motonerv.tech/demo2)上,亦可以看到幾條短片,以及視覺理解​人​工智能模型​的運作示範,一般人亦可以隨意輸入問題。

不過,馮鑫傑承認,視覺理解​人​工智能模型​這個方案只適合整體理解影像畫面的應用。它和單一範圍專精的人工智能模型其實是各擅勝場,兩者好像十項全能運動員和單項運動員的對比。舉例說,若用戶需要辨認每個人臉,找出一些失蹤人士或恐怖分子等,當然應該採用專攻人臉辨識的人工智能模型。

日報新聞-相關報道:

AI年代:視覺理解AI 隨時改要求毋須加操 (2025-10-06)

繼續閱讀
贊助商