觀點

陳帆川：調查記者如何以「打了類固醇的Ctrl＋F」爬文？

發佈於

6 個月前

2024 年 3 月 21 日

明報

【明報文章】記者如何在20萬份機密而行文艱澀的技術性文件裏，找出大公司的逃稅證據公諸於世？兩名記者選擇以「打了類固醇的Ctrl＋F」（control-F on steroids），極速搜索相關資料，完成了一個不可能的任務。

財經網Quartz共同創辦人Zach Seward，加盟《紐約時報》成為首名AI（人工智能）項目編務總監後，在SXSW媒體節發表履新後首場公開演講，分析媒體如何用AI報道大新聞，又如何誤用AI造成公關災難。

他分3個章節談新聞界如何用AI，首先是鬧出笑話的負面例子，包括CNET、Gizmodo和Sports Illustrated亂用AI寫稿，文章錯漏百出，甚至生成假記者頭像和自我介紹，以假亂真。最終被網民揭發，亦令「AI寫稿」臭名遠揚。

但他在第二章為AI平反，指出機器學習可以輔助記者調查大新聞，包括國際調查記者同盟（ICIJ）2019年揭發毛里裘斯成為避稅天堂，兩名記者利用doc2vec機器學習模型，將20萬份文件裏的純文字轉化成數據，從中辨識出肉眼無法辨識的規律。

BuzzFeed也在2017年使用機器學習模型，分析美國公開數據中的航班鳥瞰圖，找出不停在同一地點盤旋的飛機，揭發間諜行為。《華爾街日報》去年利用機器學習，從Google街景裏找出疑似含鉛電纜，再派記者實地化驗，找出大量危害公眾的纜線。套用Seward的說法：「我們無法在美國每個街頭派一名記者，但多虧AI，我們某程度上做到了。」

「最重要是人類優先、人類把關」

他在第三章延伸探討大型語言模型的應用：「傳統機器學習擅長在混亂的數據中尋找規律，生成式AI的超能力卻是創造規律。」新聞網The Marshall Project利用OpenAI公司的GPT-4，總結美國30個州的冗長監獄禁書條例，讓讀者了解每個地方有什麼類型的書被禁。

另外，他推介一個名為Realtime的新聞網，利用公開數據自動生成折線圖，識別出奇怪趨勢，例如紐約空氣質素是否特別高、地鐵客量是否偏低、鼠患是否正改善等，AI再為每幅圖生成解釋。

Seward總結：「在所有的應用裏，最重要是人類優先、人類把關。」意指由人類決定什麼時候用AI，並在內容生成之後由人類審閱，AI便能夠完成人類不能夠完成的任務。

作者是新聞工作者、文化評論人

（本網發表的時事文章若提出批評，旨在指出相關制度、政策或措施存在錯誤或缺點，目的是促使矯正或消除這些錯誤或缺點，循合法途徑予以改善，絕無意圖煽動他人對政府或其他社群產生憎恨、不滿或敵意）

[陳帆川]

Up Next

筆陣：新形勢底下香港有沒有新議程／文：呂大樂

不要錯過

聞風筆動：拆解23條附屬法例涉駐港國安公署職責之謎／文：李先知

繼續閱讀

贊助商

明報新聞網

陳帆川：調查記者如何以「打了類固醇的Ctrl＋F」爬文？

「最重要是人類優先、人類把關」

作者是新聞工作者、文化評論人

[陳帆川]

猜你喜歡