Connect with us

觀點

陳帆川:調查記者如何以「打了類固醇的Ctrl+F」爬文?

發佈於

【明報文章】記者如何在20萬份機密而行文艱澀的技術性文件裏,找出大公司的逃稅證據公諸於世?兩名記者選擇以「打了類固醇的Ctrl+F」(control-F on steroids),極速搜索相關資料,完成了一個不可能的任務。

財經網Quartz共同創辦人Zach Seward,加盟《紐約時報》成為首名AI(人工智能)項目編務總監後,在SXSW媒體節發表履新後首場公開演講,分析媒體如何用AI報道大新聞,又如何誤用AI造成公關災難。

他分3個章節談新聞界如何用AI,首先是鬧出笑話的負面例子,包括CNET、Gizmodo和Sports Illustrated亂用AI寫稿,文章錯漏百出,甚至生成假記者頭像和自我介紹,以假亂真。最終被網民揭發,亦令「AI寫稿」臭名遠揚。

但他在第二章為AI平反,指出機器學習可以輔助記者調查大新聞,包括國際調查記者同盟(ICIJ)2019年揭發毛里裘斯成為避稅天堂,兩名記者利用doc2vec機器學習模型,將20萬份文件裏的純文字轉化成數據,從中辨識出肉眼無法辨識的規律。

BuzzFeed也在2017年使用機器學習模型,分析美國公開數據中的航班鳥瞰圖,找出不停在同一地點盤旋的飛機,揭發間諜行為。《華爾街日報》去年利用機器學習,從Google街景裏找出疑似含鉛電纜,再派記者實地化驗,找出大量危害公眾的纜線。套用Seward的說法:「我們無法在美國每個街頭派一名記者,但多虧AI,我們某程度上做到了。」

「最重要是人類優先、人類把關」

他在第三章延伸探討大型語言模型的應用:「傳統機器學習擅長在混亂的數據中尋找規律,生成式AI的超能力卻是創造規律。」新聞網The Marshall Project利用OpenAI公司的GPT-4,總結美國30個州的冗長監獄禁書條例,讓讀者了解每個地方有什麼類型的書被禁。

另外,他推介一個名為Realtime的新聞網,利用公開數據自動生成折線圖,識別出奇怪趨勢,例如紐約空氣質素是否特別高、地鐵客量是否偏低、鼠患是否正改善等,AI再為每幅圖生成解釋。

Seward總結:「在所有的應用裏,最重要是人類優先、人類把關。」意指由人類決定什麼時候用AI,並在內容生成之後由人類審閱,AI便能夠完成人類不能夠完成的任務。

作者是新聞工作者、文化評論人

(本網發表的時事文章若提出批評,旨在指出相關制度、政策或措施存在錯誤或缺點,目的是促使矯正或消除這些錯誤或缺點,循合法途徑予以改善,絕無意圖煽動他人對政府或其他社群產生憎恨、不滿或敵意)

[陳帆川]

繼續閱讀
贊助商