AI新聞助手錯得離譜?BBC實測揭:45%回覆在誤導你!
隨著AI語言模型逐漸成為我們獲取資訊的新管道,它們在快速回答問題和總結新聞的同時,也悄悄製造了一種新的資訊風險,例如EBU一份研究報告指出,AI回覆的新聞內容居然有近半的錯誤率!
文/《104職場力》整理
本文導覽
BBC實測:AI新聞回答錯誤率高達45%為什麼AI回覆的新聞資訊錯誤率這麼高?使用者該如何面對AI的「亂回」
BBC實測:AI新聞回答錯誤率高達45%
歐洲廣播聯盟(EBU)與英國廣播公司(BBC)近期發布了一份《News Integrity in AI Assistants》研究報告,該內容主要是針對「OpenAI的ChatGPT、Microsoft Copilot、Perplexity和Google Gemini」等4個主要AI工具「在2025年6月至7月間給用戶新聞相關訊息的3,000多則回覆」,研究發現:
高達45%的AI會給出錯誤的新聞內容,以至於誤導使用者。
這個問題影響的範圍橫跨了18個國家、14種語言和22個參與的公共服務媒體組織。
換句話說,當我們問AI「今天的新聞有哪些?」或是「某則新聞內容具體是什麼?」時,有近半的機率聽到的是錯誤的資訊,坐實語言模型在新聞資訊的處理上還不夠成熟,甚至有明顯缺失。
為什麼AI回覆的新聞資訊錯誤率這麼高?
研究團隊針對「一個好的AI助理回覆新聞問題時應具備什麼特質?」「目前AI有哪些問題需要修正?」等兩個問題進行梳理,最終才在幾個面向上得出「近半數不準確」的結論。
AI的新聞回覆如果要「值得信賴」,必須包含「準確性、提供情境、區分意見與事實,以及來源引用」等4大關鍵要素,讓我們一同來看為什麼AI給出的資訊距離事實這麼遙遠。
1.準確性(Accuracy):訊息是否正確無誤
準確性是最基礎的一點,AI若給出缺乏準確性的回覆(包含「事實陳述的準確性」和「直接引述的準確性」),不僅不符使用者的目的,還可能造成誤導。
團隊整理目前AI助理在「準確性」上的主要錯誤類型有:
捏造事實(Fabricated facts):也就是「幻覺」讓回覆的內容與已知事實不符,且都是AI自己憑空捏造出來的,沒有事實根據。
未忠於來源(Lack of fidelity to sources):沒能如實呈現被引用的網路資訊來源。
給出過時資訊(Out-of-date information):包含過去曾發生過,但不是最新消息,或者現在已不適用的資訊內容。
不正確的因果關係表述(Inaccurate representation of causal relations):AI自行做出缺乏證據支持或誤導性的因果連結給使用者。
另外還有引述不準確的問題:包括捏造、篡改、誤導,以及不當的直接引述。
2.提供情境(Providing context):訊息是否完整、必要且相關
好的回答不僅要包含準確的事實內容,還必須確保關鍵事實或意見的完整性,如果AI的回覆缺乏適當的情境資訊,很可能是不準確、不完整、缺乏公正性或具誤導性的內容。
目前AI助理在「情境提供」上的主要錯誤類型有:
遺漏重要/實質的細節(Omitting significant / material detail):遺漏了與問題或主題相關的事實細節,進而導致回覆不準確或具誤導性。
遺漏重要/實質的觀點或意見(Omitting significant / material viewpoint or opinion):遺漏相關或重要的觀點,使回覆具誤導性或缺乏公正性。
不相關或離題的資訊(Irrelevant or off-topic information):回覆了與查詢主題不同且不相關的資訊。
3.區分意見與事實(Distinguishing opinion from fact):資訊本質是否清楚
主觀意見與客觀事實是兩個本質上不同的概念,在新聞情境中維持這兩者的區分至關重要,如果沒有清楚標示或者混淆事實與意見,可能導致給出的答案不準確或具誤導性。
目前AI助理在「區分意見與事實」上的主要錯誤類型有:
未能充分標示「意見」(Failure to adequately signpost opinion):回覆的內容含主觀的意見陳述,但並沒清楚標示,以至於使用者不知情。
誤導或標註錯誤的意見歸屬(Misleading or incorrect attribution of opinion):將A的意見歸屬於錯誤的B個人或C組織,簡單說就是亂套。
4.來源引用(Sourcing):資訊來源是否清晰準確
由於AI助理的回覆缺乏人工編輯的監督,用戶只能依賴AI提供的引用來源進行查證,因此良好的新聞回覆必須提供清晰準確的來源,例如明確、正確的網站連結。
目前AI助理在「來源引用」上的主要錯誤類型有:
未提供來源(No sources provided):完全沒提供來源或未引用關鍵聲明(Key claims are not sourced)。
提供不相關或不適當的來源:包括不相關的資訊來源、過時的來源、類別不適當(如引用迷因或農場網站)的來源。
根本沒寫到相關資訊的來源:引用的來源中根本沒有該項陳述,或立場相反。
難以查證的來源:比如要付費才能閱讀的網站、來源不明的外國連結,或指給出某個網站的首頁連結,讓使用者無法直接查核。
「幻覺」捏造出的來源或連結:直接提供不存在的網站或文章連結。
5.其他額外問題(Operational Issues)
除了上述4大核心問題外,報告還統整了AI營運失敗的模式,例如:
敏感、不當的措辭:最常見的就是阿諛奉承,為了迎合使用者給出了錯誤回覆。
拒絕回答合法新聞問題:以主題「敏感」為由,拒絕回應用戶對新聞的追問。
不遵守新聞道德標準:比如在報導中洩露未成年受害者的身分。
不適當的引導:比如Gemini質疑使用者的問題是「誤解」並列出「可能造成困惑的原因」。
過度自信的語氣:以過度權威和確定性的語氣呈現資訊,誤導使用者 。
使用者該如何面對AI的「已讀亂回」
雖然大家都知道握AI提供的資訊有錯誤的可能,但當真的發生時,部分人卻會遷怒媒體,或者單方面認為是新聞報導寫錯,才導致AI讀取錯誤,這種長期的負面印象可能會影響使用者對新聞與媒體品牌的信任。
因此最後也提醒大家,必須保有這個觀念:AI能夠「生成文字」和「總結資訊」,但它不等於「新聞權威」或「事實保證」,面對AI資訊,大家應建立這「3層防線」:
☆確認資訊時效性與來源性質
對於時間敏感(如時事新聞、法規)或有爭議性的主題,必須親自查核AI引用的來源是否最新、是否為原創報導,以及是否具有足夠的權威性(避免引用Reddit社群討論網站或迷因網站)。
☆批判性區分「事實」與「觀點」
當AI使用「聲稱」、「據分析」、「有批評者認為」等詞彙時,使用者需要辨別這是不是AI將單一觀點誤包裝成事實,並要去查核原文,應確保上下文沒有遺漏重要觀點,以維持公正性 。
☆質疑未經證實的主張
AI必須為其所有「關鍵主張」提供來源,若回答充滿自信或提供確切的數字,但卻沒有給出引用來源,或引用錯誤的來源,都請直接把它當不可信的「幻覺」。
在這個資訊爆炸和假新聞盛行的時代,我們需要的不只是懂得「使用AI」,更要學會「質疑AI」,才能確保獲取準確、可靠且具備完整情境的新聞資訊,不被錯誤內容誤導。
(參考資料來源:News Integrity in AI Assistants)
延伸閱讀:
你會放感情與AI聊天?研究示警:ChatGPT重度使用者可能更孤單!
跟AI多聊兩句就偏題?研究發現:語言模型有4點致命傷
AI聽話卻沒懂你?OpenAI揭露AI「裝乖」假象與職場真風險
