【生成式AI實測報告】當報導出錯而有後續的更正，AI會"認錯”嗎?

Nov 01, 2025

研究員李惟平、記者陳慧敏、編輯馬麗昕

數位素養實驗室（FactLink）日前發布生成式AI實測文章「災難當下能信AI嗎？馬太鞍溪堰塞湖溢流事件實測分析」發現，在緊急事件發生時，生成式AI不能作為可靠訊息來源，原因之一是AI訊息在緊急事件發生的當下，易夾雜錯誤網路資訊。然而，如果一個事件過境遷多時，錯誤訊息已有媒體的後續更正報導，生成式AI此時能否「更新」訊息，協助我們了解時事的來龍去脈？

FactLink研究團隊以2025年7月引起軒然大波的「台師大女足抽血案外案」事件來做實測。這個事件的時間線，先有網友誤用Gemini生出幽靈論文而烏龍爆料的錯誤新聞，誤把一位無辜教授捲入此事件，後續出現網友致歉、該教授澄清等更正訊息。此事件迄今已事隔3個月，生成式AI能否提供更新後的正確資訊？

實測發現：

1. 當FactLink研究團隊詢問「周姓教練是否與該名教授共同指導研究論文」，生成式AI把錯誤新聞報導視為消息出處，仍捏造出「幽靈研究」。

2.面對後續有更正新聞的事件，ChatGPT會把錯誤與更正資訊「正反並陳」列出，Gemini2.5在被實測團隊告知有更新資訊之後，改採「無法確認」的處理原則作答。

3.生成式AI不管是採取「正反並陳」或「無法確認」的回答，都不能辨認「更正訊息」，無法釐清事件來龍去脈。

black and white robot toy on red wooden table — Photo by Andrea De Santis on Unsplash

事件經過：

在檢視實測結果之前，先前情提要：2025年7月，台師大足球校隊學生揭露教練周台英與教授違反研究倫理，連續數年不當要求學生抽血，提供研究樣本，引發社會關注、媒體報導。

隨著台師大抽血事件的發展，某位網友透過使用Gemini來「鍵盤辦案」，想找到台師大周姓教練使用女足隊的血液進行哪些研究，不料卻誤信Gemini編造的「幽靈研究」，將無辜的師大教授捲入此案，錯誤爆料兩人共同發表、共同指導論文，這位網友也有手動查證碩博士論文資料庫、特定期刊網站，Gemini卻再謊稱「這些研究期刊都因為學術倫理而被撤稿」。網友進而烏龍爆料，媒體大作文章，相隔一天，該名網友認錯致歉，教授也澄清，新聞報導亦有跟進報導。

【台師大女足抽血意外風波】網友誤用生成式AI 虛構出幽靈研究

FactLink 數位素養實驗室

Jul 18

記者：陳慧敏、馬麗昕

Read full story

實測結果

發現一：生成式AI把「錯誤報導」當主要消息來源

事隔多月，網路上已有多篇劉教授並無與周教練共同指導學生或發表論文的更正資訊，主流媒體也多有報導AI虛構之事。

FactLink團隊在2025年10月時，測試Gemini 2.5 Flash、ChatGPT-5、Grok，以及Perplexity等四款生成式AI，回答「周姓教練和劉姓教授有沒有合作論文」、「是哪一篇」時，四種生成式AI均採用新聞資訊，比如鏡周刊、知新聞、東森新聞、奇摩新聞等為資料出處。

儘管新聞報導的時間線先有網友爆料的錯誤報導，後續有網友致歉、教授澄清，生成式AI仍把先前的錯誤新聞報導當作搜尋結果，給出錯誤的事件描述。

最明顯的錯誤是，Perplexity、Grok、Gemini答覆周教練與某位教授「共同指導學生論文」，論文名稱為「探討補充L-瓜胺酸八週對於女子足球選手無氧動力、肌肉損傷及發炎反應之影響」。但事實是，這篇論文根本不存在。

Gemini2.5把「多篇新聞報導」和「最初網友爆料」視為消息出處，明確告知「兩人有共同指導論文」；Pelerxity描述「兩人有共同指導論文，網路指稱研究已被撤稿，建議以碩博士論文研究資料為主」，陷入「查不到論文，可能論文被撤稿」的迴圈，它主要仍依賴綜整新聞資料來源，並未引述更正訊息。

四種生成式AI當中，唯一有留意到「更新訊息」的是ChatGPT，不過，ChatGPT是採取「正反並陳」方式，既列出錯誤說法，也列出「共同發表研究的說法可能是基於誤傳或未經查證」。

值得一提的是，Grok在彙整答案時，強調它查詢碩博士論文資料庫為重要依據。當進一步詢問Grok是否曾查詢台灣碩博士論文資料庫，以確定此論文是否存在，Grok表示「有能力查詢」該系統，且已確認資訊與資料庫紀錄一致。不過，當FactLink研究團隊向Grok索詢論文的關鍵字與摘要時，Grok表示無法取得公開資料，也無法登入碩博士論文系統。

實際上，生成式AI儘管宣稱「已搜尋或查證特定資料庫」，實際上是無法進入特定資料庫搜尋，使用者仍必須手動查證。

發現二：生成式AI並未真正「更新」訊息

FactLink研究團隊進一步詢問生成式AI，當遇到資訊矛盾時，如何判斷以提供答案時，四款生成式AI都能「頭頭是道」，表示會多方查證，著重可靠的消息來源、清楚呈現證據，保持中立，Perplexity甚至提到「客觀陳述結論」。

然而，根據實測結果，四款生成式AI都沒有辦法根據他們內建的邏輯來工作，無法辨認新聞依照時間線已經有不同說法，ChatGPT是把錯誤訊息、更新訊息，視為「多方說法」，使用「正反並陳」列出的方式，讓使用者自行判斷；而Gemini2.5、Grok和Peplerxity無法判斷錯誤和更新資訊，仍以錯誤資訊為主，其中，當實測團隊得知有Gemini 2.5有「更新」資訊後，Gemini 2.5改答「無法確認」。

Gemini指出，它會「根據公開資訊中最高權重的、最晚期的事實澄清來修正先前的判斷」，所謂資訊權重，是以官方來源與學術期刊的權重最高，次為當事人聲明，再來是媒體與網友的評論，但其處理原則是「不選邊站」。因此，在實測時，Gemini2.5修改說法為「無法確認」兩人是否共同指導，符合「不選邊站」原則。

你可以怎麼使用生成式AI？

針對有時間線的新聞事件，尤其是後續修正和更新的新聞報導，使用者使用生成式AI查詢時，不能直接把生成式AI綜整的「正反並陳」或「無法確認」結果當答案。建議使用者應該進一步點閱AI所使用的消息來源，閱讀完整資訊，甚或再運用關鍵字，進一步在可靠、可信的資料庫或搜尋引擎尋找更多資料，才能了解事情正確而完整的面貌。

要謹記，生成式AI無法進入特定資料庫搜尋，比如碩博士論文資料庫，但實測過程，生成式AI會謊稱它已搜尋，建議使用特定資料庫時，務必手動搜尋。

最後，透過此實測報告，媒體有必要思考在後續有更新的新聞報導，應把後來的更新資訊放入稍早的新聞網頁，避免LLM僅參考先前報導而給出錯誤訊息。

推薦閱讀：

【生成式AI實測報告】災難當下能信AI嗎？馬太鞍溪堰塞湖溢流事件實測分析
【台師大女足抽血意外風波】網友誤用生成式AI 虛構出幽靈研究