ChatGPT們能講人話后，AI污染互聯網將變本加厲

虎嗅網 ? 5月前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

本文來自微信公眾號： APPSO （ID：appsolution），作者：發現明日產品的，頭圖來自：AI生成

人類最擔心的事情還是發生了。

隨意在網上翻看幾篇新聞，卻分不清是否出自AI之手；忙里偷閑時打把游戲，也看不懂沉默的隊友是人機還是真人。

直播間里，明星數字人充耳不聞地吮雞爪，與賣力吆喝的真人助播形成割裂的場景……

而據外媒404 media報道，一個用于追蹤和分析多種語言中詞匯趨勢的項目——Wordfreq，現在也成了當下這種現象的最新受害者。

陽光明媚的地方總有陰影潛伏，顯然Wordfreq不是第一個受害者，也不會是最后一個受害者。

最終為之買單的或許還是人類本身。

GPT們污染語言，人類要為之買單

生成式AI污染了數據，我認為沒有人掌握關于2021年后人類使用語言的可靠信息。

這句來自Wordfreq項目創建者羅賓·斯皮爾心中的吶喊，透出了幾分無奈與憤懣。

究其原因，還得從Wordfreq的來歷談起。

通過分析維基百科、電影和電視字幕、新聞報道、以及Reddit等網站內容，Wordfreq試圖追蹤40多種語言的變遷，進而研究隨著俚語和流行文化變化而不斷變化的語言習慣。

對于語言學家、作家和翻譯人員而言，Wordfreq無疑是一項寶庫。現在，GitHub地址上偌大的一句聲明“該項目將不再更新”，也悲情地給這個項目敲響了喪鐘。

曾經，網絡抓取公開數據是該項目數據源的生命線，但隨著AI文本開始大行其道，Wordfreq賴以更新的根基便遭到了動搖。

斯皮爾表示，過去人們很少使用“delve”這個詞，而隨著ChatGPT將這個詞匯變成了口頭禪，大有李鬼冒充李逵之勢，間而也就讓失真的詞頻統計影響了對人類語言習慣的準確分析。

如果這還不夠直觀，GPT們那些陳詞濫調，比如“總之”、“綜上所述”等詞匯的泛濫便是最醒目的警告。

這股趨勢也正逐漸滲透到學術寫作乃至文學創作中。

一份來自斯坦福大學的報告曾指出，ChatGPT在短短五個月內，就成了許多專家學者們的“寫作神器”。其中在計算機科學領域，幾乎每六篇摘要、每七篇引言中，就有一篇出自它的手筆。

隨之而來的，便是生成式AI對人類寫作風格的“大舉入侵”。

意大利國際高等研究院的博士生耿明萌的研究成果就像一面鏡子，進一步映照出ChatGPT的詞語偏好，也充分證實了它在學術論文寫作中的影響力。

在分析arXiv上超過百萬篇論文的摘要后，耿明萌發現，論文的詞頻在ChatGPT普及后出現了明顯變化。

其中，“significant”等詞匯的使用頻率大幅上升，而“is”和“are”等詞匯則減少了約10%。

多數情況下，生成式AI可以讓一個創造力60分的人變成70分甚至更高的分數，但在文本創作中，雖然個人創造力和寫作質量有所提高，卻在無形中讓集體創意變得無趣且同質化。

UCL和埃克塞特大學的兩位學者在《Science》上發表了一項研究，500名參與者被指派借助AI圍繞隨機主題撰寫約8行故事，并分析目標受眾。

結果顯示，借助AI的靈感，故事變得更有“創造性”，但這些AI生成的故事彼此之間的相似度也驚人地高。

因此，當AI生成的文本如同無孔不入的污染物，肆意涌入互聯網，對于Wordfreq也好，還是人類也罷，怎么看都是利遠小于弊。

反爬蟲戰爭打響，Wordfreq遭殃

Wordfreq項目的終止算得上是巨頭爬蟲戰爭夾縫中的犧牲品。

AI的發展離不開算法、算力和數據的支持。盡管AI生成的文本與人類真實語言相比還有差距，但它在語法和邏輯性方面越來越像模像樣。

這片風平浪靜的水面之下，一場AI爬取與反爬取的無聲戰爭正在醞釀。

在當前的輿論環境中，爬取網頁數據似乎成了冒天下大不韙的禁忌，不少新聞評論區里都充斥著網友的唾棄之聲，而Wordfreq本質上也是通過爬取不同語言的文本而構建起來的。

在生成式AI尚未盛行之時，Wordfreq也曾度過一段蜜月期。

以往一般來說，只要遵守網站的robots.txt文件規定，爬取公開數據似乎也合情合理。這是網站與爬蟲之間的一種默契約定，用來指示爬蟲哪些內容可以抓取，哪些則不可以。

當一個網站設置robots.txt限制協議時，就像豎起了禁止擅自進入的標志牌。如果爬蟲違反了robots.txt協議，或者采用了突破網站反爬蟲技術手段的方法獲取數據，那么就可能會構成不正當競爭或侵犯版權等違法行為。

然而，隨著模型對高質量數據的需求日益增長，這場爬取與反爬取的戰況也愈發激烈。

回顧過去，關于生成式AI巨頭爬蟲與反爬蟲數據的糾紛比比皆是。為首突出的當屬OpenAI和Google。

去年，OpenAI公司特地推出網絡爬蟲工具GPTBot，聲稱用于抓取網頁數據訓練AI模型。但顯然，沒有哪家媒體愿意被爬蟲暗地里薅羊毛。

意識到數據和版權重要性的媒體遵循著一手交錢，一手交數據的商業邏輯。

一項來自路透社研究所進行的研究表明，截至2023年底，全球10個國家的熱門新聞網站中，近一半的網站屏蔽了OpenAI的爬蟲（Crawler），而近四分之一的網站也對Google的爬蟲采取了相同的措施。

后來的故事大家應該都很熟悉了，OpenAI三天兩頭就被傳統媒體起訴，無一例外不是版權訴訟糾紛。直到今年，官司纏身的OpenAI才老老實實和新聞出版商建立合作關系。

只是，此前的高墻林立、以及數據收費等策略也讓Wordfreq也成為了這場“數據荒”的犧牲品。

斯皮爾指出，由于Twitter和Reddit （Wordfreq包含的網站）已經開始對其API收費，這使得網絡抓取數據變得更加困難。

“過去免費獲取的信息變得昂貴，”斯皮爾寫道。“我不想參與任何可能與生成式AI混淆的工作，或可能使生成式AI受益的工作。”

即便能用金錢換數據，但數據總有用盡的一天。

研究公司Epoch AI預測，互聯網上可用的高質量文本數據或將在2028年耗盡，這一現象在業內被稱為“數據墻”，可能成為減緩AI發展的最大障礙。

于是乎，不少大模型廠商開始將目光轉向合成數據，主打一個用AI訓練AI。

用AI訓練AI，可能越練越“傻”

我的直覺是，網絡上的文本都是狗屎，這些數據上進行訓練簡直是在浪費算力。

當Llama 3.1-405B以掀桌子的實力橫掃一眾開源大模型之時，領導Llama系列的Meta AI研究員Thomas Scialom在接受采訪時發出了如上暴論。

據他透露，Llama 3的訓練過程并不依賴任何人類編寫的答案，而是完全基于Llama 2生成的合成數據。

Scialom的說法或許過于粗暴，但也有一定的道理。

互聯網每天都在涌現源源不斷的數據，但訓練AI從來就是一個寧缺毋濫的單選題，若數據中滿是錯誤和噪聲，模型自然也會跟著學習這些“瑕疵”，預測和分類的準確性可想而知。

而且，低質量的數據往往充斥著偏見，無法真正代表整體數據分布，從而導致模型產生有偏見的回復。教科文組織總干事阿祖萊也曾警告：

新的AI工具有著在不知不覺中改變千百萬人認知的力量，因此，即便是生成內容中極為微小的性別偏見，也可能顯著加劇現實世界中的不平等。

不過，合成數據也未必是解決“數據墻”難題的靈丹妙藥。

最近來自牛津劍橋的研究人員發現，當模型使用AI生成的數據集，則輸出的質量會逐漸下降，最終產生無意義的內容，也就是俗稱的模型崩潰。

研究負責人 Ilia Shumailov 用了拍照的比喻來形容這一過程：

如果你拍了一張照片，掃描、打印出來并再對其拍照，然后不斷重復這個過程，隨著時間的推移，基本上整個過程都會被“噪聲”淹沒。最后，你會得到一個黑暗的方塊。

當越來越多AI生成的垃圾網頁開始充斥互聯網，訓練AI模型的原材料也將遭到污染。

例如，曾經鬧得沸沸揚揚的豆包網頁版通過默許分享內容被搜索引擎收錄，導致AI生成的網頁內容泛濫成災。

再比如程序員問答社區Stack Overflow也深受AI的“毒害”。

在ChatGPT爆火之初，Stack Overflow便宣布“臨時禁用”。“從ChatGPT獲得正確答案的平均比例太低了。”官方在聲明中如是吐槽。

專業用戶的數量畢竟有限，不可能逐一核實所有答案，而ChatGPT的錯誤率又是顯而易見的。當AI污染社區環境，彼時無計可施的人類也只能一禁了之。

在圖像領域，AI模型趨向于重現最常見的數據，經歷多次迭代后，最終可能連最初的事物都會忘得一干二凈。

被看到的這一切指向了一個惡性循環：AI生成低質量乃至錯誤信息，與人類數據混淆在一起，這些普遍低質量的數據又被AI反復喂養，最終導致肆意泛濫的AI反噬自身。

而如果人類意識到昔日的數據足跡會成為喂養自己的養料，或許我們會更加謹慎地對待在互聯網留下的每一句話。

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

ChatGPT們能講人話后，AI污染互聯網將變本加厲

隨意打賞

從京東企業購觀察杭州AI企業：信息軟硬件采購額激增、互聯網高度活躍

2025 年中國新媒體行業互聯網營銷和廣告市場概述新媒體平臺主流營銷形式各有特點

獨家丨vivo OS部門新成立AI領域，施玉堅兼管互聯網平臺運營領域

李想：AGI 需要的投資遠超互聯網，一兩年內不具備好的商業模式

巨頭之爭：互聯網與硬科技，誰更值得押注？

國家醫保局發聲，互聯網醫療或將放開首診

字節跳動最新估值3150億美元：居中國互聯網公司第二僅次于騰訊

湖南嚴禁互聯網醫院用AI開處方

“美國大型互聯網公司, 怎么就導致了歐洲電力短缺？”

DeepSeek服務器“裸奔”互聯網現漏洞專家提醒：立即修改配置