欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

ChatGPT們能講人話后,AI污染互聯網將變本加厲

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

本文來自微信公眾號: APPSO (ID:appsolution) ,作者:發現明日產品的,頭圖來自:AI生成


人類最擔心的事情還是發生了。


隨意在網上翻看幾篇新聞,卻分不清是否出自AI之手;忙里偷閑時打把游戲,也看不懂沉默的隊友是人機還是真人。


直播間里,明星數字人充耳不聞地吮雞爪,與賣力吆喝的真人助播形成割裂的場景……


而據外媒404 media報道,一個用于追蹤和分析多種語言中詞匯趨勢的項目——Wordfreq,現在也成了當下這種現象的最新受害者。


陽光明媚的地方總有陰影潛伏,顯然Wordfreq不是第一個受害者,也不會是最后一個受害者。


最終為之買單的或許還是人類本身。


GPT們污染語言,人類要為之買單


生成式AI污染了數據,我認為沒有人掌握關于2021年后人類使用語言的可靠信息。


這句來自Wordfreq項目創建者羅賓·斯皮爾心中的吶喊,透出了幾分無奈與憤懣。


究其原因,還得從Wordfreq的來歷談起。


通過分析維基百科、電影和電視字幕、新聞報道、以及Reddit等網站內容,Wordfreq試圖追蹤40多種語言的變遷,進而研究隨著俚語和流行文化變化而不斷變化的語言習慣。


對于語言學家、作家和翻譯人員而言,Wordfreq無疑是一項寶庫。現在,GitHub地址上偌大的一句聲明“該項目將不再更新”,也悲情地給這個項目敲響了喪鐘。


曾經,網絡抓取公開數據是該項目數據源的生命線,但隨著AI文本開始大行其道,Wordfreq賴以更新的根基便遭到了動搖。


斯皮爾表示,過去人們很少使用“delve”這個詞,而隨著ChatGPT將這個詞匯變成了口頭禪,大有李鬼冒充李逵之勢,間而也就讓失真的詞頻統計影響了對人類語言習慣的準確分析。


如果這還不夠直觀,GPT們那些陳詞濫調,比如“總之”、“綜上所述”等詞匯的泛濫便是最醒目的警告。


這股趨勢也正逐漸滲透到學術寫作乃至文學創作中。


一份來自斯坦福大學的報告曾指出,ChatGPT在短短五個月內,就成了許多專家學者們的“寫作神器”。其中在計算機科學領域,幾乎每六篇摘要、每七篇引言中,就有一篇出自它的手筆。


隨之而來的,便是生成式AI對人類寫作風格的“大舉入侵”。


意大利國際高等研究院的博士生耿明萌的研究成果就像一面鏡子,進一步映照出ChatGPT的詞語偏好,也充分證實了它在學術論文寫作中的影響力。


在分析arXiv上超過百萬篇論文的摘要后,耿明萌發現,論文的詞頻在ChatGPT普及后出現了明顯變化。


其中,“significant”等詞匯的使用頻率大幅上升,而“is”和“are”等詞匯則減少了約10%。


多數情況下,生成式AI可以讓一個創造力60分的人變成70分甚至更高的分數,但在文本創作中,雖然個人創造力和寫作質量有所提高,卻在無形中讓集體創意變得無趣且同質化。


UCL和埃克塞特大學的兩位學者在《Science》上發表了一項研究,500名參與者被指派借助AI圍繞隨機主題撰寫約8行故事,并分析目標受眾。


結果顯示,借助AI的靈感,故事變得更有“創造性”,但這些AI生成的故事彼此之間的相似度也驚人地高。


因此,當AI生成的文本如同無孔不入的污染物,肆意涌入互聯網,對于Wordfreq也好,還是人類也罷,怎么看都是利遠小于弊。


反爬蟲戰爭打響,Wordfreq遭殃


Wordfreq項目的終止算得上是巨頭爬蟲戰爭夾縫中的犧牲品。


AI的發展離不開算法、算力和數據的支持。盡管AI生成的文本與人類真實語言相比還有差距,但它在語法和邏輯性方面越來越像模像樣。


這片風平浪靜的水面之下,一場AI爬取與反爬取的無聲戰爭正在醞釀。


在當前的輿論環境中,爬取網頁數據似乎成了冒天下大不韙的禁忌,不少新聞評論區里都充斥著網友的唾棄之聲,而Wordfreq本質上也是通過爬取不同語言的文本而構建起來的。


在生成式AI尚未盛行之時,Wordfreq也曾度過一段蜜月期。


以往一般來說,只要遵守網站的robots.txt文件規定,爬取公開數據似乎也合情合理。這是網站與爬蟲之間的一種默契約定,用來指示爬蟲哪些內容可以抓取,哪些則不可以。


當一個網站設置robots.txt限制協議時,就像豎起了禁止擅自進入的標志牌。如果爬蟲違反了robots.txt協議,或者采用了突破網站反爬蟲技術手段的方法獲取數據,那么就可能會構成不正當競爭或侵犯版權等違法行為。


然而,隨著模型對高質量數據的需求日益增長,這場爬取與反爬取的戰況也愈發激烈。


回顧過去,關于生成式AI巨頭爬蟲與反爬蟲數據的糾紛比比皆是。為首突出的當屬OpenAI和Google。


去年,OpenAI公司特地推出網絡爬蟲工具GPTBot,聲稱用于抓取網頁數據訓練AI模型。但顯然,沒有哪家媒體愿意被爬蟲暗地里薅羊毛。


意識到數據和版權重要性的媒體遵循著一手交錢,一手交數據的商業邏輯。


一項來自路透社研究所進行的研究表明,截至2023年底,全球10個國家的熱門新聞網站中,近一半的網站屏蔽了OpenAI的爬蟲 (Crawler) ,而近四分之一的網站也對Google的爬蟲采取了相同的措施。


后來的故事大家應該都很熟悉了,OpenAI三天兩頭就被傳統媒體起訴,無一例外不是版權訴訟糾紛。直到今年,官司纏身的OpenAI才老老實實和新聞出版商建立合作關系。


只是,此前的高墻林立、以及數據收費等策略也讓Wordfreq也成為了這場“數據荒”的犧牲品。


斯皮爾指出,由于Twitter和Reddit (Wordfreq包含的網站) 已經開始對其API收費,這使得網絡抓取數據變得更加困難。


“過去免費獲取的信息變得昂貴,”斯皮爾寫道。“我不想參與任何可能與生成式AI混淆的工作,或可能使生成式AI受益的工作。”


即便能用金錢換數據,但數據總有用盡的一天。


研究公司Epoch AI預測,互聯網上可用的高質量文本數據或將在2028年耗盡,這一現象在業內被稱為“數據墻”,可能成為減緩AI發展的最大障礙。


于是乎,不少大模型廠商開始將目光轉向合成數據,主打一個用AI訓練AI。


用AI訓練AI,可能越練越“傻”


我的直覺是,網絡上的文本都是狗屎,這些數據上進行訓練簡直是在浪費算力。


當Llama 3.1-405B以掀桌子的實力橫掃一眾開源大模型之時,領導Llama系列的Meta AI研究員Thomas Scialom在接受采訪時發出了如上暴論。


據他透露,Llama 3的訓練過程并不依賴任何人類編寫的答案,而是完全基于Llama 2生成的合成數據。


Scialom的說法或許過于粗暴,但也有一定的道理。


互聯網每天都在涌現源源不斷的數據,但訓練AI從來就是一個寧缺毋濫的單選題,若數據中滿是錯誤和噪聲,模型自然也會跟著學習這些“瑕疵”,預測和分類的準確性可想而知。


而且,低質量的數據往往充斥著偏見,無法真正代表整體數據分布,從而導致模型產生有偏見的回復。教科文組織總干事阿祖萊也曾警告:


新的AI工具有著在不知不覺中改變千百萬人認知的力量,因此,即便是生成內容中極為微小的性別偏見,也可能顯著加劇現實世界中的不平等。


不過,合成數據也未必是解決“數據墻”難題的靈丹妙藥。


最近來自牛津劍橋的研究人員發現,當模型使用AI生成的數據集,則輸出的質量會逐漸下降,最終產生無意義的內容,也就是俗稱的模型崩潰。


研究負責人 Ilia Shumailov 用了拍照的比喻來形容這一過程:


如果你拍了一張照片,掃描、打印出來并再對其拍照,然后不斷重復這個過程,隨著時間的推移,基本上整個過程都會被“噪聲”淹沒。最后,你會得到一個黑暗的方塊。


當越來越多AI生成的垃圾網頁開始充斥互聯網,訓練AI模型的原材料也將遭到污染。


例如,曾經鬧得沸沸揚揚的豆包網頁版通過默許分享內容被搜索引擎收錄,導致AI生成的網頁內容泛濫成災。


再比如程序員問答社區Stack Overflow也深受AI的“毒害”。


在ChatGPT爆火之初,Stack Overflow便宣布“臨時禁用”。“從ChatGPT獲得正確答案的平均比例太低了。”官方在聲明中如是吐槽。


專業用戶的數量畢竟有限,不可能逐一核實所有答案,而ChatGPT的錯誤率又是顯而易見的。當AI污染社區環境,彼時無計可施的人類也只能一禁了之。


在圖像領域,AI模型趨向于重現最常見的數據,經歷多次迭代后,最終可能連最初的事物都會忘得一干二凈。


被看到的這一切指向了一個惡性循環:AI生成低質量乃至錯誤信息,與人類數據混淆在一起,這些普遍低質量的數據又被AI反復喂養,最終導致肆意泛濫的AI反噬自身。


而如果人類意識到昔日的數據足跡會成為喂養自己的養料,或許我們會更加謹慎地對待在互聯網留下的每一句話。

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 亚洲一区二区三区四区 | 性做久久久久免费看 | 鲁啊鲁啊鲁在线视频播放 | 91成人免费在线视频 | 亚洲网视频| 国内精品免费视频 | 日本在线高清不卡 | 麻豆日韩 | 欧美人成人亚洲专区中文字幕 | 羞羞网站在线看 | 国产精品免费久久久免费 | 美女女女女女女bbbbbb毛片 | 在线免费观看中文字幕 | 国产精品2020在线看亚瑟 | 国产精品久久自在自线观看 | 看一级毛片 | 国产一区二区三区欧美精品 | 中文字幕日韩哦哦哦 | 亚洲欧美综合一区 | 久久综合中文字幕一区二区三区 | 毛片基地视频 | 成人毛片免费视频播放 | 久久在线精品 | 青青青手机版视频在线观看 | 亚洲国产综合专区在线播一一 | 韩日中文字幕 | 麻豆精品一区 | 香蕉午夜 | 中文字幕一区二区视频 | 欧美a视频 | 亚洲成人aaa| 国产精品a人片在线观看 | 中文字幕日本不卡 | 精品毛片视频 | 99久久成人 | 日本高清有码 | 国内精品七七久久影院 | 国产特黄一级一片免费 | 免费一级在线 | 成年女人18毛片毛片免费 | 亚洲国产精品成人综合色在线婷婷 |