80后死亡率超5%?AI編的
本文來自微信公眾號(hào): 新周刊 (ID:new-weekly) ,作者:阿瑞,編輯:DR,原文標(biāo)題:《“80后死亡率超5%”,別上假數(shù)據(jù)的當(dāng)》,題圖來源:AI生成
生成式AI是有可能“胡說八道”的,它們會(huì)在看似真實(shí)的陳述中夾雜錯(cuò)誤信息。
但偏偏,每個(gè)人都生活在信息繭房當(dāng)中,接收信息的精力有限,不可能對(duì)互聯(lián)網(wǎng)信息逐一甄別,如果一篇文章用充足的數(shù)據(jù)做出了“嚴(yán)謹(jǐn)?shù)男形淖藨B(tài)”,就已天然具備了被信任的基礎(chǔ)。
更不用說,人往往更傾向相信于那些符合期望的“事實(shí)”。在一個(gè)爭(zhēng)議話題下加上刻意營造的噱頭,這些編造的數(shù)據(jù)往往會(huì)當(dāng)做打口水仗的武器,被二次加工、傳播,造成信息污染,真真假假也就說不清了。
“截至2024年末,80后死亡率突破5.2%,相當(dāng)于每20個(gè)80后中就有1人已經(jīng)去世。”
這句話,你信了嗎?
雖然當(dāng)代打工人的健康狀況確實(shí)值得擔(dān)憂,但好消息是,這一數(shù)據(jù)是假的。
今年2月,相關(guān)數(shù)據(jù)和評(píng)論刷屏互聯(lián)網(wǎng),人們感慨“活著不易”,更有人借機(jī)賣起了保健品和保險(xiǎn)。3月4日,公安部網(wǎng)安局公布調(diào)查結(jié)果:網(wǎng)民夏某在視頻《80后到底還剩多少人》中捏造數(shù)據(jù),被予以行政處罰。
造謠一張嘴,辟謠跑斷腿。 如今,造謠甚至不需要嘴了——只要在AI的對(duì)話框中輸入幾個(gè)字,指引AI生成虛假信息的人或許都意識(shí)不到自己在助力謠言的誕生。
AI編的數(shù)據(jù),你信了嗎?
先來說說“80后死亡率”的離譜錯(cuò)誤。
死亡率作為人口學(xué)的重要統(tǒng)計(jì)指標(biāo),其計(jì)算公式為“某時(shí)期死亡人數(shù)除以同期平均人口數(shù),再乘以1000‰”,也就是說,它的單位是‰,而非%。
中國人民大學(xué)人口與健康學(xué)院教授李婷在其公眾號(hào)“嚴(yán)肅的人口學(xué)八卦”撰文表示,國家每年會(huì)公布預(yù)期壽命和人口粗死亡率,但不會(huì)根據(jù)“80后”“90后”這些年齡段公布死亡狀況,因此,“80后死亡率”這類說法本身就缺少數(shù)據(jù)支撐。
如果有人真的想計(jì)算80后的“存活比例”,還存在兩個(gè)問題:一是過往人口普查的數(shù)據(jù)不夠準(zhǔn)確,多種計(jì)算方法都有誤差;二是這份數(shù)據(jù)也會(huì)被新生兒的死亡數(shù)據(jù)污染,也就是說, 哪怕5.2%的數(shù)據(jù)準(zhǔn)確,其中也 可能 包括了 一半以上出生時(shí)就夭折的人 ,青壯年死亡率還 得降低 不少。 因此,人們大可不必為80后今天的健康狀況恐慌。
如果說80后的“存活比例”,還不過是“無傷大雅”的談資,引發(fā)全網(wǎng)側(cè)目的“頂流明星在澳門狂輸10億”,則算得上驚天大瓜,甚至讓周杰倫無辜躺槍。
但就是這么一個(gè)被傳得有鼻子有眼的瓜,經(jīng)公安機(jī)關(guān)證實(shí),同樣也是AI編造。
與此同時(shí),也有網(wǎng)友感慨:“每天上網(wǎng)就想看看作者的觀點(diǎn),結(jié)果現(xiàn)在滿屏‘量子’‘坍縮’‘代碼’‘基因’……”當(dāng)機(jī)械感滿滿的AI文案充斥著互聯(lián)網(wǎng),對(duì)人的判斷力又增加了幾分考驗(yàn)。
比如最近,網(wǎng)上有一篇《“離婚冷靜期”制度簡(jiǎn)史:歷史終將記住這個(gè)黑色幽默》的文章被大量轉(zhuǎn)發(fā)。
我們對(duì)文中的二手信息,保持一種本能的警惕,試圖找到源頭加以查證。而這篇看似嚴(yán)謹(jǐn)?shù)奈恼卤M管引用了大量數(shù)據(jù),但當(dāng)逐一搜索這些數(shù)據(jù)時(shí),會(huì)發(fā)現(xiàn)數(shù)據(jù)來源幾乎都是無中生有。
就基層法官是否會(huì)統(tǒng)計(jì)離婚案件的類別和比例一事,有法律界人士向《新周刊》記者表示不會(huì)統(tǒng)計(jì)如此詳盡的案件情形:“基層沒有這么閑,最多統(tǒng)計(jì)一下結(jié)案率和勝訴率。”況且,“北京某律所”作為服務(wù)機(jī)構(gòu),本就沒有統(tǒng)計(jì)和公布“冷靜期后復(fù)婚率”的能力和權(quán)限。
“中國社科院2024年《婚姻制度民意調(diào)查》”,則是一個(gè)不存在的調(diào)查。“202X年”“冷靜期XX倒計(jì)時(shí)”這些詞更是滿滿的編造感——如果是真的,為什么不寫明真實(shí)日期?
至于所謂當(dāng)初支持立法的學(xué)者反思“我們用農(nóng)耕時(shí)代的溫情濾鏡,強(qiáng)行矯正互聯(lián)網(wǎng)時(shí)代的婚姻形態(tài)”?,看似語言優(yōu)美,實(shí)則言之無物。現(xiàn)代婚姻法本身既不是農(nóng)耕時(shí)代的產(chǎn)物,也不是互聯(lián)網(wǎng)時(shí)代的產(chǎn)物。法律是一件嚴(yán)肅的事,倘若學(xué)者真的要反思,恐怕也不會(huì)使用如此模糊的表述。
這就是“AI幻覺”——說白了, 生成式AI是有可能“胡說八道”的,它們會(huì)在看似真實(shí)的陳述中夾雜錯(cuò)誤信息。
但偏偏,每個(gè)人都生活在信息繭房當(dāng)中,接收信息的精力有限,不可能對(duì)互聯(lián)網(wǎng)信息逐一甄別,如果一篇文章用充足的數(shù)據(jù)做出了“嚴(yán)謹(jǐn)?shù)男形淖藨B(tài)”,就已天然具備了被信任的基礎(chǔ)。
更不用說,人往往更傾向相信于那些符合期望的“事實(shí)”。在一個(gè)爭(zhēng)議話題下加上刻意營造的噱頭,這些編造的數(shù)據(jù)往往會(huì)當(dāng)做打口水仗的武器,被二次加工、傳播,造成信息污染,真真假假也就說不清了。
AI幻覺無法消除,該怎么辦
日常工作中試圖讓AI幫自己省力的人,對(duì)它胡編亂造的能力大多心里有數(shù)。
近日,在Vectara HHEM人工智能幻覺測(cè)試中,2025年1月發(fā)布的DeepSeek-R1模型顯示出高幻覺率。對(duì)于這個(gè)現(xiàn)象,中科聞歌董事長(zhǎng)王磊告訴《新周刊》:“我猜測(cè)這可能與模型的精度有關(guān)。”
有專家認(rèn)為,AI軟件在增強(qiáng)創(chuàng)意和想象力的同時(shí),不可避免地增加了產(chǎn)生幻覺的副作用。
王磊認(rèn)為,問題的核心在于神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)原理本身。“幻覺產(chǎn)生的原因在于模型選擇詞時(shí),是基于詞的概率分布進(jìn)行預(yù)測(cè)。當(dāng)問題的復(fù)雜程度提高時(shí),這種預(yù)測(cè)方法可能會(huì)出現(xiàn)知識(shí)盲區(qū),模型為了回答而回答,人云亦云。”
也就是說,當(dāng)用戶給出上半句,生成式AI會(huì)根據(jù)它學(xué)過的知識(shí),“猜測(cè)”最有可能的答案。 一旦問題涉及到它的知識(shí)盲區(qū), 其 設(shè)計(jì)原理又決定了它必須“接話茬”, 就會(huì) 給出 自動(dòng)“腦補(bǔ)” 的答案 。
清華大學(xué)新聞與傳播學(xué)院教授陳昌鳳向《新周刊》表示:“生成式人工智能的主要功能,一是搜索,二是推理。前者通常要有基礎(chǔ)數(shù)據(jù),它才能搜到。而幻覺更可能出現(xiàn)在推理的環(huán)節(jié)。”
她指出,人類本身就會(huì)產(chǎn)生幻覺,而人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)學(xué)習(xí)的是人類神經(jīng)系統(tǒng)。“生成式人工智能從誕生起就免不了幻覺,我相信隨著使用時(shí)間增加和技術(shù)提升,它的幻覺會(huì)越來越少,但不太可能完全消除。”
比如,就AI對(duì)話截圖來看,“80后死亡率”的數(shù)據(jù)參考了一個(gè)并無權(quán)威性的網(wǎng)頁文章。這類“三無”網(wǎng)站的頁面,很多人本來是連看都不會(huì)看一眼的, 但 AI的強(qiáng)大 卻很容易產(chǎn)生讓人迷惑的 “權(quán)威性 ”,以至于 很多人甚至沒發(fā)現(xiàn)它的數(shù)據(jù)來源也是“三無”網(wǎng)站 。
如果人們積極辟謠,持續(xù)優(yōu)化AI所學(xué)習(xí)的數(shù)據(jù)庫,肯定能降低AI幻覺的發(fā)生。但反過來試想一下,假如AI生成的謠言和假數(shù)據(jù)持續(xù)污染互聯(lián)網(wǎng),會(huì)發(fā)生什么?
2024年7月,一篇來自牛津、劍橋等大學(xué)的論文登上了Nature封面。學(xué)者們發(fā)現(xiàn),如果在訓(xùn)練中不加區(qū)別地使用AI產(chǎn)生的內(nèi)容,會(huì)導(dǎo)致大模型崩潰—— 多次迭代后AI反而會(huì)退化,產(chǎn)生越來越多的事實(shí)錯(cuò)誤甚至亂碼。
眾所周知,當(dāng)今市面上的AI工具都是由海量的數(shù)據(jù)訓(xùn)練而成的。但隨著AI的胃口越來越大,可“食用”的新數(shù)據(jù)越來越少,大模型將紛紛面臨“高質(zhì)量數(shù)據(jù)荒”。人工智能研究組織Epoch預(yù)測(cè),高質(zhì)量的文本數(shù)據(jù)可能會(huì)在未來幾年內(nèi)耗盡。
換句話說,真實(shí)的數(shù)據(jù)價(jià)值連城。 人類仍然需要持續(xù)創(chuàng)造真實(shí)的內(nèi)容,更要學(xué)會(huì)辨別AI生成內(nèi)容的真假。
王磊表示:“大模型它絕不能夠給你提供決策。人類世界的復(fù)雜性在于許多情況都是動(dòng)態(tài)變化的。大模型的知識(shí)面很廣,但 (這些知識(shí)) 畢竟是固化的,它并不能察覺世界的變化,也不能認(rèn)知到很多問題的復(fù)雜性。它輸出的結(jié)果,僅僅是基于其數(shù)據(jù)庫的經(jīng)驗(yàn)性建議。”
他建議:“使用AI時(shí)的偏見和幻覺問題,需要我們的自我審視和判斷。即使AI能夠搜索互聯(lián)網(wǎng)信息,我們同樣需要鑒別其提供的信息是否真實(shí)。我們不能完全依賴和盲信AI,而應(yīng)將其視為一種工具,輔助我們的工作和決策。AI目前只是我們的工具,而非結(jié)論和教條的源泉。”
對(duì)普通人而言,該如何辨別AI幻覺、防止被AI欺騙?我們的心得是,要始終對(duì)AI生成的事實(shí)性描述保持警惕。可以使用搜索引擎核查出處,一般而言,若出處為權(quán)威機(jī)構(gòu),信息就更可靠。也可以使用多個(gè)AI聯(lián)網(wǎng)搜索,交叉印證和檢查某個(gè)AI生成的內(nèi)容。
現(xiàn)在AI生成內(nèi)容時(shí),也有概率出現(xiàn)提示。
劉慈欣的短篇小說《詩云》中,外星文明為了寫出超越李白的詩,窮盡太陽系的能量列舉出了所有字詞組合,卻無法從龐大的“詩云”中檢索出真正的詩歌。作者借這篇小說表明,AI生成內(nèi)容的本質(zhì)是詞匯的排列組合,但欣賞和評(píng)價(jià)的權(quán)力屬于人類。
或許,我們可以進(jìn)一步說: AI可以生產(chǎn)萬千種內(nèi)容,但判斷其真實(shí)性和價(jià)值的任務(wù)仍然掌握在人類手中。