AI攪亂亞馬遜電子書
來源:字母榜(ID:wujicaijing) 作者:畢安娣
勸人吃毒蘑菇,盜用名作者IP,AI變壞了?
如果你是一個網上沖浪老手,一定還記得2000年左右在門戶網站瀏覽新聞的體驗:
你需要從一堆花花綠綠的廣告當中識別真正的內容,并精準點擊??吹貌粶?,或者點得不準,都會讓你被即刻送往另一個不想去的網站??梢哉f,識別垃圾信息、避開它們,是彼時網上沖浪的必備技能。
如今,AI的發展讓人夢回千禧年,在亞馬遜搜索電子書,要時刻警惕被AI生成的垃圾書騙。
食之無味就算了,有的垃圾書甚至想置人于死地。
比如在亞馬遜上公開出售的電子書《野生蘑菇烹飪書:從森林到餐盤,野生蘑菇烹飪完全指南》《西南地區的頂級蘑菇野外指南》,書里明晃晃寫著用“氣味和味道”識別不同的蘑菇。
聞一聞或者嘗一嘗,就能知道蘑菇的種類啦!這種話,隨便拉來一個云南人都能鑒別為一派胡言。正如蘑菇界的名言所說:所有蘑菇都是可食用的,不過有些蘑菇只能食用一次。
相關專家在接受《衛報》采訪的時候幾乎發出尖銳爆鳴:“這似乎在鼓勵人們以品嘗作為辨別方法。絕對不應該這么做?!?/p>
書中提到的一些蘑菇則“很刑”。比如上述烹飪指南中提到的“獅鬃菌”,雖然是可食用的,但在英國是受保護的物種。別問,問就是獅鬃菌嘗起來像縫紉機的味道。
根據專做AI文本識別的公司Originality.ai的檢測,這兩本書的樣本中人工智能檢測得分是100%,這意味著系統很自信這些書由如ChatGPT這樣的聊天機器人編寫。
這些書被報道之后,紐約真菌學會都出面發X(前Twitter),呼吁人們“請只購買已知作者和美食家的書籍,這可能關系到生死”。
我們在去年2月就曾經報道過一些人開始通過ChatGPT等工具撰寫書籍,并放到亞馬遜等網站上售賣的現象。如今一年多過去,AI高速發展,亞馬遜顯然還沒有找到有力的方法杜絕這一現象,這家老牌電子書網站正在被AI攪亂。
01
讓我們來捋一下時間線。
2022年11月,ChatGPT橫空出世。僅僅幾個月之后,亞馬遜上就開始出現一些疑似由AI撰寫的書籍。除了內容和封面都粗制濫造之外,最明顯的反常信號是一個作者一天出版數本書。
彼時在YouTube上已經開始有博主在視頻教學如何用ChatGPT寫書并在亞馬遜上售賣。
從2023年年中開始,包括VICE、WIRED(《連線》)等在內的媒體開始報道“AI圖書正在淹沒亞馬遜”的現象。
根據獨立作家凱特林·林奇(Caitlyn Lynch)2023年6月的統計,彼時亞馬遜上“青少年浪漫”的類型下,暢銷排行榜的前100本電子書中,有約八成都是語無倫次的,看起來很像是AI生成的。
一直到如今,還不斷有作者站出來公開談論AI圖書對他們個人IP的盜用與模仿。
也就是說,除了某些類型成為AI圖書的重災區之外,一些作者——尤其是有名氣的作者——會被“影子圖書”蹭流量。這種情況大多發生在新書發售的黃金周期內,和作者相關的傳記、與新書高度相似的仿品大量出現,試圖在宣傳期蒙騙不明真相的用戶,竊取流量。
一個新鮮的例子來自知名科技記者卡拉·斯威舍(Kara Swisher)。
卡拉在科技報道界德高望重,今年已經62歲,幾乎把科技界大佬都采訪了個遍。包括但不限于數次深度對話史蒂夫·喬布斯、埃隆·馬斯克、馬克·扎克伯格等。
今年初,卡拉出版了一本個人回憶錄《燃燒的書(Burn Book)》。但她很快就發現,當她在亞馬遜檢索自己時,除了自己的新書,還出現了一些奇怪的東西。比如《卡拉·斯威舍:硅谷的斗牛犬》《卡拉·斯威舍:她如何成為硅谷最具影響力的記者》等,其中一本書的作者在一個月里就“寫”了四本傳記。
在卡拉看來,這些明顯是竊取新書流量的AI圖書,氣憤的她甚至給亞馬遜CEO安迪·杰西(Andy Jassy)發了一條短信:“這**是怎么回事?你在浪費我的錢?!?/p>
美國作家協會的CEO表示,亞馬遜上的欺詐書籍其實一直都是一個問題,但最近幾個月這個問題愈發尖銳,可能是因為在AI幫助下造書成本降低:“每一本新書似乎都有配套的各種書出現,試圖竊取銷售額?!?/p>
圖書“盜竊”不僅發生在新書作者身上。另一位作家梅勒妮·米切爾(Melanle Mitchell)在2019年發表《人工智能:思考人類指南》一書,最近卻發現在亞馬遜搜索這本書時,出現了去年9月發表的同名電子書。
這本同名電子書只有45頁,用坑坑巴巴、笨拙的語言重復米切爾的觀點,看起來是一部寫得不怎么樣的摘要。而該書作者在亞馬遜上沒有頭像,也沒有簡介,名下卻有幾十本類似的書,都是對其他書籍的總結式模仿。
深度偽造檢測公司Reality Defender幫米切爾檢測了一下,果然那本同名電子書有99%的可能是由AI生成的。
Reality Defender還順便檢測了一下“AI教母”李飛飛著作《我眼中的世界》在亞馬遜上的模仿者。與米切爾的模仿書不同,在亞馬遜搜索李飛飛《我眼中的世界》,會出現十幾本寫明自己是“摘要”的電子書。經檢測,這些書也大概率是AI生成的。不過雖然寫著自己是“摘要”,實際內容則更像是用AI重寫了一遍原作,就像是“XXX書·兒童版”。
在《連線》雜志聯系李飛飛,告知她這一現象后,她回復了一個“腦袋爆炸”的emoji表情,顯然在此之前對有人在偷偷用AI模仿自己的書一無所知。
02
亞馬遜也并不是什么都沒做,但動作顯得有些遲緩,效果也有限。
去年8月,簡·弗里德曼(Jan Fridman)向亞馬遜和美國“豆瓣”Goodreads開炮。弗里德曼是出版業的專家,曾在多家知名出版公司擔任高管,也有自己的博客,時不時發布對出版業的見解和實用建議。
她在自己的博客發表文章《我寧愿看到我的書被盜版,也不愿意看到這個》,表示在亞馬遜上有數本署名Jane Fridman但與她無關的書籍,更要命的是美國“豆瓣”Goodreads還將這些書籍放到了她的相關頁面。
也就是說,一個不熟悉弗里德曼的讀者,很有可能在對照了亞馬遜和Goodreads之后,認為那些仿冒品出自她之手。而這些作品內容拙劣,足以對弗里德曼造成名譽上的打擊。
更令弗里德曼不悅的是,當她聯系亞馬遜和Goodreads,試圖讓其下架仿冒書籍的時候,遭到了兩個平臺的拒絕。亞馬遜要求她提供相關的商標注冊證明,而弗里德曼被冒用的實際上是自己的名字,而她并未對自己的名字進行商標注冊(誰會想到去注冊自己的名字呢)。
有意思的是,在弗里德曼發表博文公開吐槽這件事后不久,亞馬遜和Goodreads就悉數移除了仿冒作品。
弗里德曼感嘆:“我敢肯定,這很大程度上拜賜于我在寫作和出版界的知名度與名譽。如果這些情況發生在比較小的作者身上,他們(平臺)會怎么做?”
弗里德曼的發聲引發了一連串的反應。先是美國作家協會宣布會為作者們提供幫助,而后美國聯邦貿易委員會(FTC)也發表了一篇文章,涉及生成性人工智能和圖書銷售,表明他們正在密切關注相關問題。
去年9月,在弗里德曼發表博文后一個月,亞馬遜開始打擊AI圖書。它修改了規則,將自助出版(Kindle Direct Program,下稱KDP)同作者每日上傳書籍的數量從無限制更改為最多三本。
KDP本就是AI圖書的重災區。通過KDP,作者可以繞過傳統出版途徑,直接將作品發表在亞馬遜上并進行銷售。理論上,亞馬遜一直都未禁止AI生成的文本銷售,而是要求作者標明,且不能產生危害。
亞馬遜還聲明,正在積極監測AI的發展以及隨后對閱讀、寫作和出版的影響。
但從今年還在不斷出現作家新書被AI截胡的事件來看,亞馬遜顯然做得還不夠好。
03
一個奇怪的現象是,雖然亞馬遜上充斥著疑似AI生成的圖書,但大部分此類圖書并沒有什么銷量。
究竟是什么在推波助瀾?
人們對AI工具的確愈發熟悉,這也就促成了一些人有了想要通過AI寫書賺錢的想法。
一個有點驚人的數字是,Statista報告說,23%的美國作者在作品中使用了AI,近50%的受訪作者表示他們曾用AI作語法工具,還有10%的受訪者表示AI生成了他們的全部文稿。
知名媒體Vox指出,真正依靠“AI圖書”賺錢的,很可能不是那些把AI圖書放在亞馬遜上出售的“作者”,而是開課教授“如何用AI圖書賺錢”的人。
亞馬遜的自出版業務KDP于2007年推出,早在2010年前后,關于如何利用自出版賺錢的課程如“自助出版革命”就如雨后春筍般冒出來。
在學習“自助出版革命”的若干學生中,有一對米科爾森(Mikkelsen)雙胞胎兄弟做得很成功,他們自出版了一本又一本垃圾書,還創新地利用谷歌翻譯制作外文書籍,進一步擴大了銷路,收入一度達到百萬美元。但最終,由于買家投訴,他們的KDP賬戶被封鎖,于是二人創業,也開始兜售相關課程。
有意思的是,他們的課程名稱一路從“有聲書影響學院”“出版生活”,到如今的“AI出版學院”。兄弟倆的課程原價6000美元,但往往會“限時打折”到2000美元左右。
上過“AI出版學院”課程的學生透露,2000美元只是敲門費。一旦開始上課,就會發現后續幾乎所有環節都會交費。首先,兄弟倆會收取AI撰寫大綱的AI服務費,而后是人工代寫費用(接活的代寫公司也是由兄弟倆的學生所有),接著還會有有聲書制作費用,以及刷好評的費用。
如果學生想要完整地跟完整個課程,費用會從最初的2000美元激增到7800美元。
雖然交學費前,“AI出版學院”承諾不滿意就會退款,但當學生真的要退款時,學院要求其提供完成了全部課程、出版了書籍并沒能把學費賺回來的證明。
根據Inc.的一篇報道,米科爾森兄弟的公司收入從2019年的30萬美元,已經激增到了2022年的5000萬美元。截至目前,他們的公司仍然運營著(畢竟好像的確沒有違法)。
AI圖書攪亂亞馬遜,“壞”的卻不是AI,而是背后無視規則無視道德的那批AI用戶。
將視角拉遠,我們正處在AI內容與人類內容混雜的時代,一場“AI狼人殺”時刻在互聯網中上演。根據互聯網安全公司Imperva的報告,2023年,全球互聯網流量中有49.6%來自機器人,而在2019年,這個數字還只有37.2%。
高效、準確、全面地甄別AI內容已經成為一個亟待解決的難題。
