亞馬遜調(diào)查Perplexity AI:涉嫌違規(guī)抓取網(wǎng)站數(shù)據(jù)
6月29日,據(jù)多家外媒消息,亞馬遜網(wǎng)絡服務(AWS)已正式對人工智能搜索初創(chuàng)公司Perplexity AI展開調(diào)查,起因是后者被指控未經(jīng)網(wǎng)站所有者同意,使用托管在AWS服務器上的爬蟲程序抓取數(shù)據(jù),且涉嫌違反robots.txt排除協(xié)議。
robots.txt協(xié)議作為一種網(wǎng)絡標準,由網(wǎng)站管理員設置,旨在告知網(wǎng)絡爬蟲哪些頁面可以被訪問,哪些則禁止抓取。盡管遵守該協(xié)議是自愿的,但長期以來,各大搜索引擎和知名公司的爬蟲程序普遍遵循這一標準。然而,近期有指控稱,Perplexity AI的爬蟲程序卻選擇了忽視。
根據(jù)《Wired》雜志的報道,其調(diào)查團隊發(fā)現(xiàn)了一臺托管在AWS服務器上的虛擬機,該機器使用的IP地址為44.221.181.252,在過去三個月內(nèi)多次訪問并抓取了Condé Nast旗下資產(chǎn)的內(nèi)容,包括《Wired》雜志本身。此外,《衛(wèi)報》、《福布斯》和《紐約時報》等 媒體 也報告了類似情況,指出該IP地址多次訪問其出版物內(nèi)容。
為驗證Perplexity AI是否確實在抓取內(nèi)容,《Wired》雜志將文章標題或簡短描述輸入Perplexity的聊天機器人進行測試。結(jié)果顯示,聊天機器人返回的內(nèi)容與原文措辭高度相似,且引用極少,進一步加劇了對其違規(guī)行為的質(zhì)疑。
面對指控,Perplexity AI方面表示已回應亞馬遜的詢問,并否認其爬蟲程序故意繞過robots.txt協(xié)議。公司發(fā)言人Sara Platnick強調(diào),PerplexityBot在AWS上運行時尊重robots.txt文件,并確認公司控制的服務不會違反AWS服務條款進行爬蟲活動。然而,她也承認,在特定情況下,即用戶輸入特定URL時,PerplexityBot會忽略robots.txt協(xié)議。
Perplexity AI首席執(zhí)行官Aravind Srinivas則指出,公司確實使用了第三方網(wǎng)絡爬蟲程序,而Wired所識別的違規(guī)爬蟲可能正是其中之一。他否認公司“無視機器人排除協(xié)議并就此撒謊”,但承認公司在數(shù)據(jù)處理和引用來源方面存在改進空間。
值得注意的是,路透社最近的一份報告指出,Perplexity AI并非唯一一家繞過robots.txt文件收集內(nèi)容以訓練大型語言模型的人工智能公司。然而,亞馬遜的調(diào)查目前似乎僅針對Perplexity AI展開。
亞馬遜發(fā)言人向《連線》雜志表示,AWS服務條款明確禁止客戶使用其服務進行任何非法活動,且客戶有責任遵守條款和所有適用法律。此次調(diào)查旨在確認Perplexity AI是否存在違規(guī)行為,并根據(jù)調(diào)查結(jié)果采取相應措施。
【來源: 環(huán)球網(wǎng)】