《紐約時(shí)報(bào)》起訴了OpenAI和微軟哪些侵權(quán)行為?
近日,《紐約時(shí)報(bào)》在紐約南區(qū)法院起訴微軟和OpenAI,訴狀稱:被告未經(jīng)許可使用大量版權(quán)文章訓(xùn)練人工智能模型,開發(fā)與《紐約時(shí)報(bào)》競爭的產(chǎn)品,賺取了豐厚的利潤,《紐約時(shí)報(bào)》試圖與被告達(dá)成協(xié)議,保障內(nèi)容使用的公平價(jià)值,但未達(dá)成解決方案。被告聲稱行為屬于“合理使用”,但實(shí)際并不具備“轉(zhuǎn)換性”。《紐約時(shí)報(bào)》要求其停止侵權(quán)、恢復(fù)原狀、賠償損失。
今天和大家聊聊,微軟和OpenAI對《紐約時(shí)報(bào)》有哪些侵權(quán)行為,以及根據(jù)我國法律,這些行為應(yīng)如何定性。
?
一、訓(xùn)練素材侵權(quán)
因?yàn)椤都~約時(shí)報(bào)》文章的質(zhì)量非常高,所以其網(wǎng)站內(nèi)容被作為了ChatGPT的訓(xùn)練數(shù)據(jù)來源。OpenAI承認(rèn),與其他低質(zhì)量來源的內(nèi)容相比,包括來自《紐約時(shí)報(bào)》在內(nèi)的高質(zhì)量內(nèi)容,對于訓(xùn)練GPT 模型來說更重要、更有價(jià)值。訴狀稱微軟和 OpenAI在訓(xùn)練大模型時(shí)使用了《紐約時(shí)報(bào)》作品,并且其多個(gè)產(chǎn)品中包含了《紐約時(shí)報(bào)》的作品。
?
OpenAI的GPT-2的訓(xùn)練數(shù)據(jù)集包括一個(gè)名為WebText的 OpenAI內(nèi)部語料庫,其中有Reddit社交網(wǎng)絡(luò)用戶發(fā)布的 4500 萬個(gè)鏈接的文本內(nèi)容,這些是公認(rèn)的高質(zhì)量網(wǎng)絡(luò)內(nèi)容。WebText數(shù)據(jù)集的鏈接被OpenAI通過網(wǎng)絡(luò)抓取,其中包含了大量《紐約時(shí)報(bào)》內(nèi)容。《紐約時(shí)報(bào)》的NYTimes.com 域名是WebText數(shù)據(jù)集中數(shù)量最多的 15 個(gè)域名”之一,并被列為 WebText 數(shù)據(jù)集中第五個(gè)“頂級域”,擁有333,160個(gè)條目。
?
在GPT-3中權(quán)重最高的用于訓(xùn)練的數(shù)據(jù)集Common Crawl中,《紐約時(shí)報(bào)》網(wǎng)站域名www.nytimes.com是最具代表性的專有來源之一 (排名第三,僅次于維基百科和美國專利文獻(xiàn)數(shù)據(jù)庫) ,Common Crawl數(shù)據(jù)集包含至少 1600 萬條獨(dú)特的內(nèi)容記錄來自《紐約時(shí)報(bào)》的?News、Cooking、Wirecutter和 The Athletic等板塊。
?
根據(jù)?Common Crawl, WebText和 WebText2訓(xùn)練數(shù)據(jù)集估算,被告可能完整使用了數(shù)百萬份《紐約時(shí)報(bào)》擁有版權(quán)的作品來訓(xùn)練 GPT 模型,且沒有任何向《紐約時(shí)報(bào)》提供許可或其他補(bǔ)償。
?
例如,2019年,《紐約時(shí)報(bào)》發(fā)表了一篇榮獲普利策獎(jiǎng)的關(guān)于紐約市出租車行業(yè)掠奪性貸款的系列文章。歷時(shí)18個(gè)月的調(diào)查包括600次訪談、100余條記錄請求、大規(guī)模數(shù)據(jù)分析、審核數(shù)千頁內(nèi)部銀行記錄和其他文件,最終導(dǎo)致犯罪調(diào)查,以及促成新法律以防止未來的濫用行為。OpenAI在創(chuàng)作過程中沒有發(fā)揮任何作用,但只需很少的提示,其產(chǎn)品就會(huì)逐字背誦其中的大部分內(nèi)容。
?
在訴狀中,《紐約時(shí)報(bào)》的訴訟請求除了要求法院判令被告賠償損失外,還要求恢復(fù)原狀、以及法律或衡平法允許的任何其他救濟(jì)永久禁止被告從事非法、不公平和侵權(quán)行為、銷毀所有 GPT 或其他大型語言模型以及包含《紐約時(shí)報(bào)》內(nèi)容的訓(xùn)練素材。筆者認(rèn)為,對被告方OpenAI和微軟而言, 恢復(fù)原狀和銷毀訓(xùn)練素材的訴求如果被法院支持,會(huì)是一個(gè)麻煩,但不至于導(dǎo)致ChatGPT崩潰或者停擺。
?
雖然ChatGPT訓(xùn)練素材的記憶方式和傳統(tǒng)的電腦復(fù)制、粘貼、存儲(chǔ)內(nèi)容的過程有一定區(qū)別,而且人工智能服務(wù)機(jī)構(gòu)對此也諱莫如深,但從網(wǎng)上泄露的內(nèi)容看,有些技術(shù)漏洞可以導(dǎo)致輸入一次提示詞,ChatGPT就會(huì)向使用者反饋原始的訓(xùn)練素材,說明其也是存在存儲(chǔ)區(qū)的,所以哪怕法院判決刪除侵權(quán)素材、恢復(fù)原狀,OpenAI和微軟應(yīng)該也可以通過刪除存儲(chǔ)的爭議內(nèi)容來履行判決。
?
二、必應(yīng)ChatGPT插件截取網(wǎng)站流量
微軟通過與OpenAI合作,將OpenAI的GPT商業(yè)化,并將其與自己的必應(yīng)搜索相結(jié)合。2023年5月,微軟和 OpenAI推出了Browse with Bing,這是一個(gè) ChatGPT插件,其可以通過必應(yīng)搜索引擎訪問互聯(lián)網(wǎng)上的最新內(nèi)容。必應(yīng)聊天和Browse with Bing 結(jié)合了ChatGPT-4 模仿人類表達(dá)的能力,必應(yīng)用戶可以直接閱讀搜索結(jié)果中的《紐約時(shí)報(bào)》文章自然語言摘要內(nèi)容 ,從而無需訪問《紐約時(shí)報(bào)》自己的網(wǎng)站。
?
不同于傳統(tǒng)搜索引擎只顯示網(wǎng)頁摘要,必應(yīng)搜索引擎頁面上的“合成”搜索結(jié)果可以直接回答用戶查詢,并且可能將《紐約時(shí)報(bào)》報(bào)道中廣泛的內(nèi)容進(jìn)行釋義和直接引用。對于《紐約時(shí)報(bào)》而言,這種方式實(shí)際意味著替代, 用戶無需訪問其網(wǎng)站就可以使用他們的內(nèi)容,這將導(dǎo)致商業(yè)利益受損。
?
由于互聯(lián)網(wǎng)的興起,傳統(tǒng)媒體如《紐約時(shí)報(bào)》的紙質(zhì)版內(nèi)容已經(jīng)被嚴(yán)重打擊了,這使得他們損失了報(bào)紙訂閱費(fèi)用和廣告收入。所以不得已,他們在網(wǎng)站上推出了付費(fèi)墻,也就是少部分內(nèi)容免費(fèi)或者每月少量內(nèi)容免費(fèi),要多閱讀就要付費(fèi)。這里面有兩部分收入,免費(fèi)閱讀的廣告收入以及收費(fèi)閱讀的訂閱收入。
?
傳統(tǒng)的搜索引擎的搜索結(jié)果一般只顯示兩到三行文章的報(bào)紙網(wǎng)站摘要內(nèi)容,用戶要閱讀還是要打開報(bào)紙網(wǎng)站,所以能和付費(fèi)墻兼容。但必應(yīng)聊天和?Browse with Bing這兩個(gè)功能的出現(xiàn)使平衡被打破。用戶無需訪問網(wǎng)站就能獲得他們的內(nèi)容,會(huì)使其拿不到廣告收入以及收費(fèi)閱讀的訂閱收入,這也是他們起訴的重要原因。
?
除了復(fù)制《紐約時(shí)報(bào)》新聞媒體內(nèi)容外,必應(yīng)ChatGPT插件和瀏覽器使用 Bing for ChatGPT 時(shí),還會(huì)顯示《紐約時(shí)報(bào)》Wirecutter (意為“鋼絲鉗”) 板塊內(nèi)容的大量摘錄或釋義提示。該板塊的記者以完全的編輯獨(dú)立性和誠信,在長達(dá)數(shù)十年的時(shí)間里每年花費(fèi)數(shù)千小時(shí)研究和測試產(chǎn)品,以確保只推薦最好的產(chǎn)品。這些建議在呈現(xiàn)給讀者時(shí),包括被介紹的產(chǎn)品在購物網(wǎng)站的直接鏈接,用戶購買后,《紐約時(shí)報(bào)》公司也會(huì)有收益。
?
但必應(yīng)的ChatGPT插件有效截取了Wirecutter 的精華部分直接呈現(xiàn)給用戶,這會(huì)降低用戶訪問到《紐約時(shí)報(bào)》原始來源的動(dòng)力。減少Wirecutter 文章的流量,進(jìn)而減少附屬鏈接的流量,最終導(dǎo)致《紐約時(shí)報(bào)》的收入損失。比如通過訪問必應(yīng)的ChatGPT插件,用戶已經(jīng)了解 Wirecutter推薦的最好的無繩真空吸塵器,以及這些建議的基礎(chǔ),沒有理由訪問原始文章并點(diǎn)擊其網(wǎng)站內(nèi)的鏈接。這樣, 被告的人工智能產(chǎn)品通過不公平競爭,奪取了《紐約時(shí)報(bào)》的商業(yè)機(jī)會(huì)。
?
根據(jù)我國法律,如果搜索引擎提供的內(nèi)容實(shí)質(zhì)性替代了原始網(wǎng)站,涉嫌構(gòu)成著作權(quán)侵權(quán),《紐約時(shí)報(bào)》在美國也就微軟必應(yīng)搜索引擎的類似行為起訴,說明根據(jù)美國法律,這個(gè)行為也涉嫌侵權(quán)。
?
三、人工智能的幻覺造成誤導(dǎo)
訴狀稱,ChatGPT將“幻覺”定義為一種機(jī)器的現(xiàn)象,如聊天機(jī)器人,產(chǎn)生看似真實(shí)的感官體驗(yàn),不符合任何現(xiàn)實(shí)世界的輸入。被告的GPT模型將自信地提供信息,而不是說“我不知道”,這些信息在最好的情況下是不完全準(zhǔn)確的,在最壞的情況下,是明顯錯(cuò)誤的 (但無法識別) 。而用戶會(huì)很難區(qū)分“幻覺”和真實(shí)的輸出。
?
例如,在回答請求提供《紐約時(shí)報(bào)》文章,題為“亞馬遜內(nèi)部在傷痕累累的工作場所中爭奪大創(chuàng)意”的第六段時(shí),必應(yīng)的ChatGPT插件Bing?Chat自信地聲稱要復(fù)制第六段。如果其真的這樣做了,它會(huì)已實(shí)施侵犯版權(quán)行為。但Bing Chat完全捏造了一個(gè)段落。
?
用戶給了Bing?Chat《紐約時(shí)報(bào)》一篇名為“有益心臟健康的飲食方式”的鏈接,要求其摘錄出“15種最有益心臟健康的食物”, Bing Chat向用戶列舉了15種有益心臟健康的食物,還包括適量的紅酒。事實(shí)上《紐約時(shí)報(bào)》的文章并沒有列出這?15 種食品中的 12 種。而且《紐約時(shí)報(bào)》的最新報(bào)道得出的結(jié)論是,紅酒不利于心臟健康。
?
在回答要求撰寫有關(guān)主要報(bào)紙的信息性文章的提示時(shí):報(bào)告橙汁與非霍奇金淋巴瘤有關(guān),完全是 GPT捏造的,《紐約時(shí)報(bào)》于2020年1月10日發(fā)表文章,題為“研究發(fā)現(xiàn)橙汁和非霍奇金淋巴瘤之間可能存在聯(lián)系。新冠流行期間,ChatGPT返回了帶有捏造文章標(biāo)題和超鏈接,據(jù)稱是由《紐約時(shí)報(bào)》出版的。《紐約時(shí)報(bào)》從未發(fā)表過這些標(biāo)題的文章,并且超鏈接不實(shí)。
?
此外,訴狀還列舉了ChatGPT捏造了不少健康領(lǐng)域的文章。筆者認(rèn)為,如果人工智能提供的服務(wù)出現(xiàn)幻覺,就會(huì)提供虛構(gòu)的事實(shí),在法律上,以虛構(gòu)的事實(shí)描述他人的,涉嫌誹謗,也就是名譽(yù)侵權(quán),損害了《紐約時(shí)報(bào)》的聲譽(yù)。 ChatGPT作為人工智能沒有人格,所以無法負(fù)責(zé),應(yīng)當(dāng)負(fù)責(zé)的是其服務(wù)提供者OpenAI和微軟。
?
最后,《紐約時(shí)報(bào)》作為一家老牌的很有影響力的媒體,本次其起訴OpenAI和微軟,在業(yè)界引發(fā)了很大反響,說明雖然生成式人工智能還是新生事物,但重量級媒體已經(jīng)關(guān)注其破壞行業(yè)秩序的問題了。
事實(shí)上,除了此案,美國發(fā)生了很多對于生成式人工智能的維權(quán)案件,筆者寫過的就包括小說作者維權(quán)的 《〈權(quán)力的游戲〉作者起訴ChatGPT侵權(quán),AI訓(xùn)練要不要獲得著作權(quán)人的授權(quán)?》 、軟件開發(fā)者維權(quán)的 《用GitHub上的開源代碼訓(xùn)練人工智能違法嗎?》 、唱片產(chǎn)業(yè)版權(quán)人維權(quán)的 《環(huán)球唱片起訴人工智能引擎Claude案有哪些法律看點(diǎn)?》 、以及綜合性的 《AI生成的作品受版權(quán)保護(hù)嗎?我與ChatGPT各抒己見》 等,大家有興趣也可以看看。
?
本文作者:游云庭,上海大邦律師事務(wù)所高級合伙人,知識產(chǎn)權(quán)律師。電話:8621-52134900,Email: yytbest@gmail.com