《紐約時(shí)報(bào)》起訴了OpenAI和微軟哪些侵權(quán)行為？

虎嗅網(wǎng) ? 1年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

近日，《紐約時(shí)報(bào)》在紐約南區(qū)法院起訴微軟和OpenAI，訴狀稱：被告未經(jīng)許可使用大量版權(quán)文章訓(xùn)練人工智能模型，開發(fā)與《紐約時(shí)報(bào)》競爭的產(chǎn)品，賺取了豐厚的利潤，《紐約時(shí)報(bào)》試圖與被告達(dá)成協(xié)議，保障內(nèi)容使用的公平價(jià)值，但未達(dá)成解決方案。被告聲稱行為屬于“合理使用”，但實(shí)際并不具備“轉(zhuǎn)換性”。《紐約時(shí)報(bào)》要求其停止侵權(quán)、恢復(fù)原狀、賠償損失。

今天和大家聊聊，微軟和OpenAI對《紐約時(shí)報(bào)》有哪些侵權(quán)行為，以及根據(jù)我國法律，這些行為應(yīng)如何定性。

一、訓(xùn)練素材侵權(quán)

因?yàn)椤都~約時(shí)報(bào)》文章的質(zhì)量非常高，所以其網(wǎng)站內(nèi)容被作為了ChatGPT的訓(xùn)練數(shù)據(jù)來源。OpenAI承認(rèn)，與其他低質(zhì)量來源的內(nèi)容相比，包括來自《紐約時(shí)報(bào)》在內(nèi)的高質(zhì)量內(nèi)容，對于訓(xùn)練GPT 模型來說更重要、更有價(jià)值。訴狀稱微軟和 OpenAI在訓(xùn)練大模型時(shí)使用了《紐約時(shí)報(bào)》作品，并且其多個(gè)產(chǎn)品中包含了《紐約時(shí)報(bào)》的作品。

OpenAI的GPT-2的訓(xùn)練數(shù)據(jù)集包括一個(gè)名為WebText的 OpenAI內(nèi)部語料庫，其中有Reddit社交網(wǎng)絡(luò)用戶發(fā)布的 4500 萬個(gè)鏈接的文本內(nèi)容，這些是公認(rèn)的高質(zhì)量網(wǎng)絡(luò)內(nèi)容。WebText數(shù)據(jù)集的鏈接被OpenAI通過網(wǎng)絡(luò)抓取，其中包含了大量《紐約時(shí)報(bào)》內(nèi)容。《紐約時(shí)報(bào)》的NYTimes.com 域名是WebText數(shù)據(jù)集中數(shù)量最多的 15 個(gè)域名”之一，并被列為 WebText 數(shù)據(jù)集中第五個(gè)“頂級域”，擁有333，160個(gè)條目。

在GPT-3中權(quán)重最高的用于訓(xùn)練的數(shù)據(jù)集Common Crawl中，《紐約時(shí)報(bào)》網(wǎng)站域名www.nytimes.com是最具代表性的專有來源之一（排名第三，僅次于維基百科和美國專利文獻(xiàn)數(shù)據(jù)庫），Common Crawl數(shù)據(jù)集包含至少 1600 萬條獨(dú)特的內(nèi)容記錄來自《紐約時(shí)報(bào)》的?News、Cooking、Wirecutter和 The Athletic等板塊。

根據(jù)?Common Crawl， WebText和 WebText2訓(xùn)練數(shù)據(jù)集估算，被告可能完整使用了數(shù)百萬份《紐約時(shí)報(bào)》擁有版權(quán)的作品來訓(xùn)練 GPT 模型，且沒有任何向《紐約時(shí)報(bào)》提供許可或其他補(bǔ)償。

例如，2019年，《紐約時(shí)報(bào)》發(fā)表了一篇榮獲普利策獎(jiǎng)的關(guān)于紐約市出租車行業(yè)掠奪性貸款的系列文章。歷時(shí)18個(gè)月的調(diào)查包括600次訪談、100余條記錄請求、大規(guī)模數(shù)據(jù)分析、審核數(shù)千頁內(nèi)部銀行記錄和其他文件，最終導(dǎo)致犯罪調(diào)查，以及促成新法律以防止未來的濫用行為。OpenAI在創(chuàng)作過程中沒有發(fā)揮任何作用，但只需很少的提示，其產(chǎn)品就會(huì)逐字背誦其中的大部分內(nèi)容。

在訴狀中，《紐約時(shí)報(bào)》的訴訟請求除了要求法院判令被告賠償損失外，還要求恢復(fù)原狀、以及法律或衡平法允許的任何其他救濟(jì)永久禁止被告從事非法、不公平和侵權(quán)行為、銷毀所有 GPT 或其他大型語言模型以及包含《紐約時(shí)報(bào)》內(nèi)容的訓(xùn)練素材。筆者認(rèn)為，對被告方OpenAI和微軟而言， 恢復(fù)原狀和銷毀訓(xùn)練素材的訴求如果被法院支持，會(huì)是一個(gè)麻煩，但不至于導(dǎo)致ChatGPT崩潰或者停擺。

雖然ChatGPT訓(xùn)練素材的記憶方式和傳統(tǒng)的電腦復(fù)制、粘貼、存儲(chǔ)內(nèi)容的過程有一定區(qū)別，而且人工智能服務(wù)機(jī)構(gòu)對此也諱莫如深，但從網(wǎng)上泄露的內(nèi)容看，有些技術(shù)漏洞可以導(dǎo)致輸入一次提示詞，ChatGPT就會(huì)向使用者反饋原始的訓(xùn)練素材，說明其也是存在存儲(chǔ)區(qū)的，所以哪怕法院判決刪除侵權(quán)素材、恢復(fù)原狀，OpenAI和微軟應(yīng)該也可以通過刪除存儲(chǔ)的爭議內(nèi)容來履行判決。

二、必應(yīng)ChatGPT插件截取網(wǎng)站流量

微軟通過與OpenAI合作，將OpenAI的GPT商業(yè)化，并將其與自己的必應(yīng)搜索相結(jié)合。2023年5月，微軟和 OpenAI推出了Browse with Bing，這是一個(gè) ChatGPT插件，其可以通過必應(yīng)搜索引擎訪問互聯(lián)網(wǎng)上的最新內(nèi)容。必應(yīng)聊天和Browse with Bing 結(jié)合了ChatGPT-4 模仿人類表達(dá)的能力，必應(yīng)用戶可以直接閱讀搜索結(jié)果中的《紐約時(shí)報(bào)》文章自然語言摘要內(nèi)容，從而無需訪問《紐約時(shí)報(bào)》自己的網(wǎng)站。

不同于傳統(tǒng)搜索引擎只顯示網(wǎng)頁摘要，必應(yīng)搜索引擎頁面上的“合成”搜索結(jié)果可以直接回答用戶查詢，并且可能將《紐約時(shí)報(bào)》報(bào)道中廣泛的內(nèi)容進(jìn)行釋義和直接引用。對于《紐約時(shí)報(bào)》而言，這種方式實(shí)際意味著替代， 用戶無需訪問其網(wǎng)站就可以使用他們的內(nèi)容，這將導(dǎo)致商業(yè)利益受損。

由于互聯(lián)網(wǎng)的興起，傳統(tǒng)媒體如《紐約時(shí)報(bào)》的紙質(zhì)版內(nèi)容已經(jīng)被嚴(yán)重打擊了，這使得他們損失了報(bào)紙訂閱費(fèi)用和廣告收入。所以不得已，他們在網(wǎng)站上推出了付費(fèi)墻，也就是少部分內(nèi)容免費(fèi)或者每月少量內(nèi)容免費(fèi)，要多閱讀就要付費(fèi)。這里面有兩部分收入，免費(fèi)閱讀的廣告收入以及收費(fèi)閱讀的訂閱收入。

傳統(tǒng)的搜索引擎的搜索結(jié)果一般只顯示兩到三行文章的報(bào)紙網(wǎng)站摘要內(nèi)容，用戶要閱讀還是要打開報(bào)紙網(wǎng)站，所以能和付費(fèi)墻兼容。但必應(yīng)聊天和?Browse with Bing這兩個(gè)功能的出現(xiàn)使平衡被打破。用戶無需訪問網(wǎng)站就能獲得他們的內(nèi)容，會(huì)使其拿不到廣告收入以及收費(fèi)閱讀的訂閱收入，這也是他們起訴的重要原因。

除了復(fù)制《紐約時(shí)報(bào)》新聞媒體內(nèi)容外，必應(yīng)ChatGPT插件和瀏覽器使用 Bing for ChatGPT 時(shí)，還會(huì)顯示《紐約時(shí)報(bào)》Wirecutter （意為“鋼絲鉗”）板塊內(nèi)容的大量摘錄或釋義提示。該板塊的記者以完全的編輯獨(dú)立性和誠信，在長達(dá)數(shù)十年的時(shí)間里每年花費(fèi)數(shù)千小時(shí)研究和測試產(chǎn)品，以確保只推薦最好的產(chǎn)品。這些建議在呈現(xiàn)給讀者時(shí)，包括被介紹的產(chǎn)品在購物網(wǎng)站的直接鏈接，用戶購買后，《紐約時(shí)報(bào)》公司也會(huì)有收益。

但必應(yīng)的ChatGPT插件有效截取了Wirecutter 的精華部分直接呈現(xiàn)給用戶，這會(huì)降低用戶訪問到《紐約時(shí)報(bào)》原始來源的動(dòng)力。減少Wirecutter 文章的流量，進(jìn)而減少附屬鏈接的流量，最終導(dǎo)致《紐約時(shí)報(bào)》的收入損失。比如通過訪問必應(yīng)的ChatGPT插件，用戶已經(jīng)了解 Wirecutter推薦的最好的無繩真空吸塵器，以及這些建議的基礎(chǔ)，沒有理由訪問原始文章并點(diǎn)擊其網(wǎng)站內(nèi)的鏈接。這樣， 被告的人工智能產(chǎn)品通過不公平競爭，奪取了《紐約時(shí)報(bào)》的商業(yè)機(jī)會(huì)。

根據(jù)我國法律，如果搜索引擎提供的內(nèi)容實(shí)質(zhì)性替代了原始網(wǎng)站，涉嫌構(gòu)成著作權(quán)侵權(quán)，《紐約時(shí)報(bào)》在美國也就微軟必應(yīng)搜索引擎的類似行為起訴，說明根據(jù)美國法律，這個(gè)行為也涉嫌侵權(quán)。

三、人工智能的幻覺造成誤導(dǎo)

訴狀稱，ChatGPT將“幻覺”定義為一種機(jī)器的現(xiàn)象，如聊天機(jī)器人，產(chǎn)生看似真實(shí)的感官體驗(yàn)，不符合任何現(xiàn)實(shí)世界的輸入。被告的GPT模型將自信地提供信息，而不是說“我不知道”，這些信息在最好的情況下是不完全準(zhǔn)確的，在最壞的情況下，是明顯錯(cuò)誤的（但無法識別）。而用戶會(huì)很難區(qū)分“幻覺”和真實(shí)的輸出。

例如，在回答請求提供《紐約時(shí)報(bào)》文章，題為“亞馬遜內(nèi)部在傷痕累累的工作場所中爭奪大創(chuàng)意”的第六段時(shí)，必應(yīng)的ChatGPT插件Bing?Chat自信地聲稱要復(fù)制第六段。如果其真的這樣做了，它會(huì)已實(shí)施侵犯版權(quán)行為。但Bing Chat完全捏造了一個(gè)段落。

用戶給了Bing?Chat《紐約時(shí)報(bào)》一篇名為“有益心臟健康的飲食方式”的鏈接，要求其摘錄出“15種最有益心臟健康的食物”， Bing Chat向用戶列舉了15種有益心臟健康的食物，還包括適量的紅酒。事實(shí)上《紐約時(shí)報(bào)》的文章并沒有列出這?15 種食品中的 12 種。而且《紐約時(shí)報(bào)》的最新報(bào)道得出的結(jié)論是，紅酒不利于心臟健康。

在回答要求撰寫有關(guān)主要報(bào)紙的信息性文章的提示時(shí)：報(bào)告橙汁與非霍奇金淋巴瘤有關(guān)，完全是 GPT捏造的，《紐約時(shí)報(bào)》于2020年1月10日發(fā)表文章，題為“研究發(fā)現(xiàn)橙汁和非霍奇金淋巴瘤之間可能存在聯(lián)系。新冠流行期間，ChatGPT返回了帶有捏造文章標(biāo)題和超鏈接，據(jù)稱是由《紐約時(shí)報(bào)》出版的。《紐約時(shí)報(bào)》從未發(fā)表過這些標(biāo)題的文章，并且超鏈接不實(shí)。

此外，訴狀還列舉了ChatGPT捏造了不少健康領(lǐng)域的文章。筆者認(rèn)為，如果人工智能提供的服務(wù)出現(xiàn)幻覺，就會(huì)提供虛構(gòu)的事實(shí)，在法律上，以虛構(gòu)的事實(shí)描述他人的，涉嫌誹謗，也就是名譽(yù)侵權(quán)，損害了《紐約時(shí)報(bào)》的聲譽(yù)。 ChatGPT作為人工智能沒有人格，所以無法負(fù)責(zé)，應(yīng)當(dāng)負(fù)責(zé)的是其服務(wù)提供者OpenAI和微軟。

最后，《紐約時(shí)報(bào)》作為一家老牌的很有影響力的媒體，本次其起訴OpenAI和微軟，在業(yè)界引發(fā)了很大反響，說明雖然生成式人工智能還是新生事物，但重量級媒體已經(jīng)關(guān)注其破壞行業(yè)秩序的問題了。

事實(shí)上，除了此案，美國發(fā)生了很多對于生成式人工智能的維權(quán)案件，筆者寫過的就包括小說作者維權(quán)的《〈權(quán)力的游戲〉作者起訴ChatGPT侵權(quán)，AI訓(xùn)練要不要獲得著作權(quán)人的授權(quán)？》、軟件開發(fā)者維權(quán)的《用GitHub上的開源代碼訓(xùn)練人工智能違法嗎？》、唱片產(chǎn)業(yè)版權(quán)人維權(quán)的《環(huán)球唱片起訴人工智能引擎Claude案有哪些法律看點(diǎn)？》、以及綜合性的《AI生成的作品受版權(quán)保護(hù)嗎？我與ChatGPT各抒己見》等，大家有興趣也可以看看。

本文作者：游云庭，上海大邦律師事務(wù)所高級合伙人，知識產(chǎn)權(quán)律師。電話：8621-52134900，Email: yytbest@gmail.com