欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

谷歌揭秘自家翻譯系統(tǒng)：如何利用AI技術(shù)提高翻譯質(zhì)量

網(wǎng)易科技 ? 4年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

（原標(biāo)題：谷歌揭秘自家翻譯系統(tǒng)：如何利用AI技術(shù)提高翻譯質(zhì)量）

對(duì)于機(jī)器翻譯來說，如果一門語言可用的文字資料越多，經(jīng)過人工智能模型訓(xùn)練出來的翻譯效果就越好。但并不是所有語言都具備豐富可用訓(xùn)練的文字資料，這樣一來，如何在數(shù)據(jù)不多的情況下，訓(xùn)練出更好的翻譯器，成為機(jī)器翻譯領(lǐng)域里需要解決的問題之一。

近日，谷歌在自己的博客上介紹了公司最新的翻譯創(chuàng)新技術(shù)，這些技術(shù)提升了谷歌翻譯的用戶體驗(yàn)。目前谷歌翻譯可支持108種語言，平均每天翻譯1500億個(gè)單詞。

谷歌翻譯最早亮相于2006年，在過去的13年間，翻譯水平有了重大飛躍。谷歌表示，其翻譯突破并不是由單一技術(shù)推動(dòng)的，而是針對(duì)低資源語言、高資源語言、總體質(zhì)量、推理速度等一系列技術(shù)組合的突破。在2019年5月到2020年5月之間，根據(jù)人工評(píng)估和BLEU(基于翻譯系統(tǒng)翻譯和人工參考翻譯之間相似性的衡量標(biāo)準(zhǔn))，谷歌翻譯在所有語言中平均提高了5分以上，在50種語料資源最少的語言中平均提高了7分以上。

混合模型和數(shù)據(jù)挖掘器

在這系列技術(shù)突破中，谷歌首先提到了混合模型和數(shù)據(jù)挖掘器。

混合模型指的是由Transformer編碼器和遞歸神經(jīng)網(wǎng)絡(luò)（RNN）解碼器構(gòu)成的模型。在機(jī)器翻譯中，編碼器通常將單詞和短語編碼為內(nèi)部表征，解碼器將其生成為所需要的語言文本。谷歌的研究人員在2017年稱首次提出，翻譯質(zhì)量的提高主要依靠編碼器。谷歌團(tuán)隊(duì)稱這可能是因?yàn)镽NN和Transformer都設(shè)計(jì)為處理有序數(shù)據(jù)序列，但Transformers并不需要按順序處理序列。換句話說，如果所討論的數(shù)據(jù)是自然語言，則Transformer無需在處理結(jié)尾之前先處理句子的開頭。

盡管如此，RNN解碼器在推理時(shí)間上仍然比Transformer中的解碼器要“快得多”。谷歌翻譯團(tuán)隊(duì)認(rèn)識(shí)到這一點(diǎn)，于是在將RNN解碼器與Transformer編碼器耦合之前，對(duì)RNN解碼器進(jìn)行了優(yōu)化，以創(chuàng)建低延遲、質(zhì)量及穩(wěn)定性均比此前所使用的RNN神經(jīng)機(jī)器翻譯模型更勝一籌的混合模型。

除了新穎的混合模型體系結(jié)構(gòu)之外，谷歌還升級(jí)了爬蟲工具，爬蟲工具可以從數(shù)以百萬計(jì)的示例翻譯中收集編譯訓(xùn)練數(shù)據(jù)。升級(jí)后，谷歌嵌入了14種大語言對(duì)，而不是單純基于字典數(shù)據(jù)。也就是說它是使用實(shí)數(shù)向量來表示單詞和短語,更多地聚焦于精確性(檢索數(shù)據(jù)中的相關(guān)數(shù)據(jù)部分)，而非檢索（實(shí)際檢索的相關(guān)數(shù)據(jù)總量）。產(chǎn)出效果方面，谷歌說這使得該數(shù)據(jù)挖掘器提取到的句子數(shù)量平均增加了29%。

“嘈雜”的數(shù)據(jù)和遷移學(xué)習(xí)

谷歌翻譯性能提升的另一個(gè)技術(shù)突破來自更好地處理訓(xùn)練數(shù)據(jù)中的“噪聲”。“噪聲”即嘈雜的數(shù)據(jù)，因含有大量無法正確理解或解釋的信息數(shù)據(jù)，從而會(huì)損害語料資源豐富的語言翻譯。因此谷歌翻譯團(tuán)隊(duì)部署了一個(gè)系統(tǒng)，該系統(tǒng)使用經(jīng)過訓(xùn)練的模型為翻譯示例分配分?jǐn)?shù)，進(jìn)而篩選出“純凈”的數(shù)據(jù)。實(shí)際上，這些模型一開始基于所有的數(shù)據(jù)進(jìn)行訓(xùn)練，然后逐漸基于更小、更純凈的數(shù)據(jù)子集進(jìn)行訓(xùn)練，這種方法在人工智能研究領(lǐng)域被稱為課程學(xué)習(xí)。

對(duì)于機(jī)器翻譯來說，傳統(tǒng)上依賴于源語言和目標(biāo)語言中成對(duì)句子的語料統(tǒng)計(jì)。對(duì)于資源較少的語言，谷歌在谷歌翻譯中采用了一個(gè)回譯機(jī)制，來強(qiáng)化并行訓(xùn)練數(shù)據(jù)，即語言中的每個(gè)句子都與其譯文相配對(duì)。在該機(jī)制中，訓(xùn)練數(shù)據(jù)與合成的并行數(shù)據(jù)自動(dòng)對(duì)齊，目標(biāo)文本為自然語言，而源文本則由神經(jīng)翻譯模型生成。結(jié)果是，谷歌翻譯充分利用更豐富的單語文本數(shù)據(jù)來訓(xùn)練模型，谷歌稱這對(duì)提高翻譯流暢性特別有幫助。

此外，谷歌翻譯團(tuán)隊(duì)還建了一個(gè)M4模型。M4模型由團(tuán)隊(duì)在2019年提出，該模型對(duì)100多種語言的250億對(duì)句子進(jìn)行訓(xùn)練后，提高了30多種低資源語言的翻譯質(zhì)量。這一模型也證明了在機(jī)器翻譯過程中可以使用遷移學(xué)習(xí)技術(shù)。這也意味著收集包括法語、德語和西班牙語，這些有數(shù)十億個(gè)并行示例的高資源語言，并進(jìn)行訓(xùn)練后，可以應(yīng)用于翻譯諸如約魯巴語，信德語和夏威夷語，這些僅有數(shù)萬個(gè)示例的低資源語言。

機(jī)器翻譯的未來

谷歌稱，自2010年以來，翻譯質(zhì)量每年都在提高，但是機(jī)器翻譯絕不是翻譯問題的“終結(jié)者”。谷歌承認(rèn)，即使是增強(qiáng)后的模型也容易出錯(cuò)，包括將一種語言的不同方言混合在一起，產(chǎn)生過多的直譯，以及在特定主題，非正式或口語上的表現(xiàn)不佳。

谷歌嘗試用不同的方法來解決上述的問題。公司曾發(fā)布一項(xiàng)計(jì)劃旨在招募志愿者，通過檢查翻譯單詞和短語是否正確來幫助提高低資源語言的翻譯性能。?今年2月份，谷歌翻譯與新興的機(jī)器學(xué)習(xí)技術(shù)相結(jié)合后就完成了進(jìn)步，他們提供了僅有7500萬人使用的五種語言翻譯，例如Kinyarwanda（盧旺達(dá)語），Odia（奧里亞語），Tatar（韃靼語），Turkmen（土庫曼語）和Uyghur（維吾爾語）。

追求真正通用翻譯的并不只有谷歌一家。在2018年8月，F(xiàn)acebook發(fā)布了一種AI模型，該模型結(jié)合了逐詞翻譯，語言模型和反向翻譯，在語言配對(duì)方面表現(xiàn)優(yōu)異。最近，麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的研究人員提出了一種無監(jiān)督模型，即可以從未經(jīng)明確標(biāo)記或分類的測(cè)試數(shù)據(jù)中學(xué)習(xí)的模型，該模型可以在兩種語言的文本之間進(jìn)行翻譯，而無需在兩種語言之間直接進(jìn)行翻譯。

本文被轉(zhuǎn)載1次

首發(fā)媒體

| 轉(zhuǎn)發(fā)媒體

隨意打賞

再次降本增效：內(nèi)部文件顯示谷歌重組云計(jì)算部門

砍柴網(wǎng) ? 1分鐘前

Google Cloud首席執(zhí)行官 Thomas Kurian 3月13日，商業(yè) 內(nèi)幕報(bào)道，谷歌再次對(duì)其云計(jì)算部門進(jìn)行重組，這次整合了其戰(zhàn)略部門的團(tuán)隊(duì)。根據(jù)商業(yè)內(nèi)幕獲取的一份內(nèi)部備忘錄，谷歌云市場(chǎng)推廣首席運(yùn)營官格蕾塔·克魯佩茨基在2月向云戰(zhàn)略與運(yùn)營團(tuán)隊(duì)員工宣布，此次重組旨在“更快響應(yīng)市
谷歌更新 Chrome 擴(kuò)展程序聯(lián)盟廣告政策，禁止 Honey 式惡意行為

砍柴網(wǎng) ? 17分鐘前

3 月 13 日消息，外媒 The Verge 注意到，谷歌本月 11 日對(duì) Chrome應(yīng)用商店的擴(kuò)展程序聯(lián)盟廣告政策進(jìn)行了更新，禁止了支付大廠 PayPal 旗下優(yōu)惠券平臺(tái) Honey 的擴(kuò)展程序此前的一系列惡意行為。油管博主 MegaLag 去年末指出，Honey擴(kuò)展程序會(huì) 修改影響者發(fā)布的含聯(lián)
谷歌DeepMind推出新AI模型機(jī)器人未經(jīng)訓(xùn)練也能執(zhí)行現(xiàn)實(shí)任務(wù)

砍柴網(wǎng) ? 59分鐘前

3 月 12 日消息，北京時(shí)間今晚，谷歌 DeepMind 推出兩款新型 AI 模型，旨在幫助機(jī)器人完成更多現(xiàn)實(shí)世界中的任務(wù)。其中一款名為 Gemini Robotics，是一款視覺語言行動(dòng)模型，能夠使機(jī)器人在沒有進(jìn)行過專門訓(xùn)練的情況下理解新的情境。Gemini Robotics 基于谷歌最新版本的 AI 旗艦?zāi)Ｐ?—
谷歌曝兩款「機(jī)器人 AI 模型」；英特爾任命新 CEO，股價(jià)大漲11%；253 億！《寶可夢(mèng) Go》出售

極客公園 ? 3小時(shí)前

谷歌 DeepMind 推出新 AI 模型，機(jī)器人未經(jīng)訓(xùn)練也能執(zhí)行現(xiàn)實(shí)任務(wù)3 月 12 日消息，北京時(shí)間晚間，谷歌 DeepMind 推出兩款新型 AI 模型，旨在幫助機(jī)器人完成更多現(xiàn)實(shí)世界中的任務(wù)。其中一款名為 Gemini Robotics，是一款視覺語言行動(dòng)模型，能夠使機(jī)器人在沒有進(jìn)行過專門訓(xùn)練的情況下理解新的情
看齊蘋果華為！谷歌自研Soc來了：臺(tái)積電代工

砍柴網(wǎng) ? 1天前

3月12日消息，據(jù) 媒體報(bào)道，谷歌Pixel 10系列將會(huì)首發(fā)搭載谷歌自研Tensor G5芯片，由臺(tái)積電代工生產(chǎn)。此前上市的谷歌Tensor系列處理器由三星代工，是谷歌半定制的產(chǎn)品，基于三星Exynos魔改而來，集成了谷歌自研的TPU內(nèi)核。因此，嚴(yán)格來說Tensor是一款客制化的芯
谷歌欲殺回智能眼鏡市場(chǎng) 8億元收購眼球追蹤公司AdHawk

砍柴網(wǎng) ? 1天前

AdHawk開發(fā)的眼鏡MindLink北京時(shí)間3月12日，據(jù)彭博社報(bào)道，谷歌正在就收購加拿大眼球追蹤技術(shù)開發(fā)商AdHawk微系統(tǒng)進(jìn)行最后的談判，該搜索巨頭欲重新進(jìn)軍頭戴設(shè)備和智能眼鏡市場(chǎng)。知情人士稱，谷歌打算以1.15億美元(約合8.35億元人民幣)收購AdHawk，其中包含 1500萬美元的未來付款，這些款項(xiàng)將取決于
Google發(fā)布文本嵌入模型Gemini Embedding

i黑馬 ? 1天前

近日，谷歌推出了基于Gemini模型的新型文本嵌入模型Gemini Embedding。據(jù)了解，該模型是一款基于AI的文本處理模型，能夠?qū)⑽谋巨D(zhuǎn)換為數(shù)值表示（向量），從而支持語義搜索、推薦系統(tǒng)和文檔檢索等功能。相比之前的模型，Gemini Embedding在多個(gè)領(lǐng)域如金融、科學(xué)等展現(xiàn)出更優(yōu)性能，并支持超過100種語言
成為馬斯克對(duì)手，谷歌前CEO施密特加入火箭公司任CEO

砍柴網(wǎng) ? 1天前

馬斯克與施密特北京時(shí)間3月11日，據(jù)《紐約時(shí)報(bào)》報(bào)道，谷歌公司前CEO埃里克·施密特(Eric Schmidt)加入了加州火箭創(chuàng)業(yè) 公司Relativity Space并擔(dān)任CEO。這是他自2011年卸任谷歌CEO后，再次擔(dān)任CEO職務(wù)。兩位知情人士稱，施密特周一對(duì)Rela
亞馬遜首款量子計(jì)算芯片Ocelot亮相，微軟/谷歌/微美全息競(jìng)逐加速量子行業(yè)成熟

砍柴網(wǎng) ? 2天前

獲悉，日前，亞馬遜的云計(jì)算業(yè)務(wù)部門AWS宣布推出名為“豹貓”(Ocelot)的新型量子計(jì)算芯片，與目前的方法相比，“豹貓”芯片可將實(shí)施量子糾錯(cuò)的成本降低90%。首款量子芯片“Ocelot”亮相亞馬遜方面稱，“豹貓”芯片在架構(gòu)設(shè)計(jì)上采用了全新方案，一顆Ocelot芯片由14個(gè)核心組件組成：5個(gè)數(shù)據(jù)量子比特（“貓”量子比特
谷歌 Gemini Embedding 登頂 MTEB，問鼎最強(qiáng)文本嵌入 AI 模型

砍柴網(wǎng) ? 3天前

3 月 10 日消息，谷歌公司于 3 月 7 日發(fā)布博文，宣布推出? Gemini Embedding ，是一款基于 AI 的文本處理模型，現(xiàn)已集成至 Gemini API。該模型在 Massive Text Embedding Benchmark（MTEB）中拔得頭籌，超越了 Mis

評(píng)論

提交建議