欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

谷歌揭秘自家翻譯系統(tǒng):如何利用AI技術(shù)提高翻譯質(zhì)量

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來看看。  

(原標(biāo)題:谷歌揭秘自家翻譯系統(tǒng):如何利用AI技術(shù)提高翻譯質(zhì)量)

對(duì)于機(jī)器翻譯來說,如果一門語言可用的文字資料越多,經(jīng)過人工智能模型訓(xùn)練出來的翻譯效果就越好。但并不是所有語言都具備豐富可用訓(xùn)練的文字資料,這樣一來,如何在數(shù)據(jù)不多的情況下,訓(xùn)練出更好的翻譯器,成為機(jī)器翻譯領(lǐng)域里需要解決的問題之一。

谷歌揭秘自家翻譯系統(tǒng):如何利用AI技術(shù)提高翻譯質(zhì)量

近日,谷歌在自己的博客上介紹了公司最新的翻譯創(chuàng)新技術(shù),這些技術(shù)提升了谷歌翻譯的用戶體驗(yàn)。目前谷歌翻譯可支持108種語言,平均每天翻譯1500億個(gè)單詞。

谷歌翻譯最早亮相于2006年,在過去的13年間,翻譯水平有了重大飛躍。谷歌表示,其翻譯突破并不是由單一技術(shù)推動(dòng)的,而是針對(duì)低資源語言、高資源語言、總體質(zhì)量、推理速度等一系列技術(shù)組合的突破。在2019年5月到2020年5月之間,根據(jù)人工評(píng)估和BLEU(基于翻譯系統(tǒng)翻譯和人工參考翻譯之間相似性的衡量標(biāo)準(zhǔn)),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。

混合模型和數(shù)據(jù)挖掘器

在這系列技術(shù)突破中,谷歌首先提到了混合模型和數(shù)據(jù)挖掘器。

混合模型指的是由Transformer編碼器和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)解碼器構(gòu)成的模型。在機(jī)器翻譯中,編碼器通常將單詞和短語編碼為內(nèi)部表征,解碼器將其生成為所需要的語言文本。谷歌的研究人員在2017年稱首次提出,翻譯質(zhì)量的提高主要依靠編碼器。谷歌團(tuán)隊(duì)稱這可能是因?yàn)镽NN和Transformer都設(shè)計(jì)為處理有序數(shù)據(jù)序列,但Transformers并不需要按順序處理序列。換句話說,如果所討論的數(shù)據(jù)是自然語言,則Transformer無需在處理結(jié)尾之前先處理句子的開頭。

盡管如此,RNN解碼器在推理時(shí)間上仍然比Transformer中的解碼器要“快得多”。谷歌翻譯團(tuán)隊(duì)認(rèn)識(shí)到這一點(diǎn),于是在將RNN解碼器與Transformer編碼器耦合之前,對(duì)RNN解碼器進(jìn)行了優(yōu)化,以創(chuàng)建低延遲、質(zhì)量及穩(wěn)定性均比此前所使用的RNN神經(jīng)機(jī)器翻譯模型更勝一籌的混合模型。

除了新穎的混合模型體系結(jié)構(gòu)之外,谷歌還升級(jí)了爬蟲工具,爬蟲工具可以從數(shù)以百萬計(jì)的示例翻譯中收集編譯訓(xùn)練數(shù)據(jù)。升級(jí)后,谷歌嵌入了14種大語言對(duì),而不是單純基于字典數(shù)據(jù)。也就是說它是使用實(shí)數(shù)向量來表示單詞和短語,更多地聚焦于精確性(檢索數(shù)據(jù)中的相關(guān)數(shù)據(jù)部分),而非檢索(實(shí)際檢索的相關(guān)數(shù)據(jù)總量)。產(chǎn)出效果方面,谷歌說這使得該數(shù)據(jù)挖掘器提取到的句子數(shù)量平均增加了29%。

“嘈雜”的數(shù)據(jù)和遷移學(xué)習(xí)

谷歌翻譯性能提升的另一個(gè)技術(shù)突破來自更好地處理訓(xùn)練數(shù)據(jù)中的“噪聲”。“噪聲”即嘈雜的數(shù)據(jù),因含有大量無法正確理解或解釋的信息數(shù)據(jù),從而會(huì)損害語料資源豐富的語言翻譯。因此谷歌翻譯團(tuán)隊(duì)部署了一個(gè)系統(tǒng),該系統(tǒng)使用經(jīng)過訓(xùn)練的模型為翻譯示例分配分?jǐn)?shù),進(jìn)而篩選出“純凈”的數(shù)據(jù)。實(shí)際上,這些模型一開始基于所有的數(shù)據(jù)進(jìn)行訓(xùn)練,然后逐漸基于更小、更純凈的數(shù)據(jù)子集進(jìn)行訓(xùn)練,這種方法在人工智能研究領(lǐng)域被稱為課程學(xué)習(xí)。

對(duì)于機(jī)器翻譯來說,傳統(tǒng)上依賴于源語言和目標(biāo)語言中成對(duì)句子的語料統(tǒng)計(jì)。對(duì)于資源較少的語言,谷歌在谷歌翻譯中采用了一個(gè)回譯機(jī)制,來強(qiáng)化并行訓(xùn)練數(shù)據(jù),即語言中的每個(gè)句子都與其譯文相配對(duì)。在該機(jī)制中,訓(xùn)練數(shù)據(jù)與合成的并行數(shù)據(jù)自動(dòng)對(duì)齊,目標(biāo)文本為自然語言,而源文本則由神經(jīng)翻譯模型生成。結(jié)果是,谷歌翻譯充分利用更豐富的單語文本數(shù)據(jù)來訓(xùn)練模型,谷歌稱這對(duì)提高翻譯流暢性特別有幫助。

此外,谷歌翻譯團(tuán)隊(duì)還建了一個(gè)M4模型。M4模型由團(tuán)隊(duì)在2019年提出,該模型對(duì)100多種語言的250億對(duì)句子進(jìn)行訓(xùn)練后,提高了30多種低資源語言的翻譯質(zhì)量。這一模型也證明了在機(jī)器翻譯過程中可以使用遷移學(xué)習(xí)技術(shù)。這也意味著收集包括法語、德語和西班牙語,這些有數(shù)十億個(gè)并行示例的高資源語言,并進(jìn)行訓(xùn)練后,可以應(yīng)用于翻譯諸如約魯巴語,信德語和夏威夷語,這些僅有數(shù)萬個(gè)示例的低資源語言。

機(jī)器翻譯的未來

谷歌稱,自2010年以來,翻譯質(zhì)量每年都在提高,但是機(jī)器翻譯絕不是翻譯問題的“終結(jié)者”。 谷歌承認(rèn),即使是增強(qiáng)后的模型也容易出錯(cuò),包括將一種語言的不同方言混合在一起,產(chǎn)生過多的直譯,以及在特定主題,非正式或口語上的表現(xiàn)不佳。

谷歌嘗試用不同的方法來解決上述的問題。公司曾發(fā)布一項(xiàng)計(jì)劃旨在招募志愿者,通過檢查翻譯單詞和短語是否正確來幫助提高低資源語言的翻譯性能。?今年2月份,谷歌翻譯與新興的機(jī)器學(xué)習(xí)技術(shù)相結(jié)合后就完成了進(jìn)步,他們提供了僅有7500萬人使用的五種語言翻譯,例如Kinyarwanda(盧旺達(dá)語),Odia(奧里亞語),Tatar(韃靼語),Turkmen(土庫曼語)和Uyghur(維吾爾語)。

追求真正通用翻譯的并不只有谷歌一家。在2018年8月,F(xiàn)acebook發(fā)布了一種AI模型,該模型結(jié)合了逐詞翻譯,語言模型和反向翻譯,在語言配對(duì)方面表現(xiàn)優(yōu)異。最近,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的研究人員提出了一種無監(jiān)督模型,即可以從未經(jīng)明確標(biāo)記或分類的測(cè)試數(shù)據(jù)中學(xué)習(xí)的模型,該模型可以在兩種語言的文本之間進(jìn)行翻譯,而無需在兩種語言之間直接進(jìn)行翻譯。

本文被轉(zhuǎn)載1次

首發(fā)媒體 網(wǎng)易科技 | 轉(zhuǎn)發(fā)媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 精品国产一区二区 | 爆操白虎 | 日本高清在线观看天码888 | 播放一级录像片 | 大片毛片女女女女女女女 | 日日夜夜免费精品 | 国产欧美综合精品一区二区 | 美女国产在线 | 99国产视频 | 国产成人咱精品视频免费网站 | 在线 | 一区二区三区 | 777奇米影视久久激情日韩欧美 | 毛片色| 亚洲成人在线免费观看 | aⅴ免费视频 | 久久久久成人精品一区二区 | 国产精品香蕉成人网在线观看 | 男女很黄很色床视频网站免 | 国产成人综合日韩精品无 | 99久久精品自在自看国产 | 午夜欧美精品久久久久久久久 | 天天舔天天射天天干 | 神马影院伦理我不卡 | 国产一区二区三区四区在线 | 玖玖在线国产精品 | 成年女人视频在线观看免费 | 奇米在线视频777 | 国产精品久久久久久久久久久久 | 亚洲一区二区三区免费观看 | 七月婷婷精品视频在线观看 | 亚洲狠狠色丁香婷婷综合 | 亚洲欧美片 | 亚洲欧洲久久 | 中文字幕在线观看日本 | 99热久久这里只精品国产9 | 久久天天干 | 亚洲国产精品67194成人 | 亚洲久久影院 | 亚洲视频天天射 | 四虎影院观看视频在线观看 | 国内视频一区 |