搜狗谷歌機器翻譯結果的對比和分析
? 本文作者:宋柔,廣東外語外貿大學云山講座教授,曾任北京語言大學信息科學學院教授,博士生導師,中文信息學報編委。主要從事智能軟件工具、語言信息處理、人工智能應用方面的研究、開發和教學工作,近年的主要研究方向是語言信息處理。
去年谷歌推出了基于神經網絡的機器翻譯系統,最近搜狗也推出了類似的系統。我對這兩個系統翻譯結果的錯誤作了一些對比分析。
英譯漢
測試樣本是2016年12月12日紐約時報網上新聞第一則,共11個句子,361個英文詞。其中的錯誤歸為4種類型:譯詞錯、結構錯、漏譯、多譯。結構錯又分為3類:介詞錯、一般結構錯、成分共享關系錯。
例1
Instead, Mr. Trump has decided to risk what looks to be a bruising confirmation fight in the Senate.
Google譯文:
相反,特朗普先生決定冒險在參議院看起來是一個瘀傷的確認戰。
其中有3個錯誤
risk what……confirmation fight,這里的risk帶小句賓語,翻譯成名詞性賓語“冒險……確認戰”不通,屬于一般結構錯。
bruising應該是“激烈的”或“困難的”,譯作“瘀傷的”屬于譯詞錯。
in the Senate是risk的狀語,譯文中卻是looks to的狀語,屬于一般結構錯。
Sogou譯文:
相反,特朗普決定冒險在參議院進行看似漏洞百出的確認戰。
其中有1個錯誤
bruising譯作“漏洞百出的”是譯詞錯。
例2
The company has billions of dollars in oil contracts that can go forward only if the United States lifts sanctions against Russia, and Mr. Tillerson’s stake in Russia’s energy industry could create a very blurry line between his interests as an oilman and his role as America’s leading diplomat.
Google譯文:
該公司擁有數十億美元的石油合同,只有美國解除對俄羅斯的制裁,Tillerson先生在俄羅斯能源行業的股權可能創建一個非常模糊的線之間他的利益作為一個石油公司和他的作用,美國的領先外交官。
其中有7個錯誤
that can go forward 漏譯。
between his interests as an oilman and his role as America’s leading diplomat.的結構是between A as B and C as D,應該譯作“作為(B)的(A)和作為(D)的(C)之間的”,其中(X)表示X的漢語譯文。但這里,“之間”的位置錯了,第2個as未譯出來,是2個介詞錯;(A)與(B)的關系、(C)與(D)的關系搞錯了,是2個一般結構錯。此外,oilman錯譯為“石油公司”、leading錯譯為“領先”,是2個譯詞錯。
Sogou譯文:
這家公司有數十億美元的石油合同,只有當美國解除對俄羅斯的制裁,而tillerson在俄羅斯能源行業的股份可能會在他作為石油商的利益和他作為美國主要外交官的角色之間產生模糊的界限。
其中有1個錯誤:that can go forward 漏譯。
between的介詞短語翻譯得完全正確,很不容易。
例3
In the past several days, Republican and Democratic lawmakers had warned that Mr. Tillerson would face intense scrutiny over his two-decade relationship with Russia, which awarded him its Order of Friendship in 2013, and with Mr. Putin.
Google譯文:
在過去幾天,共和黨和民主黨立法者警告說,Tillerson先生將對他與俄羅斯的二十年關系進行密切的審查,俄羅斯在2013年授予他的友誼,并與普京先生。
其中有4個錯誤:
face intense scrutiny over NP應當譯作“面對關于(NP)的嚴格審查”,這里的譯文是“對(NP)進行密切的審查”,把被動關系譯成主動關系,是一般結構錯;介詞over沒譯出來,是介詞錯。
Order of Friendship錯譯為“友誼”,是譯詞錯。
and with Mr. Putin應當與with Russia共享relationship,這里被單獨擱置,是成分共享關系錯。
Sogou譯文:
在過去幾天,共和黨和民主黨議員警告說,tillerson將會對他與俄羅斯的愛恨關系進行嚴格審查,這種關系于2013年向他授予了他的友誼秩序,并與普京一起。
其中有6個錯誤
Google的4個錯誤在Sogou中同樣存在。
two-decade relationship譯文為“愛恨關系”,涉及“二十年”漏譯而“愛恨”多譯,歸為漏譯。
向他授勛的是“俄羅斯”,譯文中是“這種關系”,是先行詞譯錯,歸為成分共享關系錯。
錯誤分類統計如下表:

?
從這個樣本看,Sougou英譯漢的質量比Google明顯地好。
除了錯誤少之外,Sogou譯文的順暢規范也好于Google。這表現在3方面:
(1)譯詞在可容忍的范圍內選擇得較為確切。如例3的intense scrutiny譯作“嚴格的審查”而不是“密切的審查”,類似的情況有多處。
(2)同位語能前置于中心語的都前置處理,Google則多數按照英文的原序后置,并前后用逗號分隔。比如
selected Rex W. Tillerson, the chief executive of Exxon Mobil, to be his secretary of state.
Sogou 譯作“選定埃克森美孚的首席執行官雷克斯擔任他的國務卿”,Google譯作“選舉雷克斯·蒂爾森,埃克森美孚的首席執行官,成為他的國務卿”。Google這樣翻譯不能算錯,但屬于歐化表達,不順暢。
(3)標點處理。英語中,并列短語之間用逗號分隔,漢語譯文應該改用頓號。例如Mr. Romney, Mr. Petraeus and Mr. Corker,Sogou譯作“羅姆尼、彼得雷烏斯和考克”,Google則仍作逗號,譯作“羅賓尼先生,Petraeus先生和Corker先生”。
這個考察樣本比較小,還不能全面反映兩個系統的水平差異,但至少能看出Sogou英譯漢的水平是相當不錯的。
漢譯英
測試樣本包括2016年12月12日中新網新聞2則5句,小說《鹿鼎記》1段3句,2016年政府工作報告2段2句,共10句626字。其中的錯誤歸為4種類型:詞語錯、結構錯、漏譯、多譯。詞語錯分為譯詞錯、專名錯、譯詞直接采用拼音、數詞錯4類,結構錯又分為論元關系錯、介詞錯、核心動詞錯、黏著結構錯4類。
例1
2016年10月18日,王女士等幾名群眾來到巴中老城一銀行客戶部,反映通過該銀行工作人員辦理的存款不能取出,大家十分著急。
Google譯文:
October 18, 2016, Ms. Wang and several other people came to the old city of Pakistan a bank customer department, reflecting the bank staff through the deposit can not be removed, we are very anxious.
其中有6個錯誤
時間狀語October 18, 2016缺少介詞,屬于介詞錯。
城市名“巴中”譯作Pakistan,屬于專名錯。
a bank customer department應是come to的處所賓語,譯文中是賓語old city的后置定語,屬于論元關系錯。
“通過該銀行工作人員辦理的存款”譯作the bank staff through the deposit,論元關系顛倒,屬于論元關系錯。
存款的“取出”譯作removed,屬于譯詞錯。
“大家十分著急。”是間接引語,譯文中將“大家”譯作“我們”,成為直接引語,屬于譯詞錯。
Sogou譯文:
On October 18, 2016, mrs.wang and other people came to the bank of bus center, the bank of bus center, reflecting that the savings through the bank staff can not be taken out, everyone is very anxious.
其中有2個錯誤
城市名“巴中”譯作bus center,屬于專名錯。
“客戶部”漏譯,而且重復了the bank of bus center,這里歸為漏譯。
例2
江南近海濱的一條大路上,一隊清兵手執刀槍,押著七輛囚車,沖風冒寒,向北而行。
Google譯文:
Jiangnan near the waterfront on a road, a team of Qing Bing Shouqiangqiang, escorted seven prisoners, the wind cold, northbound.
其中有6個錯誤:
“江南”直接使用拼音Jiangnan,歸為詞語錯中的拼音類錯誤。
“近海濱的一條大路上”譯文為near the waterfront on a road,修飾關系顛倒,歸為論元關系錯。
“清兵”和“手執刀槍”在譯文中直接使用拼音(后者拼寫錯),是詞語錯中的2個拼音類錯誤。
黏著語素結構“沖風冒寒”譯文為the wind cold,歸為黏著結構錯。
“向北而行”譯文為northbound,缺核心動詞,為核心動詞錯。
Sogou譯文:
On a main road near the south of the Yangtze river, a team of Bowls, with a knife, held seven prison van, Okikaze, and xing to the north.
其中有3個錯誤:
“清兵”譯作Bowls,為譯詞錯。
黏著語素結構“沖風冒寒”譯文為Okikaze,歸為黏著結構錯。
“向北而行”的“行”直接用拼音xing,歸為詞語錯中的拼音類錯誤。
錯誤分類統計如下表:
?
從這個樣本看,Sougou漢譯英的質量與Google相比大致相當。從錯誤類型看,Sogou漏譯較多,Google論元關系錯誤較多。
這個考察樣本也比較小,不能全面反映兩個系統的實際水平。但對比英譯漢和漢譯英,兩個評測樣本的規模大致相當,兩個系統的漢譯英的錯誤都明顯多于英譯漢的錯誤,也許說明漢譯英比英譯漢,難度更大一些。
值得思考的問題
從這兩個系統的測試結果對比中可以看出一些問題。
(1) 有些語段兩個系統都譯錯了。比如英譯漢例2中的
The company has billions of dollars in oil contracts that can go forward only if the United States lifts sanctions against Russia
其結構是S1 S2 Conj S3,其中S表示小句,Conj表示連詞。兩個系統S2都漏譯。
英譯漢例3中的
his two-decade relationship with Russia, which awarded him its Order of Friendship in 2013, and with Mr. Putin
其結構是 N1 with N2, RS, and with N3,其中N表示名詞短語,RS表示關系從句。兩個系統都未能把with N2和with N3連起來翻譯。
采用同一個模型的不同系統對于同一個結構的翻譯犯相同的錯誤,也許可以令人懷疑這種模型對于這類結構的適應性。這類結構是否確實包含著本質性的翻譯困難?如何解決這種困難?
(2)漢譯英比英譯漢是否確實更為困難?具體的困難在哪里?黏著語素結構顯然是一個不易解決的難點。此外,屬于論元關系、核心動詞、漏譯類型的錯誤在兩個系統中出現的都比較多,這是為什么?如何解決?
基于神經網絡的機器翻譯出現的時間不長,已經顯示出明顯的優勢。但是任何新方法、新技術都會有不足之處,神經網絡機器翻譯也不會例外。摸索這種方法的天花板,探尋打破天花板的更新的理論和方法,應當是機器翻譯的研究方向。
推薦閱讀
微視酷“1工程”開展如火如荼,走進北京多所名校
日前,北京微視酷宣布獲得千萬級投資,且隨后就攜手北京培新小學共同打造了全國首家基礎教育VR教學示范校。在采訪中,微視酷方面表示,在此之后,微視酷還將加大研發力>>> 詳細閱讀
本文標題: 搜狗谷歌機器翻譯結果的對比和分析
地址:http://www.lgo100.com/a/05/301944.html
? 1 / 2 ??? 1 ? 2 ? 下一頁