Google Translate機器翻譯錯誤的技術分析
前幾天又發生了一次針對Google的所謂“辱華事件”,一篇號召網民“抵制Google翻譯工具”的帖子在某著名論壇上出現,帖子指責Google的翻譯工具出現離奇的“張冠李戴”現象,甚至有傷害中國人感情的嫌疑,對Google的不正確翻譯,該文列舉了一些例子,如“I thought this was shame”(我認為這是恥辱)被譯為“我認為這是中國的恥辱”等等。
該篇文章發表后,引起了很多人的注意,不少媒體都進行了轉載,之后,Google Translate翻譯服務也迅速修正了這個技術錯誤。
由于我自己也是經常使用Google翻譯工具,因此我就結合一下我對Google Translate翻譯工具的理解來闡述一下這種錯誤可能產生的內在原因。
以往的翻譯通常都是使用一個一個詞地“死譯”,由于詞義的多變性,同樣一個單詞在不同的場合下可能會出現完全不同的含義,因此原先的那種翻譯效果可謂“慘不忍睹”,翻譯質量普遍很差,基本上沒有什么參考價值,大家可以使用詞霸或者Yahoo翻譯來隨便翻譯一兩篇英文來實驗一下。百度因為“更懂中文”,因此沒有全文翻譯產品,只有一個簡單的單詞翻譯功能。
Google Translate翻譯服務是目前中文翻譯領域中表現最為突出的一個,主要原因是Google翻譯于今年進行了一次創新,使得Google翻譯具有人工智能的詞義辨識能力,也就是說,通過Google搜尋不同字詞同時出現在同一網頁的頻率來確定字詞間的關聯性,以這種人工智能的方法來進行真正意義上的全文翻譯。
在Google眼中,一個字詞的意義經常能從其他與它并用的字眼而獲得,Google有天然的優勢—已經索引過的海量資料庫,通過對海量的多語言數據進行對比學習,找到不同語言之間的語法和文字對應規律,實現了機器自動學習功能。
Google的這種智能識別翻譯雖然極大地提高翻譯質量,但是總的來說翻譯水準還是不能達到很高的水平,出現一些技術上的錯誤也在所難免。例如這次出現的這個翻譯錯誤問題。
我推測這個錯誤可能是這么產生的,就是在Google的自動機器學習過程中,主要學習的是一些西方文獻以及其翻譯結果,由于西方對于中國的評價大多都是負面的,因此某些“不好的字眼”經常和“中國”一道出現,當出現的頻率很高的時候,Google就根據以往的常識,將這個“不好的字眼”和“中國”進行了一定關聯,于是就出現了這種智能推測,導致了所謂的“Google辱華翻譯事件”。
當然,這個技術問題解決起來也不難,就是擴大Google翻譯的機器學習資料庫,從不同的環境多分析一些資料(比如也分析一下人民日報的信息),這樣推測詞義出現的偏差可能會小一些,結果也會更為“中立”一些。
總的來說,Google放棄傳統的翻譯方式,改而使用機器自動分析統計識別的方法,是一大進步,極大提高了文章的翻譯質量,后續Google應該做的是優化識別統計算法,擴大自動學習資料庫,使得翻譯的結果更加準確。然而令人不解的是,某些懷有不可告人動機的人不去研究技術和算法上的問題,而專門去找一些奇怪的缺陷錯誤,并將這種純粹的技術問題上升到政治層面,早先有“Google搜索南京大屠殺事件”,現在又有“抵制Google翻譯事件”,是的,哪里有臭味,哪里就有蒼蠅的身影,蒼蠅改不了逐臭,正如狗改不了吃屎一樣,我奉勸那些專門搜尋這方面材料的那些人,不要再做那些妖言惑眾、嘩眾取寵的事情了,這么做不僅侮辱了自己的智商,同時也侮辱了廣大網民的智商。當今社會是一個競爭激烈的社會,需要不斷學習新知識,學習,不僅僅是學習知識,更重要的是學習分析問題的能力和技巧,如果只知道固步自封、閉門造車,整天想一些歪門邪道,不去想辦法提高知識和技能,那么遲早有一天會被這個社會所淘汰。