微軟這次搶先 Google,要在廣東和香港大漲真愛粉
想節棱,棱胎棱。
一頭霧水?請看以下圖片:
想起了嗎?
沒錯,這就是曾經傳遍網絡的某輪胎廣告,里面生動地體現了以粵語為母語人民的“煲冬瓜”(備注:“煲冬瓜”=“普通話”,廣東和香港人用于自嘲普通話不標準的說法)。當然,古天樂現在的普通話已經進步很多了,但微軟還是決定要將人類從“煲冬瓜”里解救出來。同時,這也是微軟要打破世界語言隔閡的其中一個舉動。
電影《家有喜事 1992》
前段時間,微軟亞洲研究院在其官網上宣布微軟翻譯(Microsoft Translator)正式發布粵語文本翻譯功能, 并已集成到必應搜索和翻譯、Microsoft Office、SharePoint、Cortana(微軟小娜)和 Yammer。
事不宜遲,ifanr(微信號 ifanr) 現在和大家一起測試一下。
Level 1 ―― 詞匯題:表情包
Level 1 的測試選擇了微信表情包“廣東青年粵語表情”,其中包括了“核突”、“靚爆鏡”、“細路”等不少有看港劇的非粵語母語者都能看懂的詞語。測試詞匯合計 14 個,結果如下:
(正確部分)
(無法翻譯部分)
翻譯測試正確率:50%。(翻不出來的,都會保持原來的寫法。)
根據微軟官網介紹,微軟翻譯基于平行語料庫,且應用了機器學習技術和應用統計學,翻譯“利用單詞的整個語境,而非單個單詞來為整句提供最佳的譯文。” 因此,愛范兒(微信號 ifanr)將為原來翻譯不正確的詞語提供了語境,再試一次:
在本次測試中,微軟翻譯在語境中對“靚爆鏡”、“無陰功“、“錫曬距”和“心淡”的理解都基本正確。可見語境對于提高理解還是有幫助的。
電影《英雄本色》
第一輪得分:85。
Level 2 ―― 閱讀題:香港娛樂新聞
其中一個粵語口語文本出現較頻繁的情景是香港娛樂新聞,因此 2 級測試截取了難度中等的新聞報道測試,結果如下:
總體而言,翻譯文本意思基本通暢,只是在某些口語化特別強的詞語翻譯上有點奇怪。例如:“精靈 BB”,語境中意思應為形容人的精神狀態很好,看起來聰明,反應快。
但這個錯誤真不可以怪微軟,因為這個用法包含了兩個知識點:1. “精靈”在粵語中為不同音多義詞,其一可用于指神話中出現的生物“精靈”,和普通話一樣;其二為形容人看起來或做事很機智;2. 粵語中喜愛用“BB”搭配在形容詞和名詞后用于表達親昵,并無實義。
從另一個角度看來,微軟翻譯在這個測試中,不少粵語用詞的處理都比較好,例如:“查實”=“其實”、“嗲?句”=“閑聊幾句”;而“?”、“?”、“?”、“?晚”等高頻用詞的翻譯表現更是穩定。
第二輪得分:80。
Level 3 ―― 翻譯題:地道地“說”粵語
既然微軟翻譯的成段粵語-普通話翻譯表現不錯,那普通話譯粵語呢?
從測試結果看來,微軟翻譯“說”粵語的能力基本和反向翻譯的水平相符,可以將一些高頻詞如“是”、“的”、“還”等轉化為粵語口語用法。
但翻譯同一詞語在不同語段里翻譯效果不一的現象。例如,在測試第二段中,原本第一段保留的“愛范兒”就成了“鐘意范兒”、“無人機”也成了“?人機”。這呼應了之前提及的依賴語境翻譯的說法,但同時也體現其不準確性。因此,還是建議學習粵語的用戶在參考時要謹慎。
第三輪得分:70。
終極 BOSS ―― 奧賽題:口語+臟話搭配測試
(說明:下文涉及不雅語言,目的僅用于測試,不建議模仿)
電影《九品芝麻官》
人在學習新語言的時候,經常學得最快記得最牢的都是臟話,有文章表明這是出于社交需求。那暫無社交需求微軟翻譯又是否如此呢?
測試表明,平行語料庫里有包含臟話素材,因此系統可以辨認得出臟話詞組,但還是無法以合符說話習慣的方式來組織句子。
第四輪得分:60。
測試結論
微軟四輪綜合得分:75.75 分。
從該次測試看來,微軟的表現還是非常不錯的。雖然現階段可翻譯的部分還局限于單個詞語以及一些常用銜接詞,但鑒于粵語本質上為一種口語(粵語的書面翻譯對應類別為簡體字與繁體字翻譯),用法特別靈活,所以這樣的水平已非常不錯。相信日后在語料庫不斷豐富以及長期機器學習后,效果必定會更好。
Google 在去年 2 月的時候,已經向用戶發出邀請到翻譯社區參與粵語翻譯的準備工作,但沒想到這次居然讓微軟搶先一步面世。不過無論如何,推出粵語翻譯功能只是時間的問題。因為根據人機通過語音交互的大趨勢,粵語這個在國內有 5500 萬人,國外 2000 萬人使用的口語,還是非常值得去突破。
而且,微軟說了,要 “永久打破語言的障礙,讓人們實現隨時隨地的多語言溝通。” 那是要讓人們可以自由地使用自己想說的語言無障礙地溝通。
課外活動:和愛范兒一起來玩
調戲微軟粵語翻譯攻略:
-
打開必應翻譯;
-
選擇“粵語(繁體中文)”(如果是粵語翻普通話,就在左邊對話框選擇粵語;反之亦然);
-
手動輸入粵語的用戶需要將輸入法調為繁體字輸入法(否則表現不穩定哦);
-
在左邊框輸入要翻譯的文本,點擊“翻譯”,OK!
歡迎各位對粵語,或者調戲微軟翻譯有興趣的朋友,加入我們的“微軟粵語翻譯群”,分享大家給微軟出的考試題。屆時,我們會精選大家分享的“微軟粵語考題”到本文章上。
加入方式:關注 ifanr(微信號 ifanr ),輸入“ 粵語 ”,掃碼入群一起玩。
電影《家有喜事 1992》
題圖來自微軟官網