機器翻譯技術的發展態勢
經過 70 多年的發展,機器翻譯在翻譯質量、系統性能、實用性、規模化應用等方面均取得了較大飛躍。機器翻譯呈現百花齊放、滿園春色的蓬勃發展新態勢,其產業應用也呈現一派欣欣向榮的景象。目前機器翻譯技術有以下五大發展趨勢:
1. 深度學習技術不斷發展,神經網絡機器翻譯成為主流
近年來,機器翻譯的快速進步主要得益于深度學習技術的發展。神經網絡機器翻譯在 2014年左右萌芽,并迅速茁壯成長。借助深度神經網絡模型在語義表示及理解方面的能力,以及大數據、大算力的支持,神經網絡機器翻譯的譯文質量大幅躍升,迅速實現了對統計機器翻譯的超越和替換,將機器翻譯帶入新的發展階段。
2. 研發門檻降低,機器翻譯進入規模化應用階段
受技術進步、市場需求增多等多重因素影響,國內外相關行業公司熱情高漲,均投入大量資金和精力研發大規模翻譯系統。國外有谷歌、微軟(Microsoft)、Meta(原 Facebook)等,國內有百度、阿里巴巴、騰訊、有道、訊飛等。值得一提的是,國內公司研發的機器翻譯系統在技術上 具有很強的競爭力,多次在國際機器翻譯系統評測中拔得頭籌。先進技術通過開源開放平臺共享, 使得產業各方都可以使用已有的技術成果,研發新的技術。在深度學習平臺方面,國外有 Meta 的 Pytorch、 谷歌的 Tensorflow, 國內有百度的飛槳 (PaddlePaddle) 等,都集成了最新的機器翻譯技術。無論是研究人員還是開發者,都無需從頭做起,只要有數據,就可以迅速利用開源平臺搭 建一個機器翻譯系統,大幅降低了機器翻譯研發門檻。得益于此,機器翻譯創業公司也如雨后春筍般涌現 。
3. 機器翻譯與行業緊密結合,得到廣泛應用和認可
隨著國際化進程的加速,傳統行業對高效率、高質量的機器翻譯技術的需求愈加旺盛。不同領 域對行業術語和文體風格等需求各不相同,對譯文的要求也不盡相同。神經網絡機器翻譯可以在大 規模數據預訓練基礎上,結合行業知識和領域數據,進行優化精調,進一步提升垂直領域的翻譯質量。 尤其在新聞資訊、學術文獻、金融財經、生物醫藥、信息技術等領域,經過優化訓練的機器翻譯系統譯文的準確度可以達到 90% 以上。
隨著國際化進程的加速,傳統行業對高效率、高質量的機器翻譯技術的需求愈加旺盛。不同領 域對行業術語和文體風格等需求各不相同,對譯文的要求也不盡相同。神經網絡機器翻譯可以在大 規模數據預訓練基礎上,結合行業知識和領域數據,進行優化精調,進一步提升垂直領域的翻譯質量。 尤其在新聞資訊、學術文獻、金融財經、生物醫藥、信息技術等領域,經過優化訓練的機器翻譯系統譯文的準確度可以達到 90% 以上。
4. 多語言翻譯市場需求巨大,相關研究和應用發展迅速
當今世界多種文明和文化相互融合,人類社會豐富多樣的語言交相輝映,“開放共享、合作共 贏”越來越成為各國共識,成為推動社會進步的重要理念。實現高效的多語言翻譯,搭建不同語言 順暢交流的橋梁,是時代和社會發展的迫切需求。隨著“一帶一路”倡議的深化發展,截至 2023 年 1 月,已有 151 個國家和 32 個國際組織與中國簽署共建“一帶一路”合作文件1,其中涉及的語 言超過 110 種。多語言翻譯面臨語言資源分布不均衡、非通用語種語言資源匱乏、語言差異大、部 署成本高等挑戰,如何克服這些困難備受矚目,成為國內外前沿課題研究的焦點。近年來,學術界、 產業界圍繞數據增強、多語言統一建模、多語言預訓練等內容開展了諸多研究,促進了多語言翻譯 技術的發展。得益于此,國內外主流的機器翻譯系統均支持多語言翻譯。截至 2023 年初,百度、 訊飛、小牛、谷歌、微軟等國內外機器翻譯系統均支持上百種語言互譯。
5. 翻譯模式由文本翻譯擴展到跨模態翻譯,應用場景愈加豐富
隨著智能設備的普及,翻譯需求和場景日趨多樣。人工智能技術在圖像、語音等領域的進步為跨模態翻譯提供了技術支持。如結合圖像技術的拍照翻譯和增強現實翻譯,被廣泛用于票據翻譯、 外語學習等場景;結合語音技術的語音翻譯廣泛用于日常會話、會議演講等場景,提升了溝通效率。 2018 年,《麻省理工科技評論》(MIT Technology Review) 將“語音翻譯”列為全球十大技術突破, 百度和谷歌 (Google) 被列為“關鍵參與者 (Key Player)”。在 2020 年國際計算語言學學會 (ACL) 年會上,百度、谷歌、臉書、清華大學、賓夕法尼亞大學(University of Pennsylvania) 聯合舉 辦了首屆機器同傳研討會,極大地促進了相關技術發展。近年來,機器同傳在翻譯質量、同傳時延 等方面取得顯著進步,機器同傳被越來越廣泛地應用于國際會議。
本文來源:《2023 機器翻譯技術及產業應用藍皮書》