1
2
3
4
 關于我們
公司簡介
公司信息
組織結構
公司團隊
網站公告
翻譯資訊
常見問題
專業詞匯
行業規范
質量保證
合作流程
隱私保密
實習基地
人才招聘
聯系信息
  翻譯語種(筆譯)
  英語翻譯  德語翻譯
  日語翻譯  法語翻譯
  韓語翻譯  俄語翻譯
  英語口譯  德語口譯
  日語口譯  法語口譯
  韓語口譯  俄語口譯
  泰語翻譯  越南語翻譯
  意大利翻譯  西班牙翻譯
  葡萄牙翻譯  印度語翻譯
  馬來語翻譯  波斯語翻譯
  冰島語翻譯  老撾語翻譯
  丹麥語翻譯  瑞典語翻譯
  荷蘭語翻譯  藏族語翻譯
  挪威語翻譯  蒙古語翻譯
  拉丁語翻譯  捷克語翻譯
  緬甸語翻譯  印尼語翻譯
  希臘語翻譯  匈牙利語翻譯
  波蘭語翻譯   烏克蘭語翻譯
  芬蘭語翻譯  土耳其語翻譯
更多翻譯語種
     首頁 >>  關于我們>>  翻譯資訊
 


人工智能驅動下的眾包翻譯技術架構展望

發布者:上海翻譯公司     發布時間:2019-10-28

  摘要:眾包翻譯作為數字化、全球化時代誕生的一種全新線上翻譯協作模式,在互聯網、人工智能技術的推動下迅猛發展。它跨越國家與地域之邊界,有效整合大眾智慧與社會零散資源,促進翻譯產業化、社會化的同時提升其效率。近年來,眾包翻譯在社會、語言、政治、倫理等領域影響深遠,從翻譯倫理、翻譯定義、翻譯評估、翻譯技術等多個維度挑戰了傳統翻譯模式。本文結合 AI 時代背景,探討眾包對傳統翻譯實踐和理論帶來的沖擊,從譯前、譯中、譯后三個階段,以架構圖的形式系統地勾勒了人工智能技術與眾包翻譯有機結合的可能方式及潛在機遇,并圍繞每個技術切入點分析其具體實施策略,以期對翻譯跨學科研究作出有益探索。


  關鍵詞:眾包翻譯;人工智能;認知科學;翻譯模型
  中圖分類號:H059 文獻標識碼:A 文章編號:1000-873X (2019) 04-0126-09


  在信息互聯時代, 翻譯已不僅限于傳統意義上的語內翻譯、語際翻譯、符際翻譯等,數字化擴大了翻譯內涵和外延,即 GILT= Globalisation(全球化)+ Internationalisation(國際化)+Localisation(本地化)+Translation(翻譯)。正如 Cronin(2013)所揭示的:“翻譯正經歷一場革命性劇變。數字技術與互聯網對翻譯的影響持續、廣泛且深刻。從自動在線翻譯服務到眾包翻譯的興起,以及智能手機上翻譯應用程序的普及,翻譯變革無處不在?!雹儻閿怪靡?, 信息科學、 人工智能(Artificial Intelligence,AI) 與翻譯結合, 已經對語言、社會、文化等產生深遠影響。眾包(crowdsourcing) 是網上協作翻譯(Online Collaborative Translation)的一種形式,是數字化時代最新,也是覆蓋面最廣、發展最快的翻譯模式。眾包翻譯作為跨越邊界的網絡協作翻譯模式,極大影響了翻譯倫理、翻譯定義、翻譯評估等多個方面。近年來,在深度學習、大數據、高性能計算的協同推動下,人工智能技術取得了長足進步。神經網絡機器翻譯(neuralmachine translation,NMT)成為技術主流,翻譯質量逐年提升。2018 年,微軟研究院 AI 課題組機器翻譯團隊在國際數據集 WMT-17 的新聞數據集 newstest2017 上首次超越了人類專業 水 平(Hassan et al.,2018)。WMT 是機器翻譯領域國際頂級評測比賽之一,其數據集為機器翻譯研究領域公認的主流數據集。其中,newstest2017 新聞報道測試集由產業界和學術界的合作伙伴共同開發,包括來自新聞評論語料庫、聯合國平行語料庫、CWMT 語料庫的共計近 2500 萬測試句對。微軟在此數據集上取得的成績對于人工智能技術在翻譯領域的應用具有標志意義。AI 時代的到來將深刻改變人類的生活與工作方式,眾包翻譯協作模式亦不再限于人與人的范疇,更將延伸至人與機器,甚至機器與機器的維度。本文將在這一背景下探討眾包翻譯當前所面臨的挑戰,并對未來與 AI 可能結合的技術架構進行展望。


  一、眾包與 AI 對傳統翻譯實踐和理論的挑戰
  “眾包”一詞由美國記者 Howe 在《連線》(Wired)雜志首先提出,他將其定義為“傳統上交給指定代理的工作任務,以自愿形式外包給非特定的、通常是大眾網絡群體來做??剎捎么籩諫男問?,也常由個人擔綱”(Howe,2006)②。眾包翻譯由非職業譯員群體完成,最典型的案例就是對 Facebook和 Wikipedia 的翻譯。眾包翻譯模式的出現,引起對翻譯質量、合理報酬、譯者地位等翻譯倫理問題的討論。與此同時,人工智能技術作為當今一項關鍵生產力要素,正不斷地驅動著各行各業生產方式和生產關系的重構。
  眾包與 AI 相結合,將對傳統翻譯理論和實踐形成巨大沖擊。其一,在翻譯的定義方面,在當代翻譯理論中,翻譯被視作交際、認知、文本生成過程(Hurtado Albir,2017),這個過程可以是社會性的(Wolf,2010)、文化性的(Bassnet & Lefevere,1990)、 技 術 性 的(Jiménez-Crespo,2013)或包容性的(Shao,2010;2017)。盡管這些傳統定義已很好呈現了經典視域下的翻譯,但眾包與 AI 時代的到來引入了三個新的特點:碎片性、數據性和智能性。
  就碎片性而言,語言學派的翻譯觀通常認為,在宏觀層面上的文本處理對產生連貫且銜接良好的目標文本至關重要,它能保證翻譯質量,且能達到預期交際目的。然而,眾包翻譯將全球任務分解為眾多微型任務,隨后由大量翻譯愛好者來完成,要求源文本本身可以被分解為多個離散微型任務,交由不同譯者承擔,這種微型任務處理方法可能會缺乏連貫性、風格一致性以及宏觀上的把握,從而顛覆了傳統語言學派翻譯觀。就數據性而言,大數據已成為驅動現代文明發展的一種戰略資源,它具有大量、多維度、完備性和及時性等特點。依托海量語料大數據(特別是雙語 / 多語平行語料)的翻譯研究和應用逐步形成趨勢。這些數據在維度上包含:文本、語音、圖像 / 視頻(例如手語、肢體語言、表情語言)等。在完備性上覆蓋:不同語種、不同專業領域、不同地域、不同人群等。在及時性上不斷更新迭代,將新的概念、新的語言(如:互聯網語言、程序設計語言等)融入其中。在可以預見的未來,大數據的使用將成為翻譯的一個重要屬性。
  就智能性而言,大數據、高性能計算、深度學習的結合為 AI 發展注入了前所未有的活力,推動著整個社會各行業的升級與變革。AI 領域的各個研究分支:機器翻譯、語音識別、字符識別、語音合成、手語識別、姿態識別、表情識別等正逐步應用于翻譯行業。字符識別→機器翻譯→譯后編輯→人工審校的模式大幅度提升了筆譯行業的生產效率。語音識別→機器翻譯→語音合成的模式開始勝任一些簡單的口譯任務。谷歌、百度、騰訊等許多科技公司也推出基于手機拍照→字符識別→機器翻譯模式的 APP 應用,幫助人們在日常生活中實現便捷的翻譯。智能技術將更加深入地滲透到不同翻譯應用場景中,在提升工作效率、降低勞動強度、改善服務體驗、規范行業標準等許多方面對翻譯進行重塑。
  其二,就源文本交付方式而言,Bowker(2006:180)認為:“若要翻譯文本的全部信息,譯者通常需跨越句的邊界,因此翻譯記憶所使用的以句為單位的方法可能不利于全文本消息的有效翻譯”③。然而,眾包翻譯為了將源文本交付社區譯者,需要將其拆分為更小單位。兩種最常見的情況如下:一是,一本書的若干章節,通過某種方式由社區譯者認領,譯者利用傳統方式或現代方式處理。二是,一本書在眾包平臺上,通過眾包平臺后臺文本管理系統將篇章拆分為段落或者句子,由社區用戶認領,或者系統推薦給水平相當的注冊用戶做翻譯,至于是否使用翻譯記憶(Translation Memory,TM)技術,由譯者決定。此外,隨著機器翻譯技術水平的不斷提升,是否采用機器翻譯對源文本進行預處理,再將機翻結果與源文本推送給譯者參考以提高效率、降低勞動強度,是翻譯實踐層面需考慮的問題。
  其三,在數字化和 AI 時代,源文本與目標文本都可能以多種形式呈現。文本不僅包含文字,而且還可由非語言形式形成,如圖形、圖像、動畫、格式標記符排版、視覺,多媒體元素(cf. Remael,2010)以及數字文本 互 動 性(cf. Jiménez-Crespo,2013)。 例如,Nord 將文本定義為“在交際互動中使用的交際信號的總和”(1991:14)。因此,文本不僅可用語言手段表達,也是一種可以通過口頭和非語言手段相結合實現的交際行為(同上:15)。 同 理,G?pferich 把科技翻譯中的文本定義為“由語言或圖形語言構成的連貫整體”(1995:57)。眾包翻譯涵蓋了從將任務縮小到處理孤立句子的語言層次,到讓任務“所得即所見”(YGWYS)環境中目標文本的多模態性(Jiménez-Crespo,2017:168)。采用眾包模式的譯后編輯網站已經比較多,例如微軟協作翻譯框架(Aikawa et al.,2012)、Smartling 網絡協作翻譯平臺④、多鄰國(Duolingo)語言學習平臺⑤、Amara開源實時協同字幕翻譯平臺⑥(又稱字幕在線編輯器)等。
  其四,就文本的動態性而言,在傳統譯論中,文本是穩定且完整的翻譯單位,只根據具體翻譯活動的要求而改變。在眾包和協作翻譯模式中,文本內容可能會經常更新( 例 如, 著 名 軟 件 開 發 平 臺 GitHub ⑦ 上的大量開源軟件庫的開發教程、應用程序接口都隨軟件庫版本的不斷迭代而快速更新,Wikipedia 上的各種詞條也有類似情況),通常以碎片化、分批次、微任務的方式傳遞、翻譯、交付、驗收,因此基于眾包的網絡協作翻譯模式與傳統翻譯模式有所不同,眾包根據微型任務(micro-task)的需求,將源文本進行必要的分割與分解,而源文本本身可能動態地不斷更新。


  二、AI 技術賦予眾包翻譯的機遇展望
  1950 年英國數學家艾倫 · 麥席森 · 圖靈(Alan Mathison Turing) 提出著名的圖靈測試(Turing,1950)設想之后,機器是否能夠模仿人類智能這一問題受到越來越多學者關注。1956 年 8 月,在美國漢諾斯小鎮的達特茅斯學院匯聚了約翰 · 麥卡錫(John McCarthy)、馬文 · 明斯基(Marvin Minsky,人工智能與認知科學專家 )、 克勞 德· 香農(Claude Shannon, 信息論創始人 )、 艾倫·紐厄爾(Allen Newell,計算機科學家)、赫伯特 · 西蒙(Herbert Simon,諾貝爾經濟學獎得主)約 20 位科學家,共同探討用機器來模仿人類學習以及其他方面的智能,并正式提出人工智能(Artificial Intelligence)的概念(McCarthy et al.,2006)。隨后的近 60 年間,人工智能技術持續發展, 新的思想不斷涌現(cf. Russell & Norvig,2016)。1956 年至 70 年代中后期代表性研究包括:命題邏輯、謂詞邏輯、啟發式搜索等,研究者從初期抱有過于樂觀的預期到逐漸意識到現實問題的復雜性和多樣性;隨后的 80 年代初期,人工智能技術開始步入工業應用領域,專家系統、知識工程、醫療診斷等為該階段的主要代表;80 年代末期出現了一個短暫的神經網絡研究熱潮,此后人工智能開始圍繞計算機視覺、自然語言理解、認 知 科 學、 機 器 學 習、機器人學(Robotics)等獨立發展。2012 年 Hinton 研究團隊提出了深度神經網絡模型 AlexNet(Krizhevsky et al.,2012), 將 ImageNet LSVRC-2010 圖片識別測 試 top-1、top-5 錯誤率從之前最好記錄47.1%、28.2% 分別降至 37.5%、17.0%, 至此深度學習開始成為人工智能研究熱點。人們在大數據和高性能計算的驅動下利用神經網絡逐步構建出穩定、可靠的特征提取機制,推動人工智能技術在人臉識別、目標檢測、語音識別、機器翻譯等眾多復雜應用場景取得長足進步。這一趨勢延伸至今,計算機視覺、自然語言理解與交流、認知與推理、機器人學、博弈與倫理、機器學習成為當前人工智能技術六大主要研究領域。其中,自然語言理解與交流、計算機視覺、機器學習與眾包翻譯關系密切。為了系統地展望人工智能技術在眾包翻譯領域的潛在應用價值,筆者將整個眾包翻譯過程劃分為:譯前、譯中、譯后三個階段,針對每階段所面臨的關鍵問題列出了具體的結合方式。圖 1 展示了人工智能技術與眾包翻譯的結合構想框架。
  (一)譯前階段的人工智能應用展望
  在譯前階段,用戶向眾包翻譯平臺提供需要翻譯的文件,此階段要解決的關鍵問題為:如何從用戶文件中提取待翻譯的源文本信息,如何將源文本分割為具體的翻譯任務推送給不同譯者,如何對源文本進行預處理以提升后續譯者翻譯的質量和效率,如何為不同的翻譯任務找到合適的譯者。
  1)以源文本提取為切入點的人工智能技術應用
  眾包翻譯源文件除常見的 Office 文檔、RTF、TXT、HTML、可解析 PDF 等可直接通過解碼獲得源文本的格式外,還存在如:不可解析的 PDF(通常由掃描或拍照獲得)、圖片(JPEG、PNG、TIFF 等 )、 語音文件(WAV、MP3、WMA、APE、AAC 等 )、 視頻(MOV、AVI、MPEG、MP4 等 )。人工智能領域的光學字符識別(Optical Character Recognition,OCR)技術和自動語音識別技術(Automatic Speech Recognition,ASR)便可在此發揮作用。OCR 旨在利用計算機識別出圖像中的文字,ASR 可自動識別語音文件并將其轉寫為文字。當源文本無法從文件中直接解析獲取時,這兩項技術可起到重要輔助作用,大幅度降低眾包翻譯的勞動強度、提高其工作效率。
  2)以源文本分割為切入點的人工智能技術應用
  眾包翻譯由大量譯者網上協作完成,每個譯者僅負責部分內容。其完成翻譯工作的模式主要可分為四種:其一,僅依靠人工對所分配的源文本進行翻譯。其二,利用 CAT系統協助人工進行翻譯。其三,首先采用機器翻譯系統對源文本進行預翻譯,然后在此基礎上由人工進行校審和編輯。其四,采用機器翻譯系統對源文本進行預翻譯,然后在此基礎上進行計算機輔助翻譯,最后由人工進行校審和編輯。無論何種模式,如何將源文本有效分割成合適的語義單元,對于翻譯的質量與效率都極為重要。直接按照句子進行分割的方式,易產生上下文語義損失從而導致誤譯和漏譯,例如:源文本中可能大量存在的小句復合體,小句之間存在的復雜邏輯關系被分割后可能產生損失或歧義。然而,若將大段文本作為一個翻譯單元則將延遲譯者完成單個翻譯單元的速度,降低眾包翻譯的并發性和及時性;此外,將大段文本提交給 CAT 翻譯系統,可能會導致語料匹配率和翻譯效果的下降。采用自然語言處理(Natural Language Processing,NLP)技術,對源文本語義結構進行分析以實現可靠分割,是人工智能應用于翻譯眾包的一個重要的切入點。
  3)以譯前文本預處理為切入點的人工智能技術應用
  在對源文本進行翻譯之前,適當的預處理工作可以有效提升翻譯的質量和效率。筆者認為譯前文本預處理階段,人工智能技術可從三個方面切入:(1)非譯元素 / 專業術語的智能識別與標記。當源文本來自特定專業領域或語境時,其中大量專業術語、非譯元素很難被通用的機器翻譯引擎有效處理。若能在譯前階段對非譯元素進行識別和標記,對于提升翻譯質量,適應不同翻譯項目需求具有重要的潛在價值。(2)小句復合體簡化。小句復合體(clause complex)又稱復句,是目前機器翻譯領域面臨的難點,利用 AI 技術對小句復合體進行簡化,降低后續機器翻譯的難度,對于避免誤譯和漏譯的產生具有良好的研究價值。(3)源文本噪聲濾除。在源文本提取過程中,特別是利用 OCR 技術從圖像中獲取源文本的情況下,可能產生一定的噪聲,例如:字符亂碼、錯誤識別、錯誤標點符號等。智能地識別和濾除噪聲,糾正源文本中的錯誤,對提升眾包翻譯質量意義重大。
  4)以譯者推薦為切入點的人工智能技術應用
  隨著眾包翻譯規模的不斷擴大,如何根據眾包翻譯任務的具體內容,將其推薦給感興趣并具有相應能力的譯者成為提升眾包翻譯運營效率、提高翻譯質量的關鍵。AI 領域推薦系統已被廣泛地應用于電子商務、在線視頻、社交網絡等商業場景,幫助企業更好地理解用戶需求以提供卓越服務。在眾包翻譯項目管理中,根據譯者基礎信息(例如,教育背景、從業經驗、擅長語種、熟悉領域、文化背景等)、譯者動態信息(例如,在線時間、譯文質量、響應速度等)構建一套譯者推薦系統將不同領域、類型的源文本在特定時間推送給合適譯者,提升任務匹配率和用戶體驗的同時讓眾包平臺譯者自身特長得到充分發揮。
  (二)譯中階段的人工智能應用展望
  在譯中階段,待翻譯的源文本被分割為不同任務由眾包翻譯平臺分配給不同的譯者,此階段要解決的關鍵問題為:如何提升譯者的翻譯質量和效率,如何降低譯者勞動強度,如何有效管理大量譯者,如何及時了解譯者狀態和項目進展并根據譯者的實時表現水平動態調整任務分配策略。
  1)以機器翻譯為切入點的人工智能技術應用
  機器翻譯是人工智能技術與眾包翻譯相結合最重要的切入點之一,它隸屬于計算語言學(Computational Linguistics),旨在利用計算機將文本或語音從一種自然語言(源語言)轉換為另一種自然語言(目標語言)。作為當今 AI 領域熱點問題,其研究跨越計算機科學、認知科學、語言學、信息論等多個學科?;鞣氳難芯靠勺匪葜?1933 年的兩個標志事件(Hutchins,2004):其一,1933年 7 月 22 日,法國工程師 Georges Artsrouni獲 得 一 項 名 為“mechanical brain”( 法 語:cerveau mécanique) 的 專 利 授 權, 在 其 中他首次提出了用機器來進行翻譯的構想。其二,同年,前蘇聯科學家 Peter Troyanskii 向蘇聯科學院介紹了一種能將一種語言翻譯成另一種語言的機器模型,并于 9 月 5 日提交了專利申請。在隨后的發展中機器翻譯大致經歷了:第一次熱潮時期(1956-1966);基于規則的機器翻譯(Rule-Based Machine Translation,RBMT)(1967-2007); 統計機 器 翻 譯(Statistical Machine Translation,SMT)(1993-2016); 神經 網 絡 機 器 翻 譯(Neural Machine Translation,NMT)(2013-至今);目前,神經網絡機器翻譯取代統計機器翻譯成為學術界研究主流,在工業界基于Transformer、ConvS2S 等神經網絡模型的機器翻譯系統被廣泛應用??瓷縝鞣氳姆⒄棺⑷肱畈?,tf-seq2seq(Google),fairseq(Facebook)、Sockeye(Amazon)、OpenNMT(哈佛大學)等開源神經網絡機器翻譯框架的發布和不斷更新讓越來越多企業與個人能夠快速分享機器翻譯領域最新研究成 果。隨著注意力機制(Attention Mechanism)、 對偶學習(Dual Learning)、推敲網絡(Deliberation Networks)、聯合訓練(Joint Training)、 端到端訓練(End to End Training)等一系列新思想的提出,機器翻譯的精度被不斷刷新。2018 年,微軟研究院 AI 課題組機器翻譯團隊在國際數據集WMT-17 的新聞數據集 newstest2017 上取得了超過人類專業水平的效果,這一事件進一步印證了機器翻譯的巨大潛力。在可以預見的未來,機器翻譯→眾包譯后編輯→眾包人工審校的模式,將大幅度提升眾包翻譯的效率和質量。
  2)以計算機輔助翻譯為切入點的人工智能技術應用
  CAT 與機器翻譯不同,它不依賴于計算機的自動翻譯,而是在人的參與下完成整個翻譯過程。在眾包翻譯過程中,計算機輔助翻譯可使繁重的人工翻譯流程自動化,并大幅度提高翻譯效率和翻譯質量。代表性產品包括:Trados( 英 國 )、 memoQ(匈牙利 )、Déjà vu( 法 國 ), 以 及 國 內 的 iCAT、Transmate 等。人工智能領域關于自然語言處理的研究,對提升現有 CAT 系統的記憶庫模糊匹配、術語識別、自動修正等方面有著廣泛的應用前景。
  3)以譯者管理為切入點的人工智能技術應用
  如何有效管理大量譯者,在保證翻譯質量的同時,提升翻譯效率,是眾包翻譯研究的一個核心問題。人工智能技術在此具有良好的潛在應用價值,例如,眾包中采用對譯者付費的方式時,不同經驗、能力、資歷的譯者其單位工作量所獲報酬不同,為了避免第三者頂替的情況發生,可引入人臉識別技術、指紋識別技術、虹膜識別技術等對譯者進行身份驗證。翻譯作為一種跨語言的理解、重構行為,與譯者的認知心理狀態緊密聯系。現代認知心理學的發展經歷了從“身心二元”(離身認知,disembodied cognition)到“身心 一 體 ”( 具 身 認 知,embodied cognition)范式的轉變。具身認知強調人類生理狀態在其認知心理過程發揮重要影響,這一觀點被大量的科學研究所支持(Wells & Petty,1980;Steppe & Strack,1993;Rizzolatti & Craighero,2004;Williams & Bargh,2008)。在工作過程中,譯者各種生理狀態:疲勞程度、面部表情、體征表現,都會對其心理認知過程造成干擾,進而影響其譯文質量和翻譯效率。人工智能領域的疲勞檢測技術和表情識別技術等非常適合這一應用場景,當發現譯者處于疲勞狀態或情緒劇烈波動時,系統可提醒其適當休息并減少其任務的分配量,以免將過多的任務發送給疲勞或情緒不佳的譯者;而對于精力充沛、情緒良好的譯者則適當配予更多翻譯任務,提升眾包翻譯平臺綜合管理水平。
  (三)譯后階段的人工智能應用展望
  在譯后階段,譯者完成眾包翻譯平臺分配的任務并將譯文反饋給平臺,此階段要解決的關鍵問題為:如何有效檢測譯者的誤譯、漏譯等偶然因素造成的錯誤,如何對不同譯者的翻譯工作進行評估以便績效管理,如何獲取譯者的工作效率、業務能力、擅長語種、擅長領域、工作細致程度等多方面特征以便精準地分配任務。
  1)以譯后編輯為切入點的人工智能技術應用
  無論譯中階段采用人工翻譯還是機器翻譯,譯文中均可能存在誤譯、漏譯以及其它偶然因素造成的錯誤。譯后編輯成為眾包翻譯質量保障一個關鍵環節。此階段,可引入自然語言處理技術對譯文的邏輯性、語法、選詞、拼寫和語義完整性等方面進行全面分析,實現譯文自動校對,修復常見語法、邏輯錯誤等,再由眾包翻譯的譯后編輯人員進一步人工處理。此外,還可以引入計算機視覺技術,根據原始文檔對譯文排版進行自動調整,使其與原始文件的視覺效果保持一致,以進一步提高目標文本質量。
  2)以翻譯評估為切入點的人工智能技術應用
  翻譯評估可讓管理者及時了解譯文質量并在眾包翻譯過程中做出適當干預和調整。傳統翻譯評估采用人工方式進行,效率低、成本高,而機器翻譯采用的自動度量標準,例如:BLEU、NIST、 錯詞率(Word Error Rate)、METEOR 等需要預先設置目標文本作為參考(通常眾包翻譯中并無預先設置的目標文本)。此處可利用翻譯大數據對譯文錯誤進行預測,利用譯后編輯過程中所產生的反饋數據,結合自然語言處理技術、模式識別技術等實現自動翻譯評估,及時反饋譯文質量。
  3)以譯者畫像為切入點的人工智能技術應用
  眾包翻譯在譯中階段若采用人工進行翻譯,可獲取各類譯者行為數據,如:譯者提交譯文的速度、接單量、接單時間、主動選擇的譯文類型以及譯后編輯產生的反饋數據可反映出譯者的工作效率、業務能力、擅長語種、擅長領域、工作細致程度等多方面特征。此階段可引入人工智能領域的用戶畫像技術,分析譯者特點,建立并不斷完善譯者模型,動態了解譯者工作狀況、專業領域優勢、翻譯水平等,為眾包翻譯的譯者考核管理、翻譯任務調度等提供支撐。
  (四)基于眾包翻譯數據的人工智能系統迭代
  現代人工智能技術的發展對數據的質與量都有極強依賴,眾包翻譯作為一種跨語言、跨地域的語料數據加工方式,其中間環節和最終輸出均可為人工智能的模型訓練、優化以及人工智能技術研究提供海量優質數據資源。筆者認為可從以下三個方面切入,充分運用眾包翻譯所產生的數據對人工智能系統進行迭代,不斷優化其智能水平以適應不同應用場景需求:
  1)利用眾包翻譯所產生的平行語料數據迭代機器翻譯系統
  眾包翻譯的最終輸出可加工為平行語料數據(通常為雙語平行語料,當源文本被同時翻譯為兩個以上語種目標文本時則可輸出多語平行語料),這些語料數據通過進一步加工和完善,可反饋給機器翻譯系統以用于訓練、改進現有機器翻譯模型或用于新的機器翻譯技術研究。
  2)利用譯后編輯數據構建譯者畫像模型迭代譯者推薦系統
  譯后階段所產生的譯后編輯數據可反映出譯者對特定文本的翻譯水平、工作細致程度。在此基礎之上,結合譯者行為數據構建譯者畫像模型,將其反饋給譯前階段的譯者推薦系統,可提升推薦系統的精準度或用于研究新的推薦模型。
  3)利用譯后編輯數據迭代源文本提取系統
  當譯前階段源文件為圖片或無法直接解析出文本的 PDF 格式等情況時,若源文本提取系統基于 OCR 技術對圖像進行文字識別,其識別結果可能存在一定錯誤輸出。針對這一問題,在譯前階段或譯后編輯中可適當人工校對,對源文本和譯文進行檢查、修正其中字符識別錯誤或排版格式識別錯誤。這些被識別錯誤的圖片,可作為新標注的困難樣本反饋給源文本提取系統,用于改進現有模型或研究新的 OCR 算法,通過不斷迭代讓人工智能技術適應不同實際應用場景文本提取需要。


  三、結語
  數字化技術和互聯網帶來的眾包翻譯模式,通過有效整合社會零散翻譯資源和大眾智慧,提升翻譯效率、促進翻譯產業化和社會化。隨著 AI 時代的到來,在大數據、高性能計算、深度學習技術的驅動下,機器翻譯、文字識別、語音識別等許多應用領域取得突破進展,顯現出巨大社會效應和商業價值。如何將人工智能技術有機地融入眾包翻譯的理論與實踐之中,提高翻譯效率、改善譯文水平、促進譯員分工協作、推動行業進步成為翻譯學科一個新的課題。本文分析了當前眾包翻譯所面臨的機遇與挑戰,并結合 AI 時代背景,對人工智能技術與眾包翻譯協同發展的藍圖進行展望。從眾包翻譯的譯前、譯中、譯后三個階段,系統探討了人工智能技術在眾包翻譯領域的切入點、結合方式、潛在價值、技術難點及應對策略。針對人工智能技術發展的數據依賴性,提出了一種利用眾包翻譯過程加工與生成數據以改進現有人工智能技術的構想。眾包與AI 時代的到來,必然導致社會分工協作方式和產業結構的調整,也將對翻譯學科發展產生深刻與長期的影響。
  基金項目:本文是國家社會科學基金青年項目“認知文體學視域下阿來小說地域特征性及漢英平行文本對比研究 ”( 批準號:14CYY002)、西南交通大學美國研究中心 2019 年年度項目(ARC2019001)的階段性成果。


  注釋
 ?、?Translation is living through a period of revolutionary upheaval. The effects of digital technology and the internet on translation are continuous, widespread and profound. From automatic online translation services to the rise of crowdsourced translation and the proliferation of translation apps for smartphones, the translation revolution is everywhere.
 ?、?[T]he act of taking a job traditionally performed by a designated agent […] and outsourcing it to an undefined, generally large group of people in the form of an open call. This can take the form of peer-production, but it is also often undertaken by a sole individual.
 ?、?[T]o translate the overall message of the text, translators often need to
work outside the artificial boundaries of sentences, so the sentence-bysentence approach imposed by TMs may not be conducive to effective
  translation of the text’s message as a whole.
 ?、?https://www.smartling.com
 ?、?https://www.duolingo.com
 ?、?https://amara.org
 ?、?https://www.github.com


  參考文獻
  [1]  Aikawa, Takako, Yamamoto, Kentaro and Hitoshi Isahara. The Impact of Crowdsourcing Post-editing with the Collaborative Translation Framework [A]. In Hitoshi Isahara and Kyoko Kanzaki (eds.). Advances in Natural Language Processing [C]. Berlin and Heidelberg: Springer, 2012: 1-10.
  [2]  Bassnett, Susan and André Lefevere. Translation, History and Culture [C]. London and New York: Pinter, 1990.
  [3]  Bowker, Lynn. Translation Memory and Text [A]. In Lynn Bowker (ed.). Lexicography, Terminology and Translation [C]. Ottawa: University of Ottawa Press, 2006: 174-187.
  [4]  Cronin, Michael. Translation in the Digital Age [M]. New York & London: Routledge, 2013.
  [5]  Göpferich, Susanne. Textsorten in Naturwissenschaften und Technik, Pragmatische Typologie-Kontrastierung-Translation [M]. Tubinga: Gunter Narr, 1995.
  [6]  Hassan, Hany, et al. Achieving Human Parity on Automatic Chinese to English News Translation [Z]. arXiv preprint arXiv:1803.05567. 15 March 2018.
  [7]  Howe, Jeff. Crowdsourcing: A Definition [EB/OL]. (2006-06-02) [2018-02-19]. //crowdsourcing.typepad.com/cs/2006/06/crowdsourcing_a.html. The Rise of Crowdsourcing [EB/OL]. Wired. (2006-06-01)[2018-11-04]https://www.wired.com/2006/06/crowds/
  [8]  Hurtado Albir, Amparo. Researching Translation Competence by PACTE Group [C]. Amsterdam and Philadelphia: John Benjamins, 2017.
  [9]  Hutchins, John. Two Precursors of Machine Translation: Artsrouni and Trojanskij [J]. International Journal of Translation, 2004, 16(1): 11-31.
  [10] Jiménez-Crespo, Miguel A. Translation and Web Localization [M]. New York and London: Routledge, 2013.
  [11] Jiménez-Crespo, Miguel A. Crowdsourcing and Online Collaborative Translations: Expanding the Limits of Translation Studies [M]. Amsterdam and Philadelphia: John Benjamins, 2017.
  [12] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks [A]. In F. Pereira, C.J.C. Burges, L. Bottou and K.Q. Weinberger (eds.). NIPS’12 Proceedings of the 25th International Conference on Neural Information Processing Systems [C]. Vol. 1. 2012: 1097-1105.
  [13] McCarthy, John, Marvin L. Minsky, Nathaniel Rochester, and Claude E. Shannon. A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence [J]. AI Magazine, 2006, 27(4): 12-14.
  [14] Nord, Christiane. Text Analysis in Translation: Theory, Methodology and Didactic Application of a Model for TranslationOriented Text Analysis [M]. Amsterdam and Atlanta: Rodopi, 1991.
  [15] Remael, Aline. Audiovisual Translation [A]. In Yves Gambier and Luc van Doorslaer (eds.). Handbook of Translation Studies [C]. Vol. 1. Amsterdam and Philadelphia: John Benjamins, 2010: 12-17.
  [16] Rizzolatti, Giacomo and Laila Craighero. The Mirror-Neuron System [J]. Annual Review of Neuroscience, 2004, 27(1): 169-192.
  [17] Russell, Stuart J. and Peter Norvig. Artificial Intelligence: A Modern Approach [M]. 3rd ed. Upper Saddle River, New Jersey: Pearson Education, 2010.
  [18] Shao, Lu. Reconceptualizing Translation: Tymoczko and the Radical Inclusive Approaches to Translation [J]. Translation Quarterly, 2010 (57): 99-107.
  [19] Shao, Lu. Review of Crowdsourcing and Online Collaborative Translations: Expanding the Limits of Translation Studies [J]. Babel, 2017, 63 (6): 901-906.
  [20] Stepper, Sabine and Fritz Strack. Proprioceptive Determinants of Emotional and Nonemotional Feelings [J]. Journal of Personality and Social Psychology, 1993, 64 (2): 211-220.
  [21] Turing, Alan Mathison. Computing Machinery and Intelligence [J]. Mind, 1950 (49): 433-460.
  [22] Wells, Gary L. and Richard E. Petty. The Effects of Over Head Movements on Persuasion: Compatibility and Incompatibility of Responses [J]. Basic and Applied Social Psychology, 1980, 1(3): 219-230.
  [23] Williams, Lawrence E. and John A. Bargh. Experiencing Physical
  Warmth Promotes Interpersonal Warmth [J]. Science, 2008, 322(5901): 606-607.
  [24] Wolf, Michaela. Translation “Going Social”? Challenges to the (Ivory) Tower of Babel [J]. MonTI, 2010 (2): 29-46.


  作者簡介 邵璐,香港浸會大學翻譯學哲學博士,中山大學外國語學院教授、博士生導師、博士后合作導師,天津外國語大學中央文獻翻譯研究基地兼
  職研究員。研究方向:文學翻譯、翻譯技術、翻譯批評。

 
返 回
翻譯公司相關翻譯資訊信息:
中國文學譯介與影響因素——作家看中國當代文學外譯  

如何建立口譯筆記?  

瑞科翻譯公司董事長劉克超受邀擔任“藝果杯”翻譯技術大賽評委   

如何練習翻譯基本功?  

翻譯過程中數字的使用技巧  

機器翻譯會取代人工翻譯嗎?  

瑞科翻譯公司 - 名古屋鲸八vs川崎前锋
翻譯咨詢
點擊在線咨詢
瑞科上海翻譯公司
電話:021-63760188
021-63760109
電郵:[email protected]
地址:上海市中山南路969號谷泰濱江大廈12層
瑞科南京翻譯公司
電話:025-83602926
025-83602369
電郵:[email protected]
地址:南京市紅山路88號常發廣場3號樓825-829室
 南京翻譯公司 | 招聘英才 | 友情鏈接 | 服務區域 | 網站地圖 | 瑞科翻譯(新版)
瑞科翻譯公司專注翻譯16年,是一家專業的人工翻譯公司,潛心打造優質翻譯服務品牌!
©2004-2019 LocaTran Inc. All Rights Reserved.      版權歸瑞科(上海、南京)名古屋鲸八vs川崎前锋所有        滬ICP備09017879號-4