Machine Translation

Machine Translation (MT) 不是我現在在用的用過的 Movabletype BLOG 系統平台,而是機器翻譯,也就是把文字轉換成另一種語言的軟體/機制。市面上的翻譯軟體基本上都作得蠻糟糕的,翻出來的東西簡直不能理解。

與讀過翻譯系的同學聊過,知道翻譯系所,很少有談到這方面的研究。其中有一個原因是翻譯系的教授對翻譯理論自成一派,甚少有人從語言學的角度來看翻譯。

Chomsky 的 Universal Grammar (UG) 理論,可能提供了一條路給翻譯軟體公司參考,其中我覺得在軟體裏設定不同的 parameters 再把 L1 input 的 parameters 重新設定 (reset) 成 L2 的語言規則。或許是可以應用在翻譯理論及 MT 之上的。 (ps: 我覺得 Chomsky 很了不起,不過我比較少看他的政治論述就是了)

我沒有在翻譯公司上班過,也不知道近來國外(尤其是美國)的研究到了什麼地步,只能推斷出:

* 若 UG 理論正確,則翻譯軟體可以依此模型來製作。
* 若翻譯軟體已經依此模型來製作了,那麼:
# UG 錯誤。
# UG 需要修正。
# 需要神經語言學的力量來建立其他模型。
# “connectionism":http://plato.stanford.edu/entries/connectionism/ 的模式亦可以參考。

唉唉,這些都是空想,或許我上面的推理不是很正確,有從事這方面的專家請指正。

人類什麼時候才能造出自己的 “babelfish":http://www.sadgeezer.com/hhg/babel.htm “(註)":http://www.technovelgy.com/ct/content.asp?Bnum=133 呢?
或許要等到語言學家、翻譯學家、數學家(處理演算法規則)、軟體工程師等成立一個Team (.org 基金會?) 來認真想想才能加速 MT 的發展速度了吧。

廣告

10 thoughts on “Machine Translation

  1. 如果 MT 發展得夠成熟,那不知有多少英文老師要因此失業。

    我並沒有很期待這個東西能夠出現。

    據我所知,現在 MT 的發展方向主要是建立語料庫,減少人工的浪費。真的要把文章翻到可讀的程度,還是要靠人力。

  2. 剛好我有使用過翻譯軟體從事翻譯幾年的時間。

    以翻譯實務上可以運用的軟體而言,要想直接運用類似譯點通或Babelfish之類的直譯軟體簡直不可行,縱使可以達到99.9%的正確性,對翻譯人員而言依然要花大量的時間修改。

    像Trados (http://www.trados.com/)這類的軟體才符合翻譯的需要,這種軟體主要進行語彙的管理與句型比對,尤其像電腦書這種有大量專業術語的書籍而言,中英術語翻譯的一致性非常重要。

    當你翻譯過某一個詞 某一個句型之後,這種軟體會幫你記憶下來,下次出現類似的詞或句型時,就會從資料庫找出來,把重複的部分取代掉,翻譯人員只要輸入差異的部份就可以了。

    用多了這類的Machine Translation軟體,翻譯人員也差不多快變成機器人了。

  3. 剛好在 TESOL Quartly 34-4 期有看到一篇 Cribb 寫的 MT 文章。(這麼多期好像只有一個人有講過 MT)

    wiliao 的說法有人談過,認為英語教學將失去存在價值……蠻有趣的,不過我認為要發展成熟已經是超越我們這一代啦。而且發展成熟代表幾件事:語言學研究在語言比較方面已成熟。第二,保存語言,語言比較不會死亡。第三,研究古文字將有進展,(透過解碼演算)並將解開一些古代文字典籍的秘密。

    winson 談到的剛好是 MT 目前的走向之一,籍由資料庫的比對來幫助翻譯者,但目前只能有輔助作用而已。

    而字對字的翻譯軟體目前有很多,應該是沒有考慮到以 UG 為模型來發展(或難以發展),希望有翻譯軟體公司能以這為出發點。

    另外我還想到以比對L1 與 L2 的 corpus 為模型,造成類似像「深藍」那樣的規模的資料庫(或許更大),然後再應用在 MT 裏,或者交叉與 UG 翻譯出來的文字作比對會更有準確性。

    或許把 winson在作的機器般的工作轉成機器人來運作也是可以嘗試的方向?

  4. 我這個禮拜的作業是為一段訪談記錄製作 coding system,然後把每段訪談內容加上 codes 。

    做 coding system 的時候最常碰到的困難是,要如何決定 code A 和 code B 的關係究竟是平行還是有上下支配的關係。甚至有時候你本來放在 A 分類底下的東西,看起來 B 分類也有,但彼此卻不處於平行的關係。於是就必須不斷地修改 coding system,改到差不多可以囊括所有現象卻又不至於太瑣碎為止。

    我一邊做一邊想,這些麻煩事某種程度顯示了人類並不是一種理性的動物,人類的溝通系統也不是完美的 binary system 或 hierarchical system。因此用 UG 理論模擬出來的語言再怎樣接近人類的語言,可能還是無法百分之百的自然。因為「不理性」正是人類語言系統的特色之一。

  5. 作 coding system 還是有方法可以解決,其中一個方法應該可以視 A字 有 1. 2. 3. 4. 涵義,相似詞 B字 有2. 4. 5. 涵義,另一相似詞 C 字則有1. 3. 4. 6 的涵義。如果肯花時間,我想應該可以作得出來,但是要先想這麼作對 MT 有沒有幫助。

    不過上述這種coding system 也可以不放在 UG 架構裏來作 MT. 這是我目前的想法。

  6. Trados 那種是 computer-aided translation,和 machine translation 領域相關但不完全一樣。Chomsky hierachy 裡的每一層雖然原先是想解決自然語言的問題,然而實際上對形式語言比較有幫助。形式語言就是程式語言的基礎。

    Machine translation 目前流行的方法是 hybrid model,結合文法、詞性之類的語言學知識,和由語料庫統計出的機率合作。上面提到的 coding system,看起來實際上和好幾個領域相關。分類的問題屬於 ontology 的研究範圍,包含詞與詞的關係及語意和語意的關係怎麼「消歧」,而 coding 「本身」又和資訊理論有關,資訊理論則是統計式計算語言學的基礎之一。

    實際上 machine translation 是計算語言學裡最難也最大的題目之一,來龍去脈至少要看過 http://nlp.stanford.edu/fsnlp/ 這本書才能有初步的認識。有個地方有上課用的投影片可以參考:http://140.114.75.17/tavi/index.php?page=course_NLP

  7. 看了幾位朋友的COMMENT,我也來開講一下

    1)
    MT已經發展了三四十年了..還是無法成熟。主要是因為人類的語言,每個字都有所屬的語境(context),根據語境來決定字詞的意思。
    機器無法精確判斷語境。一字多義的字詞也是無法處理的。目前MT處理出來的東西,可讀性仍然不高,不過它仍有它存在的價值(待會講)

    2)
    To WilLiao,
    MT不是拿來建立語料庫的,您說的應該是TM, Translation Memory.

    winson提到的TRADOS不是MT, 這個b6s有提出指正摟。TRADOS是翻譯輔助軟體,也可以說是TM。
    它的運作原理呢,就是將已經翻過的L1 L2先做個alignment, 感覺像中英對照的文章, 不過它是以句子為單位,然後再將語對(language pair)的對照結果輸出到TRADOS的Translation Memory裡頭,做一個翻譯記憶管理。之後在翻譯的時候,系統會幫你比對你正在翻的句子,用fuzzy matching比對出你在處理的句子,跟之前翻過的句子有幾成的相似度,跳出讓你做參考

    目標就是:you’ll never have to translate the same sentence twice. 所以拿TRADOS來作為翻譯輔助,最有幫助的是處理"重複性"高的文體–氣象報導、技術文件、產品說明書等等。
    例如:要是你翻過Sony Ericsson的 500i手機 使用手冊, 翻譯的結果也輸入到Translation Memory裡面了,之後不管是600i, 700i, 750i, 內容應該會有很高的重複性,所以處理起來就很有效率了。

    因此TRADOS並無法幫你翻譯,它只是個輔助的軟體’ 幫忙作記憶管理。

    那剛剛提到的MT, 像是Dr. Eye譯典通、譯經(結合MT&TM)都是,就是將L1輸入,L2跑出來的翻譯軟體。
    現階段電腦要處理人類的自然語言,還是困難重重:尤其是文學體裁,根本不大可能,因為文學的字詞指涉性高、隱喻、典故有的沒有,都是MT的夢靨。

    不過MT還是有價值:
    1)它可以處理制式的文件,應用文、氣象報導,沒有太多隱含意思的文體。
    2)資訊的快速擷取: 就算MT處理的亂七八糟,還是可以看出個端倪。譬如說,晃到一個日文網站,可是半個字都不懂,直接全文用網頁翻譯軟體,正確度不高,可是卻可以快速的提供一個大意,快速擷取資訊。
    另外,要是找資料找到了30篇英文文章,也可以用MT翻一翻,快速瀏覽過哪些文章跟自己想要的比較相關。然後再去做精讀。

    這些就是MT的價值。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s