機械翻訳への紹介
困難な課題…
公式文法の理論に関して詳細に検討する前に、機械翻訳の概念や構築の概要を説明したいと思う。
翻訳というのは、原書の創作に比較できる行為だと思っている人がたくさんいると見える(それは大げさに言うことだと思っている人がもっと多いかもしれない)。
私は、機械翻訳がうまく行われるため、まず翻訳の過程がどうやって人間の脳に処理されているか理解する必要だといつも思っていた。しかし、本当にそうなんですか?機械翻訳というのは、人間の翻訳の特徴をコンピュータで鏡映されたものはずですか?それとも、人間に特有の分析のやり方を使っうことより、コンピュータに特有の分析能力を利用して機械翻訳に関して考えていく方が良いですか?その質問に正しく答えられるかどうかことによって、機械翻訳の改善が違うかもしれない。
翻訳というのは、人間との間のコミュニケーションだ言うまでもない。それなら、機械翻訳というのは、人間との間、人間とコンピュータの間、それともコンピュータを通して人間との間のコミュニケーションですか?その最初だと思わない。人間とコンピュータの間のコミュニケーションには、自然言語ではなく、プログラミング言語が利用されている。コンピュータを通して人間との間のコミュニケーションだと思っているが、実は、それはどういう意味ですか?
どっちにしても、コンピュータが引き込まれている。それで、自然言語のような一番並外れた人間固有の能力をコンピュータで処理させることは、言語そのものよりずっと並外れたことだと言えるかもしれない。コンピュータで処理させようとしながら、自然言語の秘密を解決できるようになる可能性もある。そこに失敗するにもかかわらず、機械翻訳を研究することによって、自然言語についてまだ知らないことを勉強できることがきっといっぱいあるから、たくさんの言語学者、コンピュータ科学者、及び心理学者や他の分野からの学者が興味を持っているテーマです。
…どうやって成し遂げるか?
簡単に言えば、機械翻訳の過程の構築には以下のような部分を示すことができる。
解析の相
- 単語を直接な翻訳
- 統語上の移動
起点言語と目標言語の文法構造があまり違う可能性が高いから、構文の移動が必要になる。その移動のため、移動文法と言う文法が利用される。移動文法として色々な文法を適用できるが、両方の言語の特徴を適当に表さないといけないから、公式文法が一番良いです。もちろん、公式文法の種類もたくさんあって、どっちにするか、よく言語ペアによって違うものです。
- 意味上の移動
知識表現モデルを使って、起点言語の意味情報が目標言語の意味構造へ移動される。
- インターリングア
理想的なMTモデルには、起点言語がインターリングアと言う中間の言語に翻訳される。その中間の言語は、起点言語も目標言語も、両方の意味を示すはずです。
生成の相
生成というのは、インターリングア、意味構造、統語構造の計算表現を目標言語の文章に変換することです。解析の逆の過程だとも言える。
以上の過程に利用された色々な理論的枠組みを示すことができて、それを次の投稿に説明してみたいと思う。
参考資料:John Hutchinsの個人ページ
文法への新しいアプローチ
文章を翻訳するには、文章の理解、つまり分析が必要になる。文章を分析できるには、文章の記述が必要です。文法は、言語の正確な記述です。ある文法は正しい記述かどうか、その言語のどれの表現に対しても、文法的な記述があることによって決まる。記述によって、どんな表現が言語に属すると決まる。つまり、正しい文法は決定可能性という特徴があると言える。伝統文法は、決定可能性の条件を満たさない。なぜならというと、いくつかの理由がある。一つは、言語の主な構造のほか、言語の語彙的な層を記述しない。もう一つのは、言語的な現象を示すが、その現象が起こる条件を説明しない。更に、もっと重要なのは、自然言語を記述する伝統的な記述文法の規則は、それ自身自然言語を使って作られているものです。そんな文法は一般的に適用するわけではないだろう。それ故に、文法が言語を正確で、明白に解析できるように作らないといけないものです。特に、コンピュータによって処理できるため、自然言語の形式な記述が必要になる。自然言語の形式な記述である文法は、形式文法と言うものです。
主辞駆動句構造文法(Head-driven Phrase Structure Grammar)というのは、形式文法の一つです。他の文法と違っているのは、構文だけではなくて、意味論、語用論、音韻論にも適用されるものです。人工知識やオブジェクト指向プログラミングに採用された素性構造、オブジェクトの種類の分類的な階層、多重継承などのような方法の利用のため、モジュール的な記述が可能性になる。
簡単にいうと、HPSGは制約に基づく文法です。言語の表現が同時にすべての文法の規則や制約を満たすと、文法的に正しいとしてみなされる。HPSGの理論は、シグナチャーと制約の集から成っている。制約の集は、モデルされるオブジェクトの特性を記述する式から成っている。一方、シグナチャーは、言語のどんなオブジェクトがモデルに含まれていること、及びこのオブジェクトはどんな特徴があることを記述する。つまり、シグナチャーがオブジェクトの類(タイプ)やその特徴を規定していると言える。
すべての言語に一般的に適用できるため、以下の分析は理論分析のモデルです。
便宜上、英語の文字を使っていることにした。ロマジで大文字と小文字によって違いを示すことがでるが、日本語の場合、他の方法を利用するのは少しい難しくなると思うから…
HPSGの情報表現モデル
1. HPSGによる、言語のすべての句は記号(sign)です。従って、シグナチャーに規定できる類の一つは、記号です。記号というオブジェクトは、PHON(Phonology: 音韻学)とSYNSEM(Syntax-Semantics: 構文と意味論)という少な くとも二つの特徴がある。
2. もちろん、記号(sign)というオブジェクトは、単語のほか、句や文章も示すことができる。句や文章を示すオブジェクトは、単語を示すオブジェクトと違った構造や特徴があるから、記号の類を二つの部分に分けることができる。
3. word(単語)とphrase(句)という要素は、 signの亜類型で、signの特徴を継承するから、wordもphraseもPHONとSYNSEMという特徴を持っている。その他、phraseという亜型はHEAD-DAUGHTER とNON-HEAD-DAUGHTERの別の特徴がある。この特徴は、句の要素を記述する。特性について、後でもっと詳しく説明するつもりです。
4. PHONとSYNSEMという特徴に値を設定できる。phonはPHONの類の値で、sysnemはSYNSEMの類の値です。
5. SYNSEMはsignの特徴であるが、SYNSEMの値であるsynsemというオブジェクトは、別の特徴を含める可能性がある。そうなると、ご覧のように、SYNSEMの値であるsynsemは、別のオブジェクトの類として分析できるわけです。synsemは、新しいオブジェクトの類として、LOCALとNONLOCALという固有の特徴を持っている。
参考資料:A.Przepiórkowski, ポーランド語の公式な記述:理論及び実装法
ある質問に対する答え
皆さん、あけましておめでとうごいざいます!
この投稿には機械翻訳に関して同級生からもらった意見や質問に答えたいと思う。面白い質問が本当にたくさんもらったけど、今は全部に答えることができないから、次の投稿にも聞かれた問題を持ち出すつもりです。
1.どうして機械翻訳は普通の翻訳と比べてあまりよくないですか?
根本的な質問ですね。確かに、現在の機械翻訳は遺憾な点が多いが、自動翻訳と人間翻訳は違う役割があるとしたら、その二つを比べても意味がなくなるではないかな。つ まり、コンピュータがいつか詩や文学を上手に翻訳できるものとは期待されない(なぜならというと、別の問題ですけど…)。しか し、凝った文章ではない外国からの情報、外国人のメール、外国のウエブサイトのような短くて、簡単な文章を理解するにはすごく役に立てると思う。それを成功に収めるために利用 した機能は、もっと複雑な文章を翻訳しようとする人々の仕事にもすごく役に立てる。特に、専門用語がたくさんあって、文章の構造より単語の意味がもっと重要である専門的な文章の翻訳には、翻訳支援ツールが翻訳者の助けになる。
2.現在の機械翻訳の進行度は何ですか?機械翻訳の進歩と人工知能はどんな関係があるか?
機械翻訳の歴史は60年前に遡る。1954年に、ジョージタウン大学とIBM実験で行われたラシャ語から英語に自動翻訳は成功として見なされて、世界的な関 心を呼んだ。人々はコンピュータが翻訳できると信じ始めた。そのとき、実験の作者は機械翻訳のすべての低所が数年に解決されてしまうと述べた。しかし、やっぱり研 究の進展は遅過ぎて、長い時間研究者は期待に応えることができなかった。今、機械翻訳というのは計算言語学の分野として思われて、言語学、情報学、人工知能などとい う分野から知識を得る。どうやって機械翻訳の進歩は以上の分野の進歩にかかっているか、別の投稿で 詳しく説明する。
3.どんな翻訳支援ツールが一番ですか?
決まりにくいですね。たぶん、文章の種類や翻訳者の個人的な作業スタイルによって違う。私は今使っているのは無料で、クロスプラットフォームのSwordfishです。実際の問題なのは、たくさんの翻訳会社が雇用された翻訳者から一つの決まったツールしか使わない ことを要求するわけです。ほとんどの場合は、この一つのツールはSDLTradosという高度なツールです。Tradosは有料で、更に使い方をよく分かるよ うに有料なワークショップが必要になる。しかし、同等の質の無料ツールもあるから、誰にも適しているツールがきっとある。
4.機械翻訳が改善になるとともに、翻訳者ができる仕事はなくなって、翻訳者に対する需要もなくなる恐れがあるわけではないか?
たくさんの人々にとって、機械翻訳の改善は良いかどうか、あまり明らかものではない。人工知識への心理的抵抗があるように、今まで人間だけできた翻訳がこれから機械に任せて、コンピュータによって人間と同様にうまくできたら、人の外国語の知識が無益、無意味になるわけではないか?人間にどんな役割が残しているか?
人間の文明が進むにつれて、人間の仕事をもっと落になれるための方法が発展される。人間の仕事をできる機械が多くなればなるほど、労働の専門化は進ませると分かる。自動化のため、あるサービスがやすくなって、そのサービスを提供する人々の 給料も低くなっていく。一方、専門的な知識を持っている人々の給料が高くなっていく。だから、機械翻訳が改善しょても、詩や純文学をうまく翻訳できる上手 な翻訳者がいつも必要になると思う。
翻訳の将来はどうなるか、誰も分からないが、それは自動翻訳が進むだけからわけではない。どこの国でも主な外国語として英語が教えられて、人々は他の人気ではない外国語を勉強する必要を感じていないという世界的な傾向があることは明らかです。そのため、将来には英語ができる翻訳者しか仕事につけないかもしれないか…?
自己紹介
こんにちは!
私はポーランドの首都であるワルシャワと言う町に住んでいて、ワルシャワ大学の日本学科で勉強する。修士二年生で、来年の六月に卒業する予定です。言語学とパソコンに興味を持っている。その二つの繋がりである機械翻訳について修士論文を書きたいと思う。実は、翻訳は一番実用的な言語学の分野だと言えるかもしれない。現在の機械翻訳ツールを利用することによって、翻訳者の仕事をもっと楽にすることができると思う。
研究の進歩とともに、一番面白そうなことについて投稿するつもりです。





leave a comment