メイン コンテンツへスキップ
Translator
このページは、マイクロソフト翻訳者の機械翻訳サービスによって自動的に翻訳されました。 詳細情報

マイクロソフト翻訳ブログ

統計機械翻訳–ゲストブログ (追加論文で更新)

ウィルルイスは、言語の品質とデータの取得に取り組んで、マイクロソフトの翻訳チームのプログラムマネージャーです。 今日のゲストブログは、エンジンがどのように動作するかについてのハイレベルな説明です:  

多くの人が知っているように、マイクロソフトの翻訳者は、統計機械翻訳 (SMT) エンジンによって供給されています。 統計システムはルールベースのものとは異なり、単語やフレーズをある言語から別のものにマッピングする「ルール」は、手作業でコード化されるのではなく、システムによって学習されます。 SMT をトレーニングするには、大量の並列トレーニングデータ (うまくいけば良質と異種のソースから) を集結し、そのデータに基づいてエンジンをトレーニングする必要があります。 (並列では、1つの言語のコンテンツが他方のコンテンツと同じであるデータのソースを意味します)。 エンジンは、1つの言語の単語と語句と、入力全体にわたって同じ単語や語句を繰り返し出現させることによって強化されることが多い別の言葉の間の対応を学習します。 たとえば、英語-ドイツ語システムのトレーニングでは、エンジンがフレーズを見て すべての権利予約 英語の面でも通知 アッレ Rechte vorbehalten ドイツ側では、これら2つのフレーズを揃えて、このアラインメントにいくつかの確率を割り当てることができます。 トレーニングデータでソースとターゲットのフレーズが繰り返し出現すると、このアライメントが強化されます。

一般的に、言語ペアの並列データを使用すると、両方向にエンジンをトレーニングすることができます (つまり、英語とドイツ語の両方のシステムを同じ入力文で学習できます)。 スペイン語-英語をリリースする前に、英語-スペイン語のシステムをリリースした理由についていくつかの質問がありました。 本当に2つの理由がありました。 最初に、英語-スペイン語は、我々がリリースした最初の一般的なドメイン言語ペアでした。 1つの言語ペアをリリースすることで、より多くのリリースを開始する前にインフラストラクチャをテストできました。 第二に、スペイン語-英語のための技術は、英語-スペイン語に使用されるものとは少し異なっていた、と我々は対応するために必要なインフラの変更を行うには、いくつかの追加の時間が必要です。 将来的には、新しい翻訳システムをペアでリリースする予定です (いくつかの例外があります)。 次に計画している言語を明らかにすることはできませんが、すぐに新しいものを期待しています!

当社のエンジンに関する技術的な議論やその仕組みについてご興味のある方は、それらを開発した研究者の論文を参考にしてください。 最近の3つのノートは次のとおりです。

クリス癖、アルルメネゼス。 フレーズは必要ですか?統計的機械翻訳における従来の知恵への挑戦 5月2006米国ニューヨーク州ニューヨーク市 NAACL 2006 論文集

クリス癖、アルルメネゼス。 依存関係の Treelet 翻訳: 統計と例題ベースの機械翻訳の融合 3月2006機械翻訳 43-65 (添付ファイル)


クリス癖、アルルメネゼス。 依存関係の順序テンプレートを使用した翻訳の一般性の向上 7月2007 計算言語学協会

依存関係 Treelet 翻訳統計と例ベースの machinetranslation の収束