Zu Hauptinhalt springen
Translator
Diese Seite wurde automatisch vom maschinellen Übersetzungsdienst von Microsoft Translator übersetzt. Weitere Informationen

Microsoft Translator Blog

Statistische Maschinenübersetzung - Gäste-Blog (Aktualisiert mit zusätzlichem Papier)

Will Lewis ist Programm-Manager im Microsoft Translator-Team und arbeitet an der Sprachqualität und Datenerfassung. Der heutige Gast-Blog ist eine hochrangige Erklärung dafür, wie der Motor funktioniert:  

Wie viele von Ihnen wissen, wird Microsoft Translator unter der Haube von einer SMT-Engine (Statistical Machine Translation) angetrieben. Statistische Systeme unterscheiden sich von regelbasierten Systemen dadurch, dass die "Regeln", die Wörter und Phrasen von einer Sprache in eine andere abbilden, vom System gelernt und nicht manuell kodiert werden. Das Training eines SMT erfordert eine große Anzahl paralleler Trainingsdaten - hoffentlich von guter Qualität und aus heterogenen Quellen - und das Training der Engine auf diesen Daten. (Parallel dazu meinen wir eine Datenquelle, bei der der Inhalt für eine Sprache derselbe ist wie der Inhalt für die andere.) Die Maschine lernt die Korrespondenzen zwischen Wörtern und Phrasen in einer Sprache und denen in einer anderen, die oft durch wiederholtes Auftreten derselben Wörter und Phrasen in der gesamten Eingabe verstärkt werden. Zum Beispiel beim Training des englisch-deutschen Systems, sagen wir, wenn der Motor die Phrase sieht. Alle Rechte vorbehalten auf der englischen Seite und auch Mitteilungen Alle Rechte vorbehalten auf deutscher Seite kann sie diese beiden Sätze abgleichen und dieser Ausrichtung eine gewisse Wahrscheinlichkeit zuordnen. Wiederholte Vorkommen von Quell- und Zielsätzen in den Trainingsdaten verstärken diese Ausrichtung nur noch.

Im Allgemeinen bedeutet die parallele Datenhaltung für ein Sprachpaar, dass wir Lokomotiven in beide Richtungen trainieren können (d.h. sowohl das englisch-deutsche als auch das deutsch-englische System können auf den gleichen Eingabesätzen trainiert werden). Einige von euch hatten einige Fragen darüber, warum wir das englisch-spanische System veröffentlicht haben, bevor wir Spanisch-Englisch veröffentlicht haben. Es gab wirklich zwei Gründe. Erstens war Englisch-Spanisch das erste allgemeine Domain-Sprachpaar, das wir veröffentlicht haben. Die Freigabe eines Sprachpaares ermöglichte es uns, die Infrastruktur zu testen, bevor wir mit der Freigabe weiterer Sprachen begannen. Zweitens war die Technologie für Spanisch-Englisch etwas anders als die für Englisch-Spanisch, und wir brauchen etwas mehr Zeit, um die notwendigen Infrastrukturänderungen vorzunehmen. In Zukunft planen wir, neue Übersetzungssysteme paarweise (mit ein paar Ausnahmen) freizugeben. Ich kann nicht verraten, welche Sprachen wir als nächstes geplant haben, aber erwarte bald einige neue!

Für diejenigen unter Ihnen, die an technischen Diskussionen über unsere Motoren und deren Funktionsweise interessiert sind, verweisen wir auf einige der Beiträge der Forscher, die sie entwickelt haben. Drei aktuelle Dokumente von Bedeutung sind:

Chris Quirk, Arul Menezes. Brauchen wir Phrasen? Infragestellung der konventionellen Weisheit in der statistischen maschinellen Übersetzung Mai 2006 New York, New York, New York, USA Verfahren der HLT-NAACL 2006

Chris Quirk, Arul Menezes. Übersetzung des Abhängigkeitsbaums: Die Konvergenz von statistischer und exemplarischer maschineller Übersetzung? März 2006 Maschinelle Übersetzung 43-65 (angehängte Datei)


Chris Quirk, Arul Menezes. Verwendung von Vorlagen für die Abhängigkeitsordnung zur Verbesserung der Allgemeingültigkeit bei der Übersetzung Juli 2007 Gesellschaft für Computerlinguistik e.V.

Dependency Treelet Translation Die Konvergenz von statistischer und beispielbasierter Maschinenübersetzung.pdf