Statystyczne tłumaczenie maszynowe-Guest blog (Aktualizacja z dodatkowym papieru)

Opublikowano w dniu 22 sierpnia 2008przez Microsoft Translator

Will Lewis jest menedżerem programu w zespole Microsoft translator, pracując nad jakością języka i pozyskiwaniem danych. Dzisiejszy blog Gości jest wysoki poziom wyjaśnienie, jak działa silnik:

Jak wielu z was wie, pod maską Microsoft Translator jest zasilany przez statystyczne maszyny Translation (SMT) silnika. Systemy statystyczne różnią się od tych opartych na regule w tym, że "zasady" mapowania słów i zwrotów z jednego języka do drugiego są nauczane przez system, a nie są ręcznie kodowane. Szkolenie SMT wymaga gromadzenie dużej ilości równoległych danych szkoleniowych — miejmy nadzieję na dobrą jakość i ze źródeł niejednorodnych — oraz szkolenie silnika na tych danych. (Równolegle, mamy na myśli źródło danych, gdzie zawartość dla jednego języka jest taka sama jak zawartość dla drugiego.) Silnik poznaje Korespondencje między słowami i wyrażeniami w jednym języku, a tymi w innym, które często są wzmacniane powtarzającymi się zdarzeniami tych samych słów i zwrotów w całym wejściu. Na przykład, w szkoleniu angielsko-niemieckiego systemu powiedzmy, jeśli silnik widzi frazę Wszelkie prawa zastrzeżone po stronie angielskiej, a także zauważa, Alle Rechte vorbehalten po stronie niemieckiej, może wyrównać te dwa zwroty i przypisać pewne prawdopodobieństwo do tego wyrównania. Powtarzające się wystąpienia źródłowych i docelowych zwrotów w danych szkoleniowych wzmocnią tylko to wyrównanie.

Ogólnie rzecz biorąc, posiadanie równoległych danych dla pary językowej oznacza, że możemy szkolić silniki w obu kierunkach (tj. zarówno angielsko-niemieckie, jak i niemiecko-angielskie systemy mogą być przeszkolone w tym samym zdaniu wejściowym). Niektórzy z was mieli kilka pytań dotyczących Dlaczego to, że wydaliśmy angielsko-hiszpański system przed opublikowaliśmy hiszpańsko-angielski. Były naprawdę dwa powody. Po pierwsze, angielsko-hiszpański była pierwszą parą językową domeny ogólnej, którą wydaliśmy. Zwolnienie jednej pary językowej pozwoliło nam przetestować infrastrukturę, zanim zaczęliśmy zwalnianie więcej. Po drugie, technologia dla hiszpańsko-angielski był nieco inny niż używany dla angielsko-hiszpański, i potrzebujemy trochę więcej czasu, aby zrobić niezbędne zmiany infrastrukturalne, aby pomieścić. W przyszłości planujemy wydać nowe systemy tłumaczeniowe w parach (z kilkoma wyjątkami). Nie mogę ujawnić, jakie języki mamy zaplanowane obok, ale spodziewaj się wkrótce kilka nowych!

Dla zainteresowanych dyskusjami technicznymi dotyczącymi naszych silników i ich pracy, proszę odnieść się do niektórych prac naukowców, którzy je opracowali. Trzy ostatnie dokumenty notatki są:

Krzysztof... Czy potrzebujemy zwrotów? Wyzwanie konwencjonalnej mądrości w statystycznym tłumaczeniu maszynowego Maj 2006 Nowy Jork, Nowy Jork, USA Postępowanie w sprawie HLT-NAACL 2006

Krzysztof... Zależność Treelet Translation: konwergencja statystycznego i opartego na przykładzie tłumaczenia maszynowego? Marzec 2006 maszyna translacji 43-65 (dołączony plik)

Krzysztof... Używanie szablonów kolejności zależności w celu poprawy ogólności w tłumaczeniu 2007 lipca Stowarzyszenie językoznawstwa obliczeniowego

Zależność Treelet translation Konwergencja statystycznego i opartego na przykładzie machinetranslation. PDF

Blog Microsoft Translator