Ezt az oldalt a Microsoft Translator gépi fordítószolgáltatása automatikusan lefordította. Tudjon meg többet

Mikroszkóp fordító blog

Statisztikai gépi fordítás-vendég blog (frissítve kiegészítő papír)

Will Lewis egy programmenedzser a Microsoft Translator csapata, a munka a nyelvi minőség és az adatgyűjtés.  A mai vendég blog egy magas szintű magyarázata, hogy a motor működik:  

Mint sokan tudjátok, a motorháztető alatt a Microsoft Translator powered by a statisztikai gépi fordítás (SMT) motor.  A statisztikai rendszerek eltérnek a szabályokon alapuló rendszerektől abban, hogy a "szabályok" szó és kifejezés feltérképezése az egyik nyelvről a másikra, nem pedig kézzel kódolt.  Egy SMT képzés nagy mennyiségű párhuzamos képzési adatot igényel – remélhetőleg jó minőségűek és heterogén forrásokból –, és ezen adatok hajtómotorját kiképzés útján.  (Ezzel párhuzamosan olyan adatforrást értünk, ahol az egyik nyelv tartalma megegyezik a másikkal.)  A motor megtanulja a levelezés között szavak és kifejezések egy nyelven és a másik, amelyek gyakran erősítik ismételt előfordulását ugyanazokat a szavakat és kifejezéseket az egész bemenet.  Pl,-ban képzés a angol-német rendszer akadályok ' mond, ha a motor hintázik a mondat Minden jog fenntartva! az angol oldalon, és azt is észreveszi, Az Alle Rechte vorbehalten a német oldalon, akkor igazíthatja a két mondatot, és hozzá néhány valószínűség ehhez az igazítást.  A forrás-és célmondatok ismételt előfordulása az edzési adatokban csak megerősíti ezt az igazítást.

Általánosságban elmondható, hogy párhuzamos adatok alapján egy nyelvpár esetében mindkét irányban lehet hajtóműveket képezni (azaz mind az angol-német, mind a német-angol rendszereket ki lehet képezni ugyanarra a bemeneti mondatokra).  Néhányan már néhány kérdést illetően, hogy miért volt, hogy megjelent az angol-spanyol rendszert, mielőtt megjelent a spanyol-angol.  Ott tényleg két okból.  Először is, angol-spanyol volt az első általános domain nyelv pár is megjelent.  Felszabadító egy nyelvpárt lehetővé tette számunkra, hogy teszteljék az infrastruktúrát, mielőtt elkezdtük kiadása tovább.  Másodszor, a technológia a spanyol-angol volt, némileg eltérő, mint a használt angol-spanyol, és szükségünk van néhány további időt, hogy a szükséges infrastrukturális változtatásokat elhelyezésére.  A jövőben, azt tervezzük, hogy kiadja az új fordítási rendszerek párban (néhány kivétel).  Nem tudom, milyen nyelveken tervezett következő, de várnak néhány új hamarosan!

Azok számára, érdekli a technikai megbeszélések során a motorok és hogyan működnek, kérjük, olvassa el néhány, a papírok a kutatók, akik kifejlesztette őket.  Három újabb keletű iratok-ból jegyzék van:

Chris quirk, Arul Menezes. Van szükségünk mondatok? A statisztikai gépi fordítás hagyományos bölcsességének megtámadása May 2006 New York, New York, Amerikai Egyesült Államok A HLT-NAACL 2006 eljárás

Chris quirk, Arul Menezes. Függőségi Treelet fordítás: a konvergencia a statisztikai és a példa-alapú gépi fordítás? Március 2006 gépi fordítás 43-65 (csatolt fájl)


Chris quirk, Arul Menezes. Függőségi rendelési sablonok használata a fordítási általánosság javítására Július 2007 Számítógépes nyelvészeti Egyesület

Függőségi Treelet fordítás a statisztikai és példa alapú machinetranslation. pdf