Statistikas Machine translation-viesu blog (papildināta ar papildu papīra)
Vai Lewis ir programmas menedžeris Microsoft Translator komanda, kas strādā pie valodas kvalitātes un datu iegūšanu. Šodienas viesu emuārs ir augsta līmeņa paskaidrojums par to, kā motors darbojas:
Tā kā daudzi no jums zināt, saskaņā ar kapuci Microsoft Translator darbina ar statistisko mašīnu translation (SMT) dzinēju. Statistikas sistēmas atšķiras no noteikumiem balstītu, ka "noteikumi" kartēšanas vārdus un frāzes no vienas valodas uz otru, ir iemācījušies ar sistēmu, nevis ar roku kodēti. Apmācība SMT prasa Amassing lielu daudzumu paralēli mācību datus, cerams labas kvalitātes un no heterogēnu avotiem-un apmācību motoru par šiem datiem. (Paralēli tam mēs saprotam datu avotu, kurā vienas valodas saturs ir tāds pats kā saturs otrai.) Motors apgūst korespondences starp vārdiem un frāzēm vienā valodā un citās valodās, kuras bieži pastiprina ar atkārtotiem vienādiem vārdiem un frāzēm visā ievades laikā. Piemēram, mācot angļu-vācu sistēmu, teiksim, ja motors redz frāzi Visas tiesības paturētas Angļu pusē, kā _ arī paziņojumi "Alle Rechte" vorbehalten Vācu pusē, tā var saskaņot šīs divas frāzes, un piešķirt dažas varbūtības šo saskaņošanu. Atkārtotie avota un mērķa frāžu gadījumi mācību datos tikai pastiprina šo saskaņošanu.
Parasti, ar paralēliem datiem par valodu pāra nozīmē, ka mēs varam apmācīt dzinējus abos virzienos (ti, gan angļu-vācu un vācu-angļu sistēmas var apmācīt par vienu un to pašu ievadi teikumus). Daži no jums bija daži jautājumi par to, kāpēc tā bija, ka mēs atbrīvo angļu-spāņu sistēmu, pirms mēs izlaidām spāņu-angļu valodā. Bija tiešām divu iemeslu dēļ. Pirmkārt, angļu-spāņu bija pirmais vispārējais domēna valodu pāri mēs atbrīvota. Atbrīvojot vienu valodu pāra ļāva mums pārbaudīt infrastruktūru, pirms mēs sākām atbrīvojot vairāk. Otrkārt, tehnoloģija spāņu-angļu valodā bija nedaudz savādāks nekā, ko izmanto angļu-spāņu, un mums ir nepieciešams zināms papildu laiks, lai to nepieciešamo infrastruktūras izmaiņas, lai pielāgotos. Nākotnē mēs plānojam izlaist jaunas tulkošanas sistēmas pāros (ar pāris izņēmumiem). Es nevaru atklāt, kādas valodas mums ir plānots nākamo, bet gaidīt dažas jaunas drīz!
Tiem, kas no jums interesē tehniskas diskusijas par mūsu motoriem un to, kā viņi strādā, lūdzu, atsaukties uz dažiem no dokumentiem, ko pētnieki, kas attīstījusi tiem. Trīs nesenie dokumenti ir:
Chris Quirk, Arul Menezes. Vai mums vajag frāzes? Apstrīdot tradicionālo gudrību statistikas Machine translation Maijs 2006, Ņujorka, Ņujorka, ASV Tiesvedība HLT-NAACL 2006
Chris Quirk, Arul Menezes. Atkarība Treelet translation: konverģences statistikas un piemēru balstītas mašīntulkošana? Marts 2006 Mašīntulkošana 43-65 (pievienotais fails)
Chris Quirk, Arul Menezes. Izmantojot atkarības rīkojuma veidnes, lai uzlabotu Generality tulkojumā 2007. jūlijs Computational Linguistics asociācija
Atkarība Treelet translation statistikas un piemēru balstītas mahinetranslēšanas konverģenci. PDF