Pereiti prie pagrindinio turinio
Vertėjas
Šis puslapis automatiškai išverstas į "Microsoft Translator" mašininio vertimo tarnybą. Sužinokite daugiau

Microsoft Translator Dienoraštis

Politiškai neteisingas mašinos

Nors mes ne mašininio vertimo komanda buvo matyti vis didesnį srautą į mūsų įvairių aukos per pastaruosius keletą mėnesių, mes pastebėjome, staiga guzas eismo vakar. Atsižvelgdama išaugo ant Agatha Christie ir Šerlock Holmes, tokių paslapčių yra nenugalimas man-ir kitų žmonių komanda skaičius buvo tik kaip smalsu sužinoti, kas sukėlė šį staigus guzas. Mes supratome, kad IE8 veikla/Akceleratoriaus, Messenger Bot, Ieškoti vertimų, "Office" vertimai buvo parodyta ta pati didėjimo tendencija, kaip prieš dienas ir todėl nebuvo konkrečios priežasties šio Bump.

Galų gale, mes galėjome nustatyti vieną galimą priežastį, kodėl mes matome šį smaigalys. Mūsų vartotojų bendruomenė rado keistumas, kaip mašininio vertimo variklis perdirbtų vertimas keletą pavadinimų iš anglų į vokiečių. Buvo galima tikėtis, kad, kai variklis išvers vienos šalies kandidatą kam nors iš kitos šalies, atsižvelgiant į dabartinę politinę atmosferą Artėjant JAV rinkimams, kad ji būtų laikoma naujienomis. Nors mes tikrai Sveikiname visus naujus vartotojus, kad atėjo patikrinti šį reiškinį out-mes norime pasidalinti su mūsų vartotojais priežastis, kodėl tokie dalykai, atrodo, atsitikti laikas nuo laiko su statistiškai apmokytų mašininio vertimo sistemų iš mūsų ir kitų.

Statistinis mašininio vertimo mechanizmas yra apmokytas iš partijų ir daugybės lygiagrečių duomenų, t. y. duomenų, kurie yra ir originalo kalba (pvz., anglų kalba), ir tikslinės kalbos (pvz., vokiečių), kur šaltinis ir tikslas yra vienas kito vertimai. Mūsų variklis yra mokomi milijonai sakinių už kiekvieną kalbų porą mes palaikome. Siekiant mokyti ypač Corpus duomenų-gal daug Newswire straipsnių anglų kalba, kurie buvo išversti į vokiečių-mes pirmiausia turi nutraukti, kad Corpus žemyn į sakinius. Po Corpus sakinys skaldytų, mes pašarų gautas sakiniai į sakinį aligner, vienintelis tikslas yra rasti ką sakiniai ant šaltinio pusėje suderinti su sakiniais tikslinės pusėje. Tai nėra trivialus uždavinys, nes sakinys vienoje pusėje gali būti įmanoma suderinti su vienu ar daugiau sakinių apie tikslą (arba galbūt visai!). Į aligner kartais padaryti klaidų, ir nesuderinti vienas sakinys su kitu, kad iš tikrųjų ne vertimas. Tai gali sukelti kai kurių mistranslations, ypač jei yra žodžių šaltinį ir tikslą, kad yra retai pasitaiko. Kadangi mūsų vertimo mechanizmas yra statistinis, jis yra labai priklausomas nuo bendro atsiradimo dažnumo tarp žodžių šaltinio ir tikslinių duomenų. Jei tam tikrų žodžių pasitaiko nedažnai, pvz., žmonių vardai gali įvykti tik kelis kartus per milijonus sakinių, nes dažnio stoka gali lemti netinkamą "spėjimus" tarp šaltinio ir tikslo (t. y. žemas tikimybes, priskirtas konkretiems šaltiniui ir tiksliniams žodžiams). Tai gali sukelti kai komiškas gaffes mūsų vertimo sistema.

Taigi, tai, kaip "mašina" nusprendė išversti taip, kad baigėsi su bendruomene priskirti jį humoro jausmą mūsų komanda. Nors mes ir toliau sunkiai dirbame, siekiant užtikrinti tinkamą derinimai, tai galima tikėtis iš statistinės sistemos, kuri yra pastatyta ant milijonų milijardų žodžių, kad tokia situacija gali pakartoti.

Dabartinė problema su suderinimo dabar turėtų būti išspręsta, bet mes raginame mūsų bendruomenę vartotojams ir toliau padėti mums nustatyti tokių situacijų susisiekus su mumis per šį dienoraštį.

-"Vikram"

Vikram dendi veda verslo strategijos & produktų planavimas Microsoft Translator komanda