Fara í aðalefni
Þýðandi
Þetta page hefur verið sjálfkrafa þýtt með því að Microsoft Þýðandi er vél þýðing þjónustu. Læra meira

Microsoft Þýðandi Blogg

Pólitískt Rangt Vélar

Á meðan við á Vél Þýðing lið átt að sjá til þess að auka umferð til okkar ýmsum gjafir undanfarna mánuði, við tókum eftir skyndilega högg í umferð í gær. Hafa vaxið upp á Agatha Christie og Sherlock Holmes, svo leyndardóma ert ómótstæðilegur fyrir mig – og fjölda annarra fólkinu á lið voru bara eins og forvitinn að finna út hvað olli þessu skyndilega högg. Okkur datt í hug að IE8 Virkni/Eldsneytisgjöf, Sendiboði Láni, Leita þýðingar, Skrifstofu þýðingar voru allir að sýna sama upp stefna eins og á dögum fyrir og þannig voru ekki sérstök ástæða fyrir þetta högg.

Að lokum, við gátum til að bera kennsl ein hugsanleg ástæða fyrir því að við vorum að sjá þetta spike. Notandi okkar samfélag fann undarlegheit í hvernig vél þýðing vél unnin þýðingu fyrir nokkrum nöfnum frá ensku til þýsku. Það var að vænta að þegar vélin þýðir nafnið frambjóðandi einn aðili að einhver frá öðrum aðila, miðað við núverandi pólitískum andrúmsloft í hlaupa upp að OKKUR kosningar, að það myndi enda eins og fréttir. Á meðan við vissulega velkomin öll nýju notendur sem kom með því að athuga þetta fyrirbæri út – við vildum að deila með okkar notendur ástæðan fyrir því að slíka hluti virðist gerast á hverjum tíma með tölfræðilega þjálfaðir vél þýðing kerfi frá okkur og aðrir.

Tölfræðilega Vél Þýðing vél er þjálfaður á fullt og fullt af samhliða gögn, sem er, gögn sem er í bæði uppspretta tungumál (g, English) og miða tungumál (g, þýska), hvar uppruna og miða eru þýðingar annað. Okkar vél er þjálfaður á milljóna setningar fyrir hvert tungumál par við stuðning. Í því skyni að þjálfa á tiltekinni corpus gagna—kannski fjölda newswire greinar á ensku sem hafa verið þýtt þýska—við fyrst þarf að brjóta að corpus niður í dag. Eftir corpus er setningu brotinn, við fæða sú setningar í setningu aligner, þeim eina tilgangi sem er að finna hvað setningar á uppspretta hlið samræma með setningar á miða hlið. Þetta er ekki léttvægt verkefni, þar setningu á einni hliðinni gæti hugsanlega samræma með einn eða fleiri setningar á miða (eða hugsanlega alls ekkert!). Við aligner verður stundum að gera mistök, og misalign einni setningu með annan sem er í raun ekki þýðingu. Þetta getur leitt til einhvers mistranslations, sérstaklega ef það eru orð í uppruna og miða sem eru sjaldan koma. Þar okkar þýðing vél er tölfræðilegar, það er mjög reiðir sig á co-viðburður tíðni milli orð í uppruna og miða gögn. Ef ákveðin orð eru sjaldan koma—nöfn fólks, til dæmis, getur aðeins komið fram nokkrum sinnum yfir corpus milljóna setningar—skortur á tíðni sem getur leitt til mistranslations vegna rangar "giskar" milli uppruna og miða (ég., litlum líkum úthlutað að sérstaka heimild og miða orð). Þetta getur leitt til einhvers fyndinn gaffes í okkar kerfi þýðingu.

Svo, það er hvernig "vél" ákvað að þýða á þann hátt sem endaði með samfélag að eigna það að skopskyn okkar lið. En við höldum áfram að vinna hörðum höndum til að tryggja að réttur alignments, það er við því að búast frá tölfræðileg kerfi sem er byggð á milljónir til milljarða orð sem slíkum aðstæðum gæti endurtakið.

Núverandi málið með jöfnun ætti nú að leysa en við hvetjum okkar samfélag notendur til að halda að hjálpa okkur að bera kennsl á öllum slíkum aðstæðum með að hafa samband við okkur gegnum þetta blogg.

-Vikram

Vikram Dendi leiðir Viðskipti Stefnu og Vara að Skipuleggja fyrir Microsoft Þýðandi lið