Gépi fordítás
Mi az a gépi fordítás?
A gépi fordítórendszerek olyan alkalmazások vagy online szolgáltatások, amelyek gépi tanulási technológiát használnak a nagy mennyiségű szöveg lefordítására a támogatott nyelveken. A szolgáltatás lefordít egy "forrás" szöveg-ból egy nyelv-hoz egy különböző "cél" nyelv.
Habár a gépi fordítási technológia és az azokhoz való kapcsolódási pontok mögött álló fogalmak viszonylag egyszerűek, a mögötte lévő tudomány és technológia rendkívül összetett, és számos élvonalbeli technológiát alkot, különösen a mély tanulást ( mesterséges intelligencia), nagy adatok, nyelvészet, Cloud Computing, és a web API-k.
Mivel a kora 2010s, egy új mesterséges intelligencia technológia, mély neurális hálózatok (más néven mély tanulás), lehetővé tette a technológia a beszédfelismerő, hogy elérje a minőségi szintet, amely lehetővé tette a Microsoft fordító csapata össze beszédfelismerő és annak alap szöveg fordítás technológia-hoz dob egy új beszéd fordítás technológia.
Történelmileg, az elsődleges gépi tanulási technikát használnak az iparban statisztikai gépi fordítás (SMT). Az SMT speciális statisztikai elemzéseket használ, hogy megbecslje egy szó lehető legjobb fordításait, néhány szó kontextusát tekintve. SMT óta használják a 2000-es évek közepétől az összes főbb fordítási szolgáltatók, köztük a Microsoft.
Az Advent a neurális gépi fordítás (NMT) a fordítási technológiában radikális eltolódást okozott, ami sokkal jobb minőségű fordításokat eredményezett. Ez a fordítótechnológia a felhasználók és a fejlesztők számára is megkezdte a telepítést Ez utóbbi része 2016.
Mind SMT és NMT fordítási technológiák két elem közös:
- Mindkettő megkövetel nagy összeg-ból előtti-emberi lefordított elégedett (valameddig millió-ból lefordított mondat)-hoz kiképez a rendszereket.
- Nem jár kétnyelvű szótárként, a szavak fordítása a lehetséges fordítások listáján, de a kifejezés fordítása a mondatban használt szó kontextusán alapul.
Mi az a fordító?
Fordító- és beszédszolgáltatások, amelyek a Kognitív szolgáltatások API-k gyűjteménye, a Microsofttól származó gépi fordítási szolgáltatások.
Szövegfordítás
A Fordítót 2007 óta használják a Microsoft-csoportok, és 2011 óta elérhető API-ként az ügyfelek számára. A Fordítót széles körben használják a Microsofton belül. A termék lokalizációs, támogatási és online kommunikációs csapataiba épül be. Ugyanez a szolgáltatás további költségek nélkül elérhető az ismerős Microsoft-termékekből, például a A Bing, Cortana, Microsoft-oldal, Office, Sharepoint, Skypeés Sóvárog.
A fordító bármilyen hardverplatformon és operációs rendszeren használható webes vagy ügyfélalkalmazásokban a nyelvi fordítás és más, nyelvvel kapcsolatos műveletek, például nyelvfelismerés, szövegfelolvasás vagy szótár végrehajtására.
Az iparági szabvány REST technológiájának kihasználásával a fejlesztő forrásszöveget (vagy beszédfelismerési hangforrást) küld a szolgáltatásnak a célnyelvet jelölő paraméterrel, és a szolgáltatás az ügyfél vagy a Web App által használt lefordított szöveget küldi vissza.
A Fordító szolgáltatás egy Azure-szolgáltatás, amelyet a Microsoft adatközpontjaiban üzemeltetnek, és amely a más Microsoft felhőszolgáltatások által biztosított biztonság, méretezhetőség, megbízhatóság és nonstop rendelkezésre állás előnyeit élvezi.
Beszédfordítás
A fordítói beszédfordítási technológia 2014 végén indult a Skype Translator alkalmazással kezdve, és 2016 eleje óta érhető el nyílt API-ként az ügyfelek számára. Integrálva van a Microsoft Translator élő funkcióba, a Skype-ba, a Skype-értekezletközvetítésbe, valamint az Androidra és iOS-ra vonatkozó Microsoft Translator-alkalmazásokba.
A beszédfordítás mostantól elérhető a Microsoft Speech, teljes körűen testreszabható szolgáltatások beszédfelismeréshez, beszédfordítóhoz és beszédszintetizalhoz (szövegfelolvasás).
Hogyan működik a Szövegfordítás?
Két fő technológiák használt szöveg fordítása: az örökölt egy, a statisztikai gépi fordítás (SMT), és az újabb generációs egy, neurális gépi fordítás (NMT).
Statisztikai gépi fordítás
A statisztikai gépi fordítás (SMT) fordítói megvalósítása több mint egy évtizedes természetes nyelvi kutatásra épül a Microsoftnál. Ahelyett, hogy kézzel készített szabályokat írnának a nyelvek közötti fordításra, a modern fordítási rendszerek a fordítást a nyelvek közötti szöveg átalakításának a meglévő emberi fordításokból történő elsajátításának problémájaként, valamint az alkalmazott statisztikák és gépi tanulás legújabb vívmányainak kihasználásával kapcsolatos problémaként használják fel.
Az úgynevezett "párhuzamos korpora" jár, mint a modern Rosetta Stone hatalmas arányban, amely szó, kifejezés, és idiomatic fordítások keretében sok nyelvi párok és domainek. A statisztikai modellezési technikák és a hatékony algoritmusok segítenek a számítógépnek a megfejtés (a forrás és a célnyelv közötti megfelelések észlelése a betanítási adatokban) és a dekódolás (az új bemeneti mondat legjobb fordításának megtalálása) problémájának megoldásában. A fordító egyesíti a statisztikai módszerek erejét a nyelvi információkkal, hogy olyan modelleket készítsen, amelyek jobban általánosítják és érthetőbb fordításokhoz vezetnek.
Mivel ez a megközelítés, amely nem támaszkodik a szótárak és nyelvtani szabályok, ez biztosítja a legjobb fordítások a mondatok, ahol használhatja a háttér körül egy adott szót, szemben próbál végrehajtani egyszavas fordítások. Az egyszavas fordítások esetében a kétnyelvű szótárt fejlesztették ki és www.Bing.com/Translator.
Neurális gépi fordítás
A fordítás folyamatos fejlesztése fontos. A 2010-es évek közepe óta azonban az SMT technológiával a teljesítmény javulása megemelkedett. Kihasználva a skála és a hatalom a Microsoft AI szuperszámítógép, különösen a Microsoft Cognitive Toolkit, Translator most kínál neurális hálózat (AZ LSTM) alapú fordítás, amely lehetővé teszi egy új évtized fordítási minőség javítására.
Ezek a neurális hálózati modellek az Azure-beli beszédszolgáltatáson keresztül és a szöveges API-n keresztül érhetők el az összes beszédnyelvhez a "generalnn" kategóriaazonosító használatával.
Neurális hálózati fordítások alapvetően különböznek, hogyan végzik, mint a hagyományos SMT is.
A következő animáció ábrázolja a különböző lépéseket neurális hálózat fordítások megy keresztül lefordítani egy mondatot. Emiatt a megközelítés, a fordítás keretében kerül a teljes mondat, szemben csak néhány szót csúszó ablak, hogy az SMT technológiát használ, és több folyadékot és az emberi lefordított fordítások.
A neurális hálózat képzése alapján minden szót egy 500-dimenzióban lévő vektor (a) jelez, amely egy bizonyos nyelvpárban (pl. angol és kínai) egyedülálló jellegzetességeit képviseli. Alapján a nyelvi párok használt képzési, a neurális hálózat saját határozza meg, mi ezeket a méreteket kell. Tudták kódolás egyszerű fogalmak, mint a nemek (nőies, férfias, semleges), az udvariasság szinten (szleng, alkalmi, írott, formális, stb), írja a szó (ige, főnév, stb), hanem minden más, nem nyilvánvaló jellemzőkkel nyert a képzési adatokat.
A lépések neurális hálózat fordítások megy keresztül a következők:
- Minden szó, vagy pontosabban a 500-Dimension vektor képviseli, megy keresztül az első réteg a "neuronok", amely kódolja a 1000-dimenzió vektor (b) képviselő szó keretében a többi szó a mondat.
- Miután minden szót már kódolt egyszer e 1000-dimenzió vektorok, a folyamat ismétlődik többször, minden réteg, amely lehetővé teszi a jobb finomhangolását e 1000-dimenzió képviselete a szó keretében a teljes mondat (ellentétben SMT technológia, amely csak akkor veszi figyelembe a 3-5 szó ablak)
- A végső kimeneti mátrix ezután használja a figyelmet réteg (azaz a szoftver algoritmus), amely használja mind a végső kimeneti mátrix és a kimeneti a korábban lefordított szavakat, hogy melyik szót, a forrás mondat, ki kell fordítani a következő. Ez akarat is használ ezek számítások-hoz potenciálisan csepp felesleges szöveg-ban cél nyelv.
- A dekóder (Translation) réteg, lefordítja a kiválasztott szó (vagy pontosabban a 1000-Dimension vektor képviseli ezt a szót keretében a teljes mondat) a legmegfelelőbb célnyelv egyenértékű. A kimenet az utolsó réteg (c) ezután táplálják vissza a figyelmet réteg kiszámításához, amely a következő szót a forrás mondat kell fordítani.
A példában ábrázolt az animáció, a környezetkímélő 1000-dimenzió modellje "A"kódolják, hogy a főnév (House) egy női szó franciául (La Maison). Ez lehetővé teszi a megfelelő fordítást "A"-hoz lenni"La"és nem"Le"(egyes szám, hím) vagy"Les"(többes szám), amint eléri a dekóder (fordítás) réteg.
A figyelem algoritmus is kiszámítja, alapján a szó (a) korábban lefordított (ebben az esetben "A"), hogy a következő szót kell fordítani a téma ("House") és nem melléknév ("Kék"). -Ban tud elér ez mert a rendszer tanult amit angol és francia megfordít a rend-ból ezek szavak-ban mondatokat. Azt is kiszámolták volna, hogy ha a melléknév "Nagy"a szín helyett azt, hogy ne fordítsa meg őket ("a nagy ház"= >"La Grande Maison").
Ennek a megközelítésnek köszönhetően a végső kimenet, a legtöbb esetben több folyékonyan és közelebb áll egy emberi fordításhoz, mint egy SMT-alapú fordítás, valaha is lehetett volna.
Hogyan működik a beszédfordítás?
A fordító képes a beszéd fordítására is. Ez a technológia elérhető a Translator live funkcióban (http://translate.it), a fordító apps, Skype Translator és az is eredetileg csak a Skype Translator funkció és a Microsoft Translator apps iOS és Android, ez a funkció már elérhető a fejlesztők a legújabb verzióját a nyílt A REST-alapú API az Azure portálon érhető el.
Bár ez május látszik szeret egy egyenes továbbít folyamat-on egy első látásra-hoz épít egy beszéd fordítás technológia-ból létező technológia tégla, ez szükséges sok több dolgozik mint egyszerűen dugulás egy létező "hagyományos" emberi--hoz-gép beszéd felismerés motor a meglévő szöveg fordítása egy.
A "forrás" beszédnek az egyik nyelvről a másik "cél" nyelvre történő megfelelő lefordításához a rendszer négylépcsős folyamaton megy keresztül.
- Beszédfelismerés, hang szöveggé alakítása
- TrueText: olyan Microsoft technológia, amely normalizálja a szöveget, hogy az megfelelőbb legyen a fordításhoz
- Fordítás keresztül a szövegfordító motor a fent leírt, de a fordítási modellek speciálisan kifejlesztett, a valós életben beszélt beszélgetések
- Text-to-speech, ha szükséges, hogy készítsen a lefordított hang.
Automatikus beszédfelismerő (ASR)
Önműködő beszéd felismerés (ASR) van előad használ egy neurális hálózat (NN) rendszer képzett-ra elemzés ezer-ból óra-ból bejövő audio beszéd. Ez a modell képzett emberi-to-humán kölcsönhatások helyett az ember-gép parancsokat, termelő beszédfelismerő, hogy van optimalizálva a normál beszélgetések. Ennek elérése érdekében, sokkal több adat van szükség, valamint egy nagyobb DNN, mint a hagyományos emberi-gép ASRs.
Tudjon meg többet A Microsoft beszéde a szövegszolgáltatásokban.
A TrueText parancs
Ahogy az emberek beszélgetnek más emberekkel, nem beszélünk olyan tökéletesen, tisztán vagy szépen, mint azt gyakran gondolják, mi. -Val a TrueText technológia, a irodalmi szöveg van transzformátor-hoz több összezsúfolva visszaver felhasználó megfeszített mellett removing beszéd szétfolyók (töltelék szöveg), mint "Umm" s betű "ah" s betű "és" s, "szeret" s betű, akadozik, és ismétlés. A szöveg is tenni olvashatóbb és lefordítható hozzáadásával mondat szünetek, megfelelő írásjelek, és a nagybetűs. Ahhoz, hogy ezek az eredmények, használtuk a több évtizedes munka nyelvi technológiák, mi kifejlesztett Translator létrehozni TrueText. A következő ábra egy valós példán keresztül mutatja be, hogy milyen átalakításra kerül a TrueText a szövegkonstans normalizálására.
Fordítás
A szöveget ezután lefordítják a nyelvek és dialektikák által támogatott Fordító.
A beszédfelismerési fordítási ALKALMAZÁSPROGRAMOZÁSI felület (mint fejlesztő) vagy a beszédfordítási alkalmazás vagy szolgáltatás segítségével történő fordítások a legújabb neurális hálózat alapú fordításokkal vannak felszerelve a beszédbevitelt támogató összes nyelvhez (lásd: itt a teljes listához). Ezek a modellek is építettek bővül a jelenlegi, többnyire írott-szöveg képzett fordítási modellek, több beszélt-Text Corpora építeni egy jobb modellt beszélt beszélgetés típusú fordítások. Ezek a modellek is elérhetőek a "beszéd" standard kategória a hagyományos szöveg fordítása API-t.
Minden nyelv nem támogatja a neurális fordítás, a hagyományos SMT fordítás végzik.
Szövegfelolvasás
Ha a célnyelv az a 18 támogatott szövegfelolvasás Nyelvek, és a használati eset megköveteli az audió kimenetet, a szöveg majd át beszédre kimenet segítségével beszédszintézis. Ez a szakasz nem szerepel a beszéd-szöveg fordítási forgatókönyekben.
Tudjon meg többet A Microsoft szövege a beszédszolgáltatásokhoz.
Kutatás
Tekintse meg a legújabb kutatási papírokat a Microsoft fordító csapatából.