Microsoft Translator aduce sfârșitul-la-end de traducere vorbire pentru toată lumea cu primul discurs de traducere API din lume
Astăzi, am lansat o nouă versiune a API Microsoft Translator care adaugă capacități de traducere vorbire în timp real (și vorbire în text) la API-ul de traducere text existent. Powered by Microsoft de stat-of-the-art tehnologii de inteligență artificială, această capacitate a fost disponibil pentru milioane de utilizatori de Skype timp de peste un an, și de a iOS Şi Android utilizatorii Microsoft Translator Apps de la sfârșitul anului 2015. Acum, firmele vor putea să adauge aceste capacități de traducere vocală aplicațiilor sau serviciilor lor și să ofere clienților și personalului lor experiențe de utilizare mai naturale și mai eficiente.
Traducerea vorbirii este disponibila pentru opt limbi — Arabă, Chineză mandarină, engleză, franceză, germană, italiană, portugheză și spaniolă. Traducerea în text este disponibilă în toate Microsoft Translator ' s 50 + limbi suportate. Traducerea audio vorbită este disponibilă în 18 limbi acceptate.
Această nouă versiune de Microsoft Translator este primul capăt-to-end soluție de traducere vorbire optimizat pentru conversații din viața reală (vs simplu umane la comenzi de mașini) disponibile pe piață. Înainte de astăzi, soluțiile de traducere a vorbirii trebuiau să fie pietruite împreună dintr-un număr de API-uri diferite (recunoașterea vorbirii, Traducerea și sinteza vorbirii), nu au fost optimizate pentru vorbirea conversațională sau concepute pentru a lucra între ele. Acum, utilizatorii finali și întreprinderile deopotrivă pot elimina barierele lingvistice cu integrarea traducerii vorbirii în aplicațiile și serviciile lor familiare.
poate afacerea mea să folosească tehnologia de traducere vocală?
Traducerea vorbirii poate fi utilizata intr-o varietate de scenarii de la persoana la persoana, grup sau om la masina. Scenariile de la persoană la persoană pot include traducerea într-o singură direcție, ar fi traducerea personală, subtitsarea sau comunicațiile multilingv la distanță sau în persoană similare cu cele găsite în prezent în Skype Translator sau în aplicațiile Microsoft Translator pentru iOS și Android. Scenarii de grup ar putea include prezentări în timp real, ar fi keynotes eveniment, webcast și clasele universitare, sau adunări, ar fi în-întâlniri persoană sau chat-uri de jocuri online. Scenarii om-la-Machine ar putea include scenarii de Business Intelligence (cum ar fi analiza sau jurnalele de apeluri client) sau interacțiuni AI.
Suntem doar incepand de la zero suprafata de scenarii în cazul în care această tehnologie va ajuta și, așa este învățarea de mașini bazate pe, calitatea acesteia și, prin urmare, aplicabilitatea se va îmbunătăți cu timpul ca mai multe persoane și companii sunt folosind-o.
Mai multe companii partenere au testat API-ul și l-au integrat în propriile aplicații:
- Tele 2 din Suedia, un operator de telefonie mobilă de frunte, cu mai mult de 15.000.000 de abonați în peste 15 țări, traducător integrat în PBX lor pentru a sprijini traduceri apeluri telefonice în timp real (nici o aplicație necesară!) pe rețeaua lor celulară.
- LionBridge (Boston, MA), un furnizor de servicii lingvistice și Gold level Translator partener, a dezvoltat o soluție integrată de subtitrare video.
- ProDeaf, un furnizor de cerere specializata in dezvoltarea de tehnologii pentru a sprijini hard-de-auz și surd comunități, integrate API nou în lor semn limbaj avatar App pentru a permite multi-lingual suport de vorbire pentru a semna scenarii.
funcționează Traducerea vorbirii?
Traducerea vorbirii în vorbire este o provocare foarte complexă. Utilizează cele mai recente tehnologii AI, ar fi rețelele neuronale profunde pentru recunoașterea vorbirii și Traducerea textului. Nu există nici o altă soluție complet integrată de traducere vocală disponibilă pe piață astăzi și oferind o platformă care ar sprijini scenarii de traducere vorbire reală necesare mergând dincolo de simpla coasere împreună recunoașterea vorbirii existente și tehnologii de traducere a textului. Există patru etape pentru traducerea vorbirii pentru a putea livra această experiență:
- Recunoașterea automată a vorbirii (ASR) — O rețea neuronală profundă instruită pe mii de ore de audio analizează discursul de intrare. Acest model este instruit pe interacțiunile umane-la-umane, mai degrabă decât de la om la mașină comenzi, producătoare de recunoaștere a vorbirii, care este optimizat pentru conversații normale.
- TextAdevărat O inovație Microsoft Research, TrueText ia textul literal și îl transformă pentru a reflecta mai îndeaproape intenția utilizatorului. Acesta realizează acest lucru prin eliminarea disfluențe discurs, ar fi um și Ah, precum și poticneste și repetitii. Textul este, de asemenea, făcut mai lizibil și traductibile prin adăugarea de pauze de teză, punctuație corespunzătoare, și capitalizare. (Vezi imaginea de mai jos)
- Traducere Textul este tradus în oricare dintre cele 50 de limbi acceptate de Microsoft Translator. Cele opt limbi vorbite au fost optimizate în continuare pentru conversații prin instruirea pe milioane de cuvinte de date conversaționale folosind rețele neuronale profunde alimentat modele lingvistice.
- Text în vorbire — Dacă limba țintă este una dintre cele optsprezece limbi de vorbire acceptate, textul este convertit în ieșire vorbire utilizând sinteza vorbirii. Această etapă este omisă în scenarii de traducere vorbire-la-text, ar fi Subtitling video.
pot începe?
Este ușor să începeți cu noul API pentru vorbire Microsoft Translator. Un proces gratuit de 10 ore este disponibil la aka.ms/TranslatorADMSpeech. Puteți testa configurarea și punerea în aplicare într-un mediu virtual, precum și citiți documentația API pe noul nostru Pagina lui Swagger. De asemenea, puteți găsi aplicații de exemplu și alte informații utile Github.
Desigur, dacă aveți întrebări, probleme, sau feedback-ul, ne-ar plăcea să-l aud! Puteți să ne anunțați pe feedback-ul și Forumul de sprijin.
Aflați Mai Multe