De vertaler van Microsoft brengt eind-aan-eind toespraak vertaling aan iedereen met de eerste API van de toespraak vertaling van de wereld
Vandaag brachten we een nieuwe versie van Microsoft Translator API dat voegt real-time toespraak-aan-toespraak (en toespraak aan tekst) vertaalmogelijkheden aan de bestaande API van de tekstvertaling toe. Powered by Microsoft's State-of-the-art kunstmatige intelligentie technologieën, is deze mogelijkheid beschikbaar is voor miljoenen gebruikers van Skype meer dan een jaar, en om iOS En Androïde gebruikers van de Microsoft Translator apps sinds eind 2015. Nu, zullen de ondernemingen deze toespraak vertaalmogelijkheden aan hun toepassingen of diensten kunnen toevoegen en meer natuurlijke en efficiënte gebruikerservaringen aan hun klanten en personeel aanbieden.
Spraak vertaling is beschikbaar voor acht talen — Arabisch, Chinees Mandarijn, Engels, Frans, Duits, Italiaans, Portugees en Spaans. Vertaling naar tekst is beschikbaar in alle Microsoft Translator 50 + ondersteunde talen. Vertaling naar gesproken audio is beschikbaar in 18 ondersteunde talen.
Deze nieuwe versie van Microsoft Translator is de eerste end-to-end spraak vertaling oplossing geoptimaliseerd voor Real-Life gesprekken (VS. eenvoudige mens tot machine commando's) beschikbaar op de markt. Vóór vandaag, waren de oplossingen van de toespraak vertaling die samen van een aantal verschillende APIs (toespraakerkenning, vertaling, en toespraaksynthese) moeten worden geplaveid, niet geoptimaliseerd voor conversationele toespraak of ontworpen om met elkaar te werken. Nu, kunnen de eindgebruikers en de ondernemingen zowel taalbarrières met de integratie van toespraak vertaling in hun vertrouwde apps en diensten verwijderen.
Hoe kan mijn bedrijf gebruik maken van spraak vertaaltechnologie?
Spraak vertaling kan worden gebruikt in een verscheidenheid van persoon-tot-persoon, groep of mens-naar-machine scenario's. Persoon-tot-persoon-scenario's kunnen bestaan uit One-Way vertaling, zoals persoonlijke vertaling, ondertiteling, of externe of in-persoon meertalige communicatie vergelijkbaar met wat er momenteel gevonden in Skype Translator of de Microsoft Translator apps voor iOS en Android. Groeps scenario's kunnen bestaan uit real-time presentaties zoals gebeurtenis-en webcasts en universiteits klassen, of bijeenkomsten zoals in-persoons vergaderingen of online gaming chatrooms. Scenario's van mens tot machine kunnen Business Intelligence-scenario's bevatten (zoals Logboeken voor analyse of klant oproepen) of AI-interacties.
We zijn net beginnen te krabben het oppervlak van de scenario's waar deze technologie zal helpen en, zoals het is machine leren gebaseerd, de kwaliteit ervan en dus toepasbaarheid zal verbeteren met de tijd als meer mensen en bedrijven gebruiken.
Verschillende partnerbedrijven hebben de API getest en geïntegreerd in hun eigen apps:
- Tele 2 van Zweden, een toonaangevende mobiele operator met meer dan 15.000.000 abonnees in meer dan 15 landen, geïntegreerde vertaler in hun PBX ter ondersteuning van real-time telefoongesprekken vertalingen (geen app nodig!) op hun cellulaire netwerk.
- Lionbridge (Boston, MA), een language serviceprovider en Gold Level Translator partner, ontwikkelde een geïntegreerde video ondertiteling oplossing.
- ProDoof, een applicatie leverancier gespecialiseerd in het ontwikkelen van technologieën ter ondersteuning van de hard-of-hearing en dove Gemeenschappen, integreerde de nieuwe API in hun gebarentaal avatar app om meertalige ondersteuning van spraak om scenario's te ondertekenen mogelijk te maken.
Hoe werkt spraak vertaling?
Spraak-naar-spraak vertaling is een zeer complexe uitdaging. Het maakt gebruik van de nieuwste AI-technologieën, zoals diepe neurale netwerken voor spraakherkenning en tekstvertaling. Er is geen andere volledig geïntegreerde speech vertaling oplossing beschikbaar op de markt van vandaag en het leveren van een platform dat zou ondersteunen Real-Life spraak vertaling scenario's vereist verder gaan dan gewoon stikken samen bestaande spraakherkenning en tekst Vertaal technologieën. Er zijn vier stadia aan toespraak vertaling om deze ervaring te kunnen leveren:
- Automatische spraakherkenning (ASR) — Een diep neuraal netwerk dat op duizenden uren van audio wordt opgeleid analyseert inkomende toespraak. Dit model is getraind op mens-op-mens interacties in plaats van mens-naar-machine commando's, het produceren van spraakherkenning die is geoptimaliseerd voor normale gesprekken.
- TrueText — Een Microsoft onderzoek innovatie, TrueText neemt de letterlijke tekst en transformeert het naar meer nauw weerspiegelen gebruikers intentie. Het haalt dit door het verwijderen van spraak disfluencies, zoals "um" s en "ah" s, evenals stottert en herhalingen. De tekst wordt ook leesbaarder en vertaalbaar gemaakt door zin pauzes, goede interpunctie en kapitalisatie toe te voegen. (zie foto hieronder)
- Vertaling De tekst is vertaald in een van de 50 + talen ondersteund door Microsoft Translator. De acht spraak talen zijn verder geoptimaliseerd voor gesprekken door de opleiding op miljoenen woorden van conversatie gegevens met behulp van diepe neurale netwerken aangedreven taalmodellen.
- Tekst naar spraak — Als de doeltaal een van de achttien ondersteunde spraak talen is, wordt de tekst omgezet in spraakuitvoer met spraaksynthese. Deze fase wordt weggelaten in spraak-naar-tekstvertaling scenario's zoals video ondertiteling.
Hoe kom ik aan de slag?
Het is gemakkelijk aan de slag met de nieuwe Microsoft Translator Speech API. Een gratis proefperiode van 10 uur is beschikbaar op aka.ms/TranslatorADMSpeech. U het testen van Setup en implementatie in een virtuele omgeving en lees de API-documentatie op onze nieuwe De pagina van branie. U ook vinden voorbeeld apps en andere nuttige informatie over GitHub.
Natuurlijk, als je vragen hebt, problemen, of feedback, zouden we graag horen! U ons laten weten op onze feedback en support forum.
Meer informatie