Microsoft Translator przynosi end-to-end Tłumaczenie mowy dla wszystkich z pierwszego na świecie Speech translation API

Opublikowano w dniu 30 marca 2016przez Microsoft Translator

Dzisiaj Wydaliśmy nową wersję Interfejs API Microsoft Translator , która dodaje funkcje translacji mowy na mowę w czasie rzeczywistym (i mowy na tekst) do istniejącego interfejsu API translacji tekstu. Dzięki najnowocześniej technologiom sztucznej inteligencji firmy Microsoft ta możliwość jest dostępna dla milionów użytkowników Skype przez ponad rok, a także iOS I Android użytkowników aplikacji Microsoft Translator od późnego 2015. Teraz, firmy będą mogli dodać te możliwości tłumaczenia mowy do swoich aplikacji lub usług i oferują bardziej naturalne i efektywne doświadczenia użytkowników dla swoich klientów i pracowników.

Tłumaczenie mowy jest dostępne w ośmiu językach — Arabski, Chiński mandaryński, angielski, francuski, niemiecki, włoski, portugalski i hiszpański. Tłumaczenie na tekst jest dostępna we wszystkich Microsoft Translator 50 + obsługiwanych języków. Tłumaczenie na mówione audio jest dostępne w 18 obsługiwanych językach.

Ta nowa wersja Microsoft Translator jest pierwszym End-to-end Tłumaczenie mowy rozwiązanie zoptymalizowane pod kątem rzeczywistych rozmów (vs prostych poleceń człowieka do maszyny) dostępnych na rynku. Przed dniem dzisiejszym, rozwiązania tłumaczenia mowy musiały być brukowane razem z wielu różnych interfejsów API (rozpoznawanie mowy, tłumaczenie i synteza mowy), nie zostały zoptymalizowane dla konwersacji mowy lub zaprojektowane do współpracy ze sobą. Teraz zarówno użytkownicy końcowi, jak i firmy mogą usuwać bariery językowe z integracją tłumaczenia mowy w swoich znanych aplikacjach i usługach.

Jak moja firma może korzystać z technologii tłumaczenia mowy?

Tłumaczenie mowy może być używane w różnych scenariuszach od osoby do osoby, grupy lub od człowieka do maszyny. Scenariusze indywidualne mogą obejmować tłumaczenie jednokierunkowe, takie jak osobiste tłumaczenie, napisy lub zdalna lub w osobie wielojęzyczna komunikacja podobna do aktualnie znalezionej w usłudze Skype Translator lub aplikacji Microsoft Translator dla systemu iOS i Android. Scenariusze grupowe mogą obejmować prezentacje w czasie rzeczywistym, takie jak keynotes zdarzeń, webcasty i klasy uniwersytecki, lub spotkania, takie jak spotkanie osób lub czatów gier online. Scenariusze między człowiekiem a maszyną mogą obejmować scenariusze analizy biznesowej (takie jak analiza lub Dzienniki wywołań klientów) lub interakcje SZTUCZNEJ inteligencji.

Dopiero zaczynasz zarysować powierzchnię scenariuszy, w których ta technologia pomoże i, jak to jest uczenie maszynowe oparte, jego jakość i dlatego zastosowanie poprawi się z czasem, ponieważ więcej osób i firm używa go.

Kilka firm partnerskich przetestowała interfejs API i zintegrował ją z własnymi aplikacjami:

Teleobiektyw 2 Szwecji, wiodący operator telefonii komórkowej z ponad 15 000 000 abonentów w ponad 15 krajach, zintegrowany translator do centrali PBX do obsługi rozmów telefonicznych w czasie rzeczywistym tłumaczenia (nie wymaga aplikacji!) w sieci komórkowej.
Lionbridge (Boston, MA), dostawcą usług językowych i partnerem Gold Level translator, opracował zintegrowane rozwiązanie do tworzenia napisów wideo.
W: ProDeaf, sprzedawca aplikacji specjalizujących się w opracowywaniu technologii wspierających ciężko słyszących i głuchych społeczności, zintegrowany nowy interfejs API w ich aplikacji język migowy awatara, aby umożliwić Wielojęzyczne wsparcie mowy do podpisania scenariuszy.

Jak działa Tłumaczenie mowy?

Tłumaczenie mowy na mowę jest bardzo złożonym wyzwaniem. Wykorzystuje najnowsze technologie SZTUCZNEJ inteligencji, takie jak głębokie sieci neuronowe do rozpoznawania mowy i tłumaczenia tekstu. Nie ma innego w pełni zintegrowanego rozwiązania tłumaczeniowego mowy dostępnego obecnie na rynku i dostarczającego platformę, która mogłaby wspierać rzeczywiste scenariusze translacji mowy, wykraczające poza zwykłe łączenie istniejących funkcji rozpoznawania mowy i technologii tłumaczenia tekstu. Istnieją cztery etapy tłumaczenia mowy, aby móc dostarczyć to doświadczenie:

Automatyczne rozpoznawanie mowy (ASR) — Głęboka sieć neuronowa przeszkolona w tysiącach godzin audio analizuje przychodzącą mowę. Ten model jest przeszkolony w zakresie interakcji człowieka z człowiekiem, a nie poleceń człowieka do komputera, produkujących rozpoznawanie mowy, który jest zoptymalizowany pod kątem normalnych rozmów.
TrueText — Innowacje Microsoft Research, TrueText przyjmuje tekst dosłowny i przekształca go bardziej odzwierciedlają intencji użytkownika. Osiąga to poprzez usuwanie disfluencies mowy, takich jak "UM" s i "Ah" s, jak również zacina i powtórzeń. Tekst jest również bardziej czytelny i możliwy do przetłumaczenia przez dodanie przerw zdań, odpowiedniej interpunkcji i wielkości liter. (patrz rysunek poniżej)
Tłumacz Tekst jest tłumaczony na dowolny z ponad 50 języków obsługiwanych przez Microsoft Translator. Osiem języków mowy zostały zoptymalizowane do rozmów przez szkolenia na miliony słów danych konwersacyjnych przy użyciu głębokich sieci neuronowych zasilany modeli językowych.
Tekst na mowę — Jeśli język docelowy jest jednym z osiemnastu języków mowy obsługiwane, tekst jest konwertowany na mowę danych wyjściowych za pomocą syntezy mowy. Ten etap jest pomijany w scenariuszach translacji mowy na tekst, takich jak napisy wideo.

Jak zacząć?

Łatwo rozpocząć pracę z nowym interfejsem Microsoft Translator Speech API. Bezpłatny 10-godzinny okres próbny jest dostępny na aka.ms/TranslatorADMSpeech. Możesz przetestować konfigurację i implementację w środowisku wirtualnym, a także zapoznać się z dokumentacją API na naszej nowej Strona Swagger. Można również znaleźć przykładowe aplikacje i inne przydatne informacje na Github.

Oczywiście, jeśli masz pytania, problemy lub opinie, chcielibyśmy usłyszeć! Możesz dać nam znać na naszej informacje zwrotne i forum pomocy technicznej.

Dowiedz się więcej

Blog Microsoft Translator

Jak moja firma może korzystać z technologii tłumaczenia mowy?

Jak działa Tłumaczenie mowy?

Jak zacząć?