Azure AI Потребителски преводач Невронен речник: Осигуряване на по-високо качество на терминологичния превод
Днес сме изключително развълнувани да обявим пускането на невронен речник - значително подобрение на качеството на превода в нашата платформа. В тази публикация в блога ще разгледаме функцията невронен речник.
Въведение
Невронният речник е разширение на нашия динамичен речник И речник на фразите функции в Azure AI Translator. И двете позволяват на нашите потребители да персонализират резултатите от превода, като предоставят свои собствени преводи за конкретни термини или фрази. Предишният ни метод използваше дословен речник, който представляваше операция за точно намиране и заместване. Невронният речник подобрява качеството на превода за изречения, които могат да включват превод на един или повече термини, като позволява на модела за машинен превод да коригира както термина, така и контекста, за да се получи по-плавен превод. В същото време той запазва високата точност на превода на термините.
Следващият пример от английски и немски език демонстрира разликите в резултатите от превода между двата метода, когато е поискан превод на потребителска терминология:
Въвеждане: | Basic Knowledge of <mstrans:dictionary translation=”regelmäßiges Testen”>Periodic Maintenance</mstrans:dictionary> |
Речник на Verbatim: | Grundkenntnisse der regelmäßigEs Тестen |
Невронен речник: | Grundkenntnisse des regelmäßigen Тестens |
Подобряване на качеството
Графиката по-долу илюстрира значителните подобрения, които новата функция внася в често срещани публично достъпни набори от терминологични тестове в автомобилната индустрия (https://aclanthology.org/2021.eacl-main.271), здравеопазване (https://aclanthology.org/2021.emnlp-main.477) и домейни на Covid-19 (https://aclanthology.org/2021.wmt-1.69), използвайки нашите общи модели за превод.
Също така проведохме серия от клиентски оценки на платформата Custom Translator и моделите на невронните речници. Измерихме повишаването на качеството на превода на клиентски данни между моделите със и без разширението на невронния речник. Участваха петима клиенти, обхващащи немски, испански и френски език в различни бизнес области.
Графиката по-долу показва средното подобрение на COMET в областта на образованието за английско-немски, английско-испански и английско-френски език; за общи модели вляво и за персонализирани модели вдясно. Сините цветни ленти представят общото качество на превода без невронен речник, а оранжевите - качеството на превода с използване на невронен речник. Това са общите средни подобрения за всички тестови набори. За сегменти, включващи един или повече записи от речника на клиента (между 19% и 63%), подобрението достига от +6,3 до +12,9 COMET точки.
Поддържани езици
- В момента е на разположение (към 6 декември 2023 г.): Опростен китайски, френски, немски, италиански, японски, корейски, полски, руски, испански и шведски - от и към английски език.
- В бъдеще ще добавим още. За актуализациите вижте Потребителски преводач бележки за освобождаване.
Как работи невронният речник
Невронният речник не използва точната операция "намери и замени" при обработката на персонализиран терминологичен превод. Вместо това той превежда термини или фрази от речника по начин, който най-добре отговаря на целия контекст. Това означава, че терминът може да бъде преиначен или да има различен корпус, или че околните думи могат да бъдат коригирани, което води до по-плавен и последователен превод.
Да кажем например, че имаме следното входно изречение на английски език и преводът му на полски език без речникови фрази е следният:
Въвеждане: | Нуждаем се от бързо решение, което да е разбираемо. |
Стандартен превод: | Potrzebujemy szybkiego rozwiązania, które będzie zrozumiałe. |
Ако искате да сте сигурни, че "solution" се превежда като "алтернатива" ("алтернатива" на английски език), можете да добавите динамична анотация на речника, за да постигнете това:
Въвеждане: | We need a fast <mstrans:dictionary translation=”алтернатива“>solution</mstrans:dictionary> that will be understandable. |
Речник на Verbatim: | Необходим е бърз достъпего алтернатива, który ще разберешy. |
Невронен речник: | Необходим е бърз достъпej алтернативаWy, którA ще разберешA. |
Резултатът, получен по предишния метод, не е плавен, тъй като се нарушава граматичната съгласуваност по род. Невронният речник произвежда плавен изход, като: а) прегласува исканата замяна и б) променя околните думи, където е необходимо. В някои случаи той може да промени и членуването, както е в следния пример:
Въвеждане: | This company’s <mstrans:dictionary translation=”акция“>stock</mstrans:dictionary> is cheap. |
Речник на Verbatim: | акция тази фирма е тани. |
Невронен речник: | Akcje тази фирма są таnie. |
Невронният речник очаква исканият превод на даден термин да бъде предоставен в основната му граматична форма. Поддържат се и термини с няколко думи, които трябва да се предоставят като съществителни имена, т.е. думите не трябва да се лематизират самостоятелно (например "Естонски парламентарни избори" ще бъде по-добре от "Естонски парламентарни избори").
Как да активирате невронния речник
За всички поддържани езици, изброени по-горе, невронният речник е незабавно достъпен за всички клиенти, използващи платформата Custom Translator с речници за фрази. За да се активира невронният речник, е необходимо пълно преквалифициране на потребителския модел (или само речник).
Препоръки
- Ако искате да гарантирате, че записът на фразеологичния речник ще се използва по-често при работа с невронен речник, можете да обмислите добавянето на записа на фразеологичния речник с изходната част в различни форми. В горния пример, до "решение _ алтернатива", може да искате да добавите и следните записи: "Solution _ алтернатива", "решения _ алтернативи", "Решения _ алтернативи".
- Ако целта е да се гарантира, че определена дума или фраза се копира "както е" от входния текст към изходния превод, когато се използва речник на фразите, помислете за прилагане на дословен речник, тъй като той може да бъде по-последователен.
- Избягвайте да добавяте преводи на често срещани думи или фрази в речника на фразите.
За да научите повече за Custom Translator и как може да помогне на вашия бизнес да процъфтява на глобалния пазар, започнете с Ръководство за начинаещи на потребителския преводач.
Какво можете да правите с Microsoft преводач по избор
Изграждане на персонализирани модели с терминология, специфична за вашия домейн, и превеждане в реално време с помощта на API за преводач на Microsoft.
Използвате Потребителски преводач на Microsoft с вашите решения за превод, за да помогнете за глобализирането на вашия бизнес и да подобрите взаимодействието с клиентите.
За повече информация посетете Бизнес решения на Microsoft Translator И Потребителски преводач бележки за освобождаване.