Тестване на качеството на превода: блог за гости
Ананд Чакраарти е SDET в екипа за машинен превод за последните 2,5 години, е бил в Microsoft в продължение на 8 години, и е първият тестер на продукти в екипа на MT (и "все още се забавляват с тестване MT 2 1"). Днешният блог за гости е за тестване на качеството на превода.
—————————————————————————————————————
Един от първите точки, който идва на ум, когато говорим за проверка на качеството на системата за превод, е как се измерва качеството, или да бъде точен, точността на превода? Превръщането между човешки езици с помощта на компютри е поле, което е почти половин век. Районът е достатъчно труден, че дори и най-достъпните в момента системи за машинен превод не са близо до получаването на езиково качество, което би било напълно задоволително.
Част от предизвикателството е много различни данни-точки, които хората обработват, за да се разбере значението на говор/писмен текст. Има синтаксис, разбор, семантика, контекст, статия, пренареждане, всички от които, и повече, отидете в разбирането на изречението. И това е само изречението на 1 език. Сега обмислете прилагането на всичко това, за да възстановите изречението на друг език и да го направите еднакво значим.
Някои примери могат да спомогнат тази точка да бъде по-ясна. Терминът "олимпийски игри 2008" е доста недвусмислен. По същия начин може да се очаква терминът "избори 2008" да означава президентските избори в САЩ. Въпреки това, ако потребителят е от, да речем, Канада, това по-вероятно ще се отнася до местните избори там.
Един по-общ и следователно по-общ пример е изречение като "бележката беше грешна". Има ли думата "бележка" препратка към информативно съобщение или музикален термин? Правилният превод зависи от контекста. Използвайте повече контекст и шансовете ви да получите по-точен превод се подобряват. Това обаче идва с цена: колкото повече контекст системата се опитва да получи, толкова по-бавно си изпълнение. Интелигентните решения за доставка включват постигане на правилния баланс между подобряване на точността на превода и предоставяне на функциониращ резултат от превода на потребителите. Разбира се, и двете са важни. Ключът е да разберете къде насочвате усилията си към подобрение в зависимост от това колко полезен е крайният резултат за потребителя.
Това става особено интересно при превода на документи или уеб страници, вместо само отделни изречения. Нека кажем, че е получено искане за превод за уеб страница, съдържаща 100 изречения. В зависимост от архитектурата на системата за превод, тези изречения могат да отидат на един процес или да бъдат разпространявани в множество процеси/машини. И в двата случая е ясно, че времето, необходимо за превръщането на тази страница в нейната цялост, е пропорционално на максималното време, предприето за превод на изречението. Колко дълго прекарваме превода на изречение, преди това, че инвестираното време става вредно за времето на потребителя? В резултат на най-добрия превод може да блокираме потребителя от получаване на информация в отговор на заявката им за превод. По този начин полезността на системата се урежда от решения, които са направени за балансиране на езиковото качество и изпълнението на приложенията.
С продукта на Microsoft преводач има допълнителна особеност на нашия двуезичен зрител, нещо уникално сред публично достъпните преводачески продукти. Той поддържа паралелно подчертаване на текста, синхронизирано превъртане и представя страницата (ите) с прогресивно рендиране. Това добавя още един слой към това, което нашите потребители виждат, и следователно друг слой да лак и завърши.
През идните седмици се надяваме да ви донесем повече подробности за определени области, които са били и са тествани за изпращане на висококачествена система за превод. Чувствайте се свободни да публикувате всички въпроси, които имате по този въпрос, нещо, което винаги е искал да поиска от мен, в секцията за коментари.