תרגום מכונה
מהי תרגום מכונה?
מערכות תרגום מכונה הן יישומים או שירותים מקוונים המשתמשים בטכנולוגיות לימוד מחשב כדי לתרגם כמויות גדולות של טקסט מכל השפות הנתמכות שלהם. השירות מתרגם טקסט "מקור" משפה אחת לשפת "יעד" אחרת.
למרות שהמושגים העומדים מאחורי טכנולוגיית תרגום המכונה והממשקים המשתמשים בה הם פשוטים יחסית, המדע והטכנולוגיות שמאחוריו מורכבים מאוד ומביאים יחדיו מספר טכנולוגיות מובילות, בפרט, למידה עמוקה ( אינטליגנציה מלאכותית), נתונים גדולים, בלשנות, מחשוב ענן וממשקי api של אינטרנט.
מאז 2010s המוקדמות, טכנולוגיית אינטליגנציה מלאכותית חדשה, רשתות עצביות עמוקות (aka למידה עמוקה), אפשרה לטכנולוגיה של זיהוי דיבור כדי להגיע לרמת איכות שאפשרה לצוות מתרגם Microsoft לשלב זיהוי דיבור עם ה טכנולוגיית תרגום טקסט ליבה כדי להשיק טכנולוגיית תרגום דיבור חדש.
מבחינה היסטורית, טכניקת הלמידה הראשונית של המכונה המשמשת בענף הייתה תרגום מכונה סטטיסטית (SMT). SMT משתמש בניתוח סטטיסטי מתקדם כדי להעריך את התרגומים האפשריים הטובים ביותר עבור מילה בהתחשב בהקשר של מספר מילים. השימוש ב-SMT שימש מאז אמצע שנות האלפיים על ידי כל ספקי שירותי התרגום המרכזיים, כולל מיקרוסופט.
הופעתו של התרגום מכונת עצבית (NMT) גרם שינוי רדיקלי בטכנולוגיית התרגום, וכתוצאה מכך תרגומים באיכות גבוהה יותר. טכנולוגיית תרגום זו החלה לפרוס עבור משתמשים ומפתחים ב חלק אחרון של 2016.
לטכנולוגיות התרגום של SMT ו-NMT יש שני רכיבים משותפים:
- שניהם דורשים כמויות גדולות של תוכן מתורגם לפני האדם (עד מיליוני משפטים מתורגמים) כדי להכשיר את המערכות.
- לא לפעול כמילונים דו-לשוניים, תרגום מילים המבוססות על רשימה של תרגומים פוטנציאליים, אלא מתרגמים בהתאם להקשר של המילה המשמשת במשפט.
מהו מתרגם?
שירותי מתרגם ודיבור, חלק מ שירותים קוגניטיביים אוסף של APIs, הם שירותי תרגום מכונה מ-Microsoft.
תרגום טקסט
מתרגם נמצא בשימוש על-ידי קבוצות Microsoft מאז 2007 והוא זמין כ- API עבור לקוחות מאז 2011. מתרגם נמצא בשימוש נרחב בתוך Microsoft. הוא משולב בצוותי לוקליזציה, תמיכה ותקשורת מקוונת של מוצרים. אותו שירות נגיש גם, ללא עלות נוספת, מתוך מוצרים מוכרים של מיקרוסופט כגון בינג, קורטנה, מיקרוסופט אדג ', Office, SharePoint, סקייפו קטרת.
ניתן להשתמש במתרגם ביישומי אינטרנט או לקוח בכל פלטפורמת חומרה ובכל מערכת הפעלה לביצוע תרגום שפה ופעולות אחרות הקשורות לשפה, כגון זיהוי שפה, טקסט לדיבור או מילון.
מינוף הטכנולוגיה הסטנדרטית של התעשייה, המפתח שולח טקסט מקור (או שמע עבור תרגום דיבור) לשירות עם פרמטר המציין את שפת היעד, והשירות שולח בחזרה את הטקסט המתורגם עבור הלקוח או יישום האינטרנט להשתמש.
שירות המתרגם הינו שירות "תכלת" המתארח במרכזי הנתונים של Microsoft ומציע יתרונות מהאבטחה, המדרגיות, המהימנות והזמינות ללא הפסקה ששירותי הענן של מיקרוסופט מקבלים גם הם.
תרגום דיבור
טכנולוגיית תרגום דיבור מתרגם הושקה בסוף 2014 החל מ- Skype Translator, והיא זמינה כ- API פתוח ללקוחות מאז תחילת 2016. הוא משולב בתכונה החיה של Microsoft Translator, בסקייפ, בשידור פגישת Skype ובאפליקציות Microsoft Translator עבור Android ו- iOS.
תרגום דיבור זמין כעת באמצעות דיבור של Microsoft, קבוצה מקצה לקצה של שירותים הניתנים להתאמה אישית מלאה עבור זיהוי דיבור, תרגום דיבור וסינתזה של דיבור (טקסט לדיבור).
כיצד פועלת תרגום טקסט?
קיימות שתי טכנולוגיות עיקריות המשמשות לתרגום טקסט: המורשת הראשונה, תרגום מכונה סטטיסטית (SMT), והדור החדש יותר, תרגום מכונה עצבית (NMT).
תרגום מכונה סטטיסטית
היישום של תרגום מכונה סטטיסטית (SMT) בנוי על יותר מעשור של מחקר בשפה טבעית ב-Microsoft. במקום לכתוב כללים הנמצאים בעבודת יד כדי לתרגם בין שפות, מערכות תרגום מודרניות לתרגום גישה כבעיה של לימוד טרנספורמציה של טקסט בין שפות מתרגומים אנושיים קיימים ומינוף ההתקדמות האחרונה בסטטיסטיקה שימושית ובלמידה ממוחשבת.
כביכול "קורקורא" משמש כאבן רוזטה מודרנית בפרופורציות מסיבית, מתן מילים, ביטוי, תרגום בהקשר של זוגות שפות ותחומים רבים. טכניקות מידול סטטיסטי ואלגוריתמים יעילים מסייעים למחשב לטפל בבעיית הפענוח (זיהוי התכתבויות בין שפת המקור והיעד בנתוני ההדרכה) ופענוח (מציאת התרגום הטוב ביותר של משפט קלט חדש). המתרגם מאחד את כוחה של שיטות סטטיסטיות עם מידע לשוני להפקת דגמים הכוללים הכללה טובה יותר ומוביל לתרגומים מובנים יותר.
בשל גישה זו, שאינה נשענת על מילונים או על כללי דקדוק, היא מספקת את התרגומים הטובים ביותר של ביטויים שבהם היא יכולה להשתמש בהקשר סביב מילה נתונה לעומת מנסה לבצע תרגומי מילים בודדות. לתרגום מילים בודדות, המילון הדו-לשוני פותח ונגיש באמצעות www.bing.com/translator.
תרגום מכונה עצבית
שיפורים מתמשכים בתרגום חשובים. עם זאת, שיפורים בביצועים יש plateaued עם טכנולוגיית SMT מאז אמצע 2010s. על-ידי מינוף קנה המידה והעוצמה של מחשב העל AI של Microsoft, במיוחד ערכת הכלים הקוגניטיבית של Microsoft, מתרגם מציע כעת רשת עצבית (מיכל הלסטי) תרגום המאפשר לעשור חדש של שיפור איכות התרגום.
דגמי רשת עצביים אלה זמינים עבור כל שפות הדיבור באמצעות שירות דיבור בתכלת ובאמצעות ה-API של הטקסט באמצעות מזהה הקטגוריה ' כלnn '.
תרגומי הרשת העצבית שונה ביסודה באופן שבו הם מתבצעים בהשוואה לאלה של ה-SMT המסורתיים.
ההנפשה הבאה מתארת את השלבים השונים תרגומים רשת עצבית לעבור כדי לתרגם משפט. בגלל גישה זו, התרגום ייקח ההקשר את המשפט המלא, לעומת רק כמה מילים הזזה חלון כי טכנולוגיית SMT משתמשת ויפיק יותר נוזלים והאדם מתורגם התרגומים מחפש.
בהתבסס על ההכשרה ברשת העצבית, כל מילה מוצפנת לאורך וקטור מ500 מידות (a) המייצג את מאפייניו הייחודיים בתוך זוג שפות מסוים (למשל אנגלית וסינית). בהתבסס על צמדי השפה המשמשים להכשרה, הרשת העצבית תגדיר בעצמה את מה שממדים אלה צריכים להיות. הם יכולים לקודד מושגים פשוטים כמו מין (נשי, גברי, נייטרלי), רמת הנימוס (סלנג, מזדמן, כתוב, רשמי, וכו '), סוג של מילה (פועל, שם עצם, וכו '), אלא גם כל מאפיינים לא ברורים אחרים כפי שנגזר נתוני ההדרכה.
להלן השלבים הבאים של תרגומים לרשת עצבית:
- כל מילה, או יותר במיוחד את וקטור 500-dimension המייצג אותו, עובר בשכבה הראשונה של "נוירונים" אשר לקודד אותו בווקטור 1000-dimension (ב) המייצג את המילה בתוך ההקשר של המילים האחרות במשפט.
- לאחר כל המילים כבר מקודד פעם אחת לתוך אלה 1000-מימד וקטורים, התהליך חוזר על עצמו מספר פעמים, כל שכבה המאפשרת כוונון טוב יותר של התצוגה 1000-dimension של המילה בתוך ההקשר של המשפט המלא (בניגוד SMT טכנולוגיה שיכולה לקחת בחשבון רק 3 עד 5 מילים החלון)
- מטריצת הפלט הסופית משמשת לאחר מכן על ידי שכבת תשומת הלב (כלומר אלגוריתם תוכנה) כי ישתמשו הן מטריצה זו הפלט הסופי ואת הפלט של מילים שתורגמו בעבר כדי להגדיר איזו מילה, מן המשפט המקור, צריך להיות מתורגם הבא. הוא גם ישתמש בחישובים אלה כדי לשחרר מילים מיותרות בשפת היעד.
- שכבת המפענח (תרגום), מתרגמת את המילה הנבחרת (או ליתר דיוק את הווקטור 1000-dimension המייצג מילה זו בתוך ההקשר של המשפט המלא) בשפת היעד המתאימה ביותר שלה. הפלט של השכבה האחרונה (c) הוא הוזן לאחר מכן לתוך שכבת תשומת לב כדי לחשב איזו המילה הבאה מן המשפט המקור צריך להיות מתורגם.
בדוגמה המתוארת בהנפשה, מודל 1000-dimension המודע להקשר של "את"יהיה לקודד את שם העצם (בית) היא מילה נשית בצרפתית (מלון הייזון). זה יאפשר את התרגום המתאים ל "את"להיות"la"ולא"le"(יחיד, זכר) או"les"(ברבים) ברגע שהוא מגיע לשכבת המפענח (תרגום).
אלגוריתם תשומת הלב יהיה גם לחשב, בהתבסס על המילה (עם) שתורגם בעבר (במקרה זה "את"), כי המילה הבאה להיות מתורגם צריך להיות הנושא ("בית") ולא תואר השם ("כחול"). באפשרותך להשיג זאת מכיוון שהמערכת למדה שאנגלית וצרפתית מהיפוך את סדר המילים במשפטים. זה גם היה מחושב שאם התואר היה להיותגדול"במקום צבע, זה לא צריך להפוך אותם ("הבית הגדול"= >"la grande maison").
תודות גישה זו, הפלט הסופי הוא, ברוב המקרים, יותר רהוטה וקרוב יותר לתרגום אנושי מאשר התרגום מבוסס SMT היה יכול להיות אי פעם.
כיצד פועלת תרגום דיבור?
מתרגם מסוגל גם לתרגם את הדיבור. טכנולוגיה זו נחשפת בתכונת מתרגם חי (http://translate.it), אפליקציות מתרגם, מתרגם סקייפ והוא גם הזמין בתחילה רק באמצעות התכונה סקייפ מתרגם וביישומים מתרגם של Microsoft ב-iOS ו-Android, פונקציונליות זו זמינה כעת למפתחים עם הגירסה העדכנית ביותר של ה API מבוסס-יתר זמין בפורטל התכלת.
למרות שזה עשוי להיראות כמו תהליך ישר קדימה במבט ראשון לבנות טכנולוגיה תרגום דיבור מלבנים טכנולוגיה קיימים, זה דרש הרבה יותר עבודה מאשר פשוט חיבור קיים "מסורתי" האדם למכונה זיהוי דיבור מנוע לתרגום טקסט קיים 1.
כדי לתרגם כראוי את נאום "המקור" משפה אחת לשפת "יעד" אחרת, המערכת עוברת תהליך של ארבעה שלבים.
- זיהוי דיבור, כדי להמיר שמע לטקסט
- TrueText: טכנולוגיית Microsoft המתרכזת את הטקסט כדי להפוך אותה למתאימה יותר לתרגום
- תרגום באמצעות מנוע תרגום טקסט המתואר לעיל אבל על מודלים תרגום שפותחו במיוחד עבור שיחות מדוברות החיים האמיתיים
- טקסט לדיבור, בעת הצורך, כדי להפיק את האודיו המתורגם.
זיהוי דיבור אוטומטי (ASR)
' זיהוי דיבור אוטומטי ' (ASR) מבוצע באמצעות מערכת רשת עצבית (NN) המתמחה בניתוח אלפי שעות של דיבור שמע נכנס. מודל זה מאומן על האינטראקציות של האדם לאדם במקום פקודות של אדם למכונה, הפקת זיהוי דיבור הממוטב לשיחות רגילות. כדי להשיג זאת, נחוצה הרבה יותר נתונים, כמו גם DNN גדול יותר מאשר המסורתי של האדם למכונה ASRs.
למד עוד אודות הדיבור של מיקרוסופט לשירותי טקסט.
TrueText
כאשר בני האדם משוחחים עם בני אדם אחרים, אנחנו לא מדברים בצורה מושלמת, ברור או מסודר כפי שאנו חושבים לעיתים קרובות. באמצעות הטכנולוגיה TrueText, הטקסט הליטרלי משתנה ליותר באופן הדוק יותר בהתאם ליעד המשתמש על-ידי הסרת השהיות דיבור (מילות מילוי), כגון "um" s, "אה" s, "ו-" s, "כמו" s, מילים, וחזרות. כמו כן, הטקסט נעשה קריא יותר וניתן לתרגום על-ידי הוספת מעברי משפט, סימני פיסוק נכונים ורישיות. כדי להשיג תוצאות אלה, השתמשנו בעשורים של עבודה על טכנולוגיות שפה, פיתחנו ממתרגם כדי ליצור TrueText. הדיאגרמה הבאה מתארת, באמצעות דוגמה של חיים אמיתיים, שינוי הצורה השונים TrueText פועל לנרמול טקסט מילולי זה.
תרגום
הטקסט יתורגם לאחד ה שפות וניבים נתמכת על ידי מתרגם.
תרגומים באמצעות תרגום הדיבור API (כמפתח) או ביישום תרגום דיבור או שירות, מופעל עם התרגומים החדשים ביותר המבוססים על רשת עצבית עבור כל השפות הנתמכות של קלט דיבור (ראה כאן עבור הרשימה המלאה). מודלים אלה נבנו גם על ידי הרחבת הנוכחי, בעיקר בכתב טקסט התרגום מודלים, עם הנושא יותר הטקסט מדוברת כדי לבנות מודל טוב יותר עבור סוגי שיחה מדוברת של תרגומים. מודלים אלה זמינים גם דרך ה קטגוריית התקן "דיבור" של ה-API המסורתי של תרגום טקסט.
עבור כל שפות שאינן נתמכות על-ידי תרגום עצבי, תרגום SMT מסורתי מבוצע.
טקסט לדיבור
אם שפת היעד היא אחד מתוך 18 הטקסטים הנתמכים של טקסט לדיבור שפות, ומקרה השימוש דורש פלט שמע, הטקסט מומר לאחר מכן לפלט דיבור באמצעות סינתזה דיבור. שלב זה מושמט בתרחישי תרגום דיבור-לטקסט.
למד עוד אודות שירותי הטקסט לדיבור של Microsoft.
חקר
הצגת מסמכי המחקר העדכניים ביותר מצוות המתרגם של Microsoft.