תרגום מכונה סטטיסטית – בלוג אורח (מעודכן בנייר נוסף)
וויל לואיס הוא מנהל תוכנית בצוות המתרגם של מיקרוסופט, העובד על איכות השפה ורכישת נתונים. היום הבלוג של האורח הוא הסבר ברמה גבוהה של איך המנוע עובד:
כפי שרבים מכם יודעים, מתחת למכסה המנוע Microsoft מתרגמת מופעלת על-ידי מנגנון תרגום מכונה סטטיסטית (SMT). מערכות סטטיסטיות הן שונות מאלה המבוססות על שלטון כי "הכללים" מיפוי מילים וביטויים משפה אחת למשנהו נלמדים על ידי המערכת במקום להיות מקודד ביד. הכשרת SMT דורשת צבירת כמות גדולה של נתוני הדרכה מקבילים-בתקווה לאיכות טובה וממקורות הטרוגנית-ולהכשרת המנוע בנתונים אלה. (במקביל, אנו מתכוונים למקור נתונים שבו התוכן עבור שפה אחת זהה לתוכן האחר.) המנגנון לומד את התכתבויות בין מילים וביטויים בשפה אחת ואלה באחר, אשר מחוזקים לעתים קרובות על ידי מופעים חוזרים של אותן מילים וביטויים ברחבי הקלט. למשל, בהכשרת המערכת האנגלית-גרמנית בוא נגיד, אם המנוע רואה את הביטוי כל הזכויות שמורות בצד האנגלי וגם הודעות אלה ראשטה וורובהולטן בצד הגרמני, הוא עשוי ליישר את שני הביטויים האלה ולהקצות הסתברות מסוימת ליישור זה. מופעים חוזרים של ביטויי המקור והיעד בנתוני ההדרכה רק יחזקו את היישור.
באופן כללי, לאחר שנתונים מקבילים לזוג שפות משמעו שאנו יכולים להכשיר מנועים בשני הכיוונים (כלומר, ניתן להכשיר הן את המערכות האנגלית-גרמנית והן את השפה הגרמנית-אנגלית באותם משפטים). לחלק מכם היו כמה שאלות בנוגע לסיבה שבגללה שחררתי את המערכת האנגלית-ספרדית לפני שהעברנו את השפה הספרדית-אנגלית. . היו באמת שתי סיבות ראשית, אנגלית-ספרדית היתה זוג השפות הכלליות הראשון שאנו משחררים. שחרור זוג שפה אחד איפשר לנו לבדוק את התשתית לפני שהתחלנו לשחרר יותר. שנית, הטכנולוגיה עבור ספרדית-אנגלית הייתה שונה במקצת מזו המשמשת עבור אנגלית-ספרדית, ואנו זקוקים לזמן נוסף כדי לבצע את השינויים הנחוצים במבני התשתית כדי להכיל. בעתיד, אנו מתכננים לשחרר מערכות תרגום חדשות בצמדים (עם כמה יוצאים מן הכלל). אני לא יכול לגלות אילו שפות אנחנו מתכננים הבא, אבל לצפות לכמה חדשים בקרוב!
לאלו מכם המעוניינים בדיונים טכניים לגבי המנועים שלנו ואיך הם עובדים, אנא התייחס לחלק מהעיתונים של החוקרים שפיתחו אותם. : שלושה מאמרים אחרונים של הערה הם
. כריס קווינק, ארקול מנטזס ? אנחנו צריכים ביטויים מאתגר את החוכמה המקובלת בתרגום מכונה סטטיסטית מאי 2006 ניו יורק, ניו יורק, ארה ב ההליכים של HLT-NAACL 2006
. כריס קווינק, ארקול מנטזס יחסי תלות בתרגום: ההתכנסות של תרגום מכונה סטטיסטית ומבוססת לדוגמה? מרץ 2006 מכונת תרגום 43-65 (קובץ מצורף)
. כריס קווינק, ארקול מנטזס שימוש בתבניות הזמנת תלות לשיפור הכלליות בתרגום 2007 ביולי האגודה לבלשנות חישובית
יחסי תלות בתרגום התכנסות של תרגום ממכונות סטטיסטיות ומבוססות לדוגמה. pdf