بالإلى الحلوة والخاصة
Translator
تمت ترجمة هذه الصفحة تلقائيًا بواسطة خدمة الترجمة الآلية الخاصة بـ Microsoft Translator. التعرف على المزيد

مايكروسوفت المترجم مدونه

ترجمة الآلات العصبية التي تمكن من ابتكارات التكافؤ البشري في السحابة

في مارس 2018 نحن اعلن (حسن وآخرون 2018) نتيجة اختراق حيث أظهرنا لأول مرة نظام الترجمة الآلية التي يمكن أن تؤدي وكذلك المترجمين الإنسان (في سيناريو معين – الصينية الإنجليزية ترجمة الأخبار). كان هذا اختراقا مثيرا في أبحاث الترجمة الآلية، ولكن النظام الذي بنيناه لهذا المشروع كان معقدا، ونظام أبحاث الوزن الثقيل، ودمج تقنيات متعددة المتطورة. في حين أننا صدر إخراج هذا النظام على عدة مجموعات اختبار، النظام نفسه لم يكن مناسبا للنشر في الوقت الحقيقي ترجمة آلة سحابة API.

اليوم نحن متحمسون للإعلان عن توافر في إنتاج أحدث جيل لدينا من نماذج الترجمة الآلية العصبية. تتضمن هذه النماذج معظم الخير من نظام البحث لدينا، وهي متاحة الآن بشكل افتراضي عند استخدام Microsoft API مترجم. هذه النماذج الجديدة متاحة اليوم بالصينية والألمانية والفرنسية والهندية والإيطالية والإسبانية واليابانية والكورية والروسية، من وإلى الإنجليزية. المزيد من اللغات قادمة قريباً

الحصول على من ورقة بحث ية إلى API السحابية

على مدى العام الماضي، كنا نبحث عن طرق لجلب الكثير من نوعية نظامنا التكافؤ بين البشر في مايكروسوفت API مترجم، مع الاستمرار في تقديم الترجمة في الوقت الحقيقي منخفضة التكلفة. وهنا بعض الخطوات في تلك الرحلة.

تدريب المعلمين والطلاب

كانت خطوتنا الأولى هي التحول إلى إطار "المعلم الطالب"، حيث نقوم بتدريب طالب خفيف الوزن في الوقت الحقيقي لمحاكاة شبكة معلمي الوزن الثقيل (با وكاروانا 2014). ويتم ذلك من خلال تدريب الطالب ليس على البيانات الموازية التي يتم تدريب أنظمة MT عادة على، ولكن على الترجمات التي تنتجها المعلم (كيم وراش 2016). هذه مهمة أبسط من التعلم من البيانات الخام، ويسمح لطالب أكثر ضحلة وأبسط لمتابعة المعلم معقدة عن كثب. كما يمكن للمرء أن يتوقع، محاولاتنا الأولية لا تزال تعاني من انخفاض الجودة من المعلم إلى الطالب (لا غداء مجاني!)، ولكن مع ذلك أخذنا المركز الأول في WNMT 2018 المهمة المشتركة على كفاءة فك التشفير (Junczys-Dowmunt et al. 2018a). وكانت بعض النتائج المثيرة بشكل خاص من هذا الجهد أن المحولات (فاسواني وآخرون 2017) نماذج وتعديلاتها تلعب بشكل جيد مع تدريب المعلم والطالب وفعالة بشكل مذهل خلال الاستدلال على وحدة المعالجة المركزية.

التعلم من هذه النتائج الأولية وبعد الكثير من التكرار اكتشفنا وصفة تسمح لطالبنا بسيطة أن يكون تقريبا نفس نوعية المعلم معقدة (في بعض الأحيان هناك غداء مجاني بعد كل شيء؟). الآن كنا أحرارا في بناء نماذج كبيرة ومعقدة للمعلمين لتحقيق أقصى قدر من الجودة، دون القلق بشأن القيود في الوقت الحقيقي (أكثر من اللازم).

الترجمة في الوقت الحقيقي

وكان الدافع وراء قرارنا بالتحول إلى إطار المعلم والطالب من خلال العمل العظيم من قبل كيم وراش (2016)) لنماذج بسيطة تستند إلى RNN. في تلك المرحلة لم يكن من الواضح ما إذا كانت الفوائد المبلغ عنها سوف تظهر لنماذج المحولات كذلك (انظر فاسواني وآخرون 2017 للحصول على تفاصيل حول هذا النموذج). ومع ذلك، اكتشفنا بسرعة أن هذا هو الحال في الواقع.

يمكن للطالب المحول استخدام خوارزمية فك مبسطة إلى حد كبير (البحث الجشع) حيث نختار فقط أفضل كلمة واحدة مترجمة في كل خطوة، بدلا من الطريقة المعتادة (شعاع البحث) الذي ينطوي على البحث من خلال مساحة ضخمة من الممكن ترجمه. وكان لهذا التغيير تأثير طفيف على الجودة ولكنه أدى إلى تحسينات كبيرة في سرعة الترجمة. وعلى النقيض من ذلك، فإن نموذج المعلم يعاني من انخفاض كبير في الجودة عند التحول من البحث عن شعاع إلى البحث الجشع.

في الوقت نفسه، أدركنا أنه بدلا من استخدام أحدث الهندسة العصبية (المحول مع الاهتمام الذاتي) في وحدة فك التشفير، يمكن تعديل الطالب لاستخدام بنية مبسطة بشكل كبير وأسرع المتكررة (RNN). وهذا مهم لأنه في حين يمكن حساب محول التشفير على الجملة المصدر كله في نفس الوقت، يتم إنشاء الجملة المستهدفة كلمة واحدة في وقت واحد، وبالتالي فإن سرعة فك لها تأثير كبير على سرعة الترجمة عموما. بالمقارنة مع الاهتمام الذاتي، يقلل فك التشفير المتكرر من التعقيد الخوارزمي من التربيعية إلى الخطية في طول الجملة المستهدفة. خصوصا في الإعداد المعلم والطالب، لم نر أي خسارة في الجودة بسبب هذه التعديلات، لا تلقائي ولا لنتائج تقييم الإنسان. وأدت عدة تحسينات إضافية مثل تقاسم البارامترات إلى مزيد من التخفيضات في التعقيد وزيادة السرعة.

ميزة أخرى من إطار المعلم والطالب كنا متحمسين جدا أن نرى أن تحسينات الجودة مع مرور الوقت من المعلمين المتزايد والمتغيرة يتم نقلها بسهولة إلى الهندسة المعمارية الطلابية غير المتغيرة. وفي الحالات التي نرى فيها مشاكل في هذا الصدد، فإن الزيادات الطفيفة في قدرة نموذج الطلاب من شأنها أن تسد الفجوة مرة أخرى.

التعلم المزدوج

البصيرة الرئيسية وراء التعلم المزدوج (هو وآخرون 2016) هو الاختيار "الترجمة ذهابا وإيابا" أن الناس في بعض الأحيان استخدام للتحقق من جودة الترجمة. لنفترض أننا نستخدم مترجماً على الإنترنت للذهاب من الإنجليزية إلى الإيطالية. إذا لم نقرأ الإيطالية، كيف لنا أن نعرف إذا كان قد تم القيام بعمل جيد؟ قبل النقر فوق ارسال على رسالة بريد إلكتروني، قد نختار للتحقق من جودة عن طريق ترجمة الإيطالية مرة أخرى إلى اللغة الإنجليزية (ربما على موقع ويب مختلف). إذا كان الإنجليز الذين سنعود قد ضلوا الطريق بعيداً جداً عن الأصل، فاحتمالات أن تكون إحدى الترجمات قد خرجت عن القضبان.

ويستعمل التعليم المزدوج نفس النهج في تدريب نظامين (مثل الإنكليزية->الإيطالية والإيطالية->الإنجليزية) بالتوازي، باستخدام الترجمة ذهابا وإيابا من نظام واحد لتسجيل النظام الآخر والتحقق منه وتدريبه.

كان التعلم المزدوج أحد المساهمين الرئيسيين في نتائج أبحاث التكافؤ البشري. في الانتقال من نظام البحوث إلى وصفة الإنتاج لدينا، قمنا بالتعميم هذا النهج على نطاق واسع. لم نتشارك في تدريب أزواج الأنظمة على مخرجات بعضنا البعض فحسب، بل استخدمنا أيضاً نفس المعيار لتصفية بياناتنا الموازية.

تنظيف البيانات غير الدقيقة

يتم تدريب أنظمة الترجمة الآلية على "البيانات المتوازية"، أي أزواج من الوثائق التي هي ترجمة لبعضها البعض، يتم إنشاؤها بشكل مثالي من قبل مترجم الإنسان. كما اتضح، هذه البيانات الموازية غالبا ما تكون كاملة من الترجمات غير دقيقة. وفي بعض الأحيان، لا تكون الوثائق متوازية حقاً بل هي مجرد إعادة صياغة فضفاضة لبعضها البعض. يمكن للمترجمين الإنسان اختيار ترك بعض المواد المصدر أو إدراج معلومات إضافية. يمكن أن تحتوي البيانات على أخطاء مطبعية، أخطاء إملائية، أخطاء نحوية. في بعض الأحيان يتم خداع خوارزميات استخراج البيانات لدينا ببيانات مماثلة ولكن غير موازية، أو حتى من قبل الجمل باللغة الخاطئة. والأسوأ من ذلك كله، الكثير من صفحات الويب التي نراها هي رسائل غير مرغوب فيها، أو قد تكون في الواقع ترجمات آلية بدلاً من الترجمات البشرية. النظم العصبية حساسة جدا لهذا النوع من عدم الدقة في البيانات. وجدنا أن بناء النماذج العصبية لتحديد تلقائيا والتخلص من هذه الأخطاء أعطى تحسينات قوية في نوعية أنظمتنا. أدى نهجنا لتصفية البيانات في المقام الأول في WMT18 المتوازية مجموعة تصفية معيار (جونكز-داومونت 2018أ) وساعد في بناء واحدة من أقوى أنظمة الترجمة الإنجليزية الألمانية في مهمة ترجمة أخبار WMT18 (Junczys-Dowmunt 2018b). استخدمنا إصدارات محسنة من هذا النهج في أنظمة الإنتاج التي أصدرناها اليوم.

تمثيل الكلمات المُعامل

عند نقل تكنولوجيا البحوث إلى الإنتاج، تنشأ العديد من التحديات في العالم الحقيقي. الحصول على أرقام، وتواريخ، وأوقات، والرسملة، والتباعد، وما إلى ذلك، يهم أكثر بكثير في الإنتاج مما كانت عليه في نظام البحوث.

النظر في التحدي من الرسملة. إذا كنا ترجمة الجملة "شاهد أشرطة الفيديو القط هنا". نحن نعرف كيفية ترجمة "القط". نريد ترجمة "CAT" بنفس الطريقة. ولكن الآن النظر في "مشاهدة الولايات المتحدة لكرة القدم هنا". نحن لا نريد أن نخلط بين كلمة "نحن" والمختصر "الولايات المتحدة" في هذا السياق.

للتعامل مع هذا، استخدمنا نهج يعرف باسم الترجمة الآلية المعبّر عنها ([كوهن] و [هوونغ] 2007سينريتش وهادو 2016) الذي يعمل على النحو التالي. بدلاً من تمثيل رقمي واحد ("تضمين") ل "القط" أو "CAT"، نستخدم تضمينات متعددة، تعرف باسم "عوامل". وفي هذه الحالة، تكون التضمينات الأولية هي نفسها بالنسبة لـ "CAT" و"cat" ولكن العامل المنفصل يمثل الرسملة، مما يدل على أنها ذات سقف كلي في حالة واحدة ولكنها صغيرة في الحالة الأخرى. وتستخدم عوامل مماثلة على المصدر والجانب المستهدف.

نحن نستخدم عوامل مماثلة للتعامل مع شظايا الكلمات والتباعد بين الكلمات (وهي مسألة معقدة في اللغات غير المباعدة أو شبه التباعد مثل الصينية أو الكورية أو اليابانية أو التايلاندية).

كما حسنت العوامل ترجمة الأرقام بشكل كبير، وهو أمر بالغ الأهمية في العديد من السيناريوهات. ترجمة الأرقام هي في الغالب تحويل خوارزمي. على سبيل المثال، يمكن كتابة 1,234,000 كـ 12,34,000 باللغة الهندية و 1.234.000 باللغة الألمانية و 123.4ليبلغ الصينية. تقليديا، يتم تمثيل الأرقام مثل الكلمات، كمجموعات من الأحرف من طول متفاوتة. وهذا يجعل من الصعب على التعلم الآلي لاكتشاف الخوارزمية. بدلا من ذلك، ونحن تغذية كل رقم واحد من عدد على حدة، مع العوامل التي تشير إلى بداية ونهاية. هذه الخدعة البسيطة أزالت بشكل قوي وموثوق به تقريبا جميع أخطاء ترجمة الأرقام.

تدريب نموذج أسرع

عندما نقوم بتدريب نظام واحد نحو هدف واحد، كما فعلنا لمشروع أبحاث التكافؤ البشري، نتوقع أن نلقي أعدادا كبيرة من الأجهزة في النماذج التي تستغرق أسابيع للتدريب. عندما نماذج إنتاج التدريب لأزواج اللغة 20+، يصبح هذا النهج لا يمكن الدفاع عنها. ليس فقط نحن بحاجة إلى أوقات تحول معقولة، ولكن نحن بحاجة أيضا إلى تخفيف مطالب الأجهزة لدينا. لهذا المشروع، قمنا بعدد من تحسينات الأداء ماريان NMT (Junczys-Dowmunt et al. 2018b).

ماريان NMT هو مجموعة أدوات MT العصبية مفتوحة المصدر التي يستند Microsoft Translator على. ماريان هو نقية C ++ مجموعة أدوات الترجمة الآلية العصبية، ونتيجة لذلك، فعالة للغاية، لا تتطلب وحدات معالجة الرسومات في وقت التشغيل، وفعالة جدا في وقت التدريب

نظرا لطبيعتها القائمة بذاتها، فمن السهل جدا لتحسين ماريان لمهام محددة NMT، مما يؤدي إلى واحدة من مجموعات الأدوات NMT الأكثر كفاءة المتاحة. إلقاء نظرة على المعايير. إذا كنت مهتما في البحوث العصبية MT والتنمية، يرجى الانضمام والمساهمة في المجتمع على جيثب.

وسيتم قريبا توفير التحسينات التي أدخلتنا في مستودع جيثب العام بشأن التدريب وفك الشفرة المختلطة الدقة، وكذلك التدريب النموذجي الكبير.

نحن متحمسون لمستقبل الترجمة الآلية العصبية. وسنواصل نشر البنية النموذجية الجديدة إلى اللغات المتبقية و مترجم مخصص طوال هذا العام. سوف يحصل مستخدمينا تلقائيا على ترجمات ذات جودة أفضل بشكل ملحوظ من خلال API مترجم، لدينا تطبيق المترجم، وMicrosoft Office، ومستعرض الحافة. نأمل أن تساعد التحسينات الجديدة حياتك الشخصية والمهنية ونتطلع إلى ملاحظاتك.

 

مراجع

  • (جيمي با) و (ريتش كاروانا) 2014. هل الشبكات العميقة حقا بحاجة إلى أن تكون عميقة؟ التقدم في أنظمة معالجة المعلومات العصبية 27. الصفحات 2654-2662. https://papers.nips.cc/paper/5484-do-deep-nets-really-need-to-be-deep
  • هاني حسن، أنتوني أوي، تشانغ تشن، فيشال تشودري، جوناثان كلارك، كريستيان فيدرمان، شويدونغ هوانغ، مارسين جونتشيس- داومونت، ويليام لويس، مو لي، شوجي ليو، تي يان ليو، رينكيان لوه، آرول مينيزيس، تاو تشين، فرانك سيد، شو تان، في تيان، ليجون وو، شوانغ تشى وو ، وينجشى شيا ، دونغ دونغ تشانغ ، زهيروى تشانغ ، مينغ تشو. 2018. تحقيق المساواة بين الإنسان والانجليزية الصينية والانجليزية. http://arxiv.org/abs/1803.05567
  • هو، دي وشيا، ينجسي وتشين، تاو ووانغ، ليوي ويو، نينغاي وليو، تي يان وما، وي يينغ. 2016. التعلم المزدوج للترجمة الآلية. التقدم في أنظمة معالجة المعلومات العصبية 29. الصفحات 820-828. https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
  • مارسين جونتشيس-داومونت. 2018أ. تصفية مزدوجة الشرطي عبر الانتروبيل من صاخبة الموازية كوربورا. أعمال المؤتمر الثالث للترجمة الآلية: ورقات المهام المشتركة. بلجيكا، صفحات 888-895. https://aclweb.org/anthology/papers/W/W18/W18-6478/
  • مارسين جونتشيس-داومونت. 2018ب. إرسال Microsoft إلى مهمة ترجمة أخبار WMT2018: كيف تعلمت التوقف عن القلق وحب البيانات. أعمال المؤتمر الثالث للترجمة الآلية: ورقات المهام المشتركة. بلجيكا، الصفحات 425-430. https://www.aclweb.org/anthology/W18-6415/
  • مارسين جونتشيس-داومونت، كينيث هيفيلد، هيو هوانغ، رومان غروندكيفيتش، أنتوني أوي. 2018a. ماريان: فعالة من حيث التكلفة عالية الجودة الترجمة الآلية العصبية في C++ . وقائع ورشة العمل الثانية حول الترجمة والتوليد العصبية. ملبورن، أستراليا، الصفحات 129-135. https://aclweb.org/anthology/papers/W/W18/W18-2716/
  • مارسين جونكزيس-داومونت، رومان غروندكيفيتش، توماس دوولياك، هيو هوانغ، كينيث هيفيلد، توم نيكرمان، فرانك سيد، أولريش جيرمان، ألهام فكري آجي، نيكولاي بوغويشيف، أندريه ف. ت. مارتينز، ألكسندرا بيرش. 2018ب ماريان: ترجمة سريعة للآلة العصبية في C++. إجراءات دوري أبطال آسيا 2018، مظاهرات النظام. ملبورن، أستراليا، الصفحات 116-121. https://www.aclweb.org/anthology/P18-4020/
  • (يون كيم) و (ألكسندر م. راش) 2016- تقطير المعارف على مستوى التسلسل. في وقائع مؤتمر عام 2016 حول الأساليب التجريبية في معالجة اللغة الطبيعية، EMNLP 2016، أوستن، تكساس، الولايات المتحدة الأمريكية، 1-4 نوفمبر 2016، الصفحات 1317-1327. https://aclweb.org/anthology/papers/D/D16/D16-1139/
  • (فيليب كوهن) و (هيو هوانغ) 2007. نماذج الترجمة المعبّر عنها. وقائع المؤتمر المشترك المعني بالأساليب التجريبية في معالجة اللغة الطبيعية وتعلم اللغة الطبيعية الحسابية في عام 2007. براغ، جمهورية التشيك، صفحات 868-876. https://www.aclweb.org/anthology/D07-1091/
  • (ريكو سينريتش) و (باري هادو) 2016. ميزات الإدخال اللغوي تحسين الترجمة العصبية. وقائع المؤتمر الأول للترجمة الآلية: المجلد الأول، ورقات البحوث. برلين، ألمانيا، الصفحات 83-91. https://www.aclweb.org/anthology/W16-2209/
  • فاسواني، أشيش وشزير، نوم وبارمار، وبيكي وأوزكوريت، وجاكوب وجونز، وليون وغوميز، وإيدان إن وكايزر، ولوكاس، وبولوسوخين، إيليا. 2017. الاهتمام هو كل ما تحتاجه. التقدم في أنظمة معالجة المعلومات العصبية 30. الصفحات 5998-6008. https://papers.nips.cc/paper/7181-attention-is-all-you-need