ข้ามไปที่เนื้อหาหลัก
Translator
หน้านี้ได้รับการแปลโดยอัตโนมัติโดยบริการแปลภาษาเครื่องของ Microsoft แปล ศึกษาเพิ่มเติม

ไมโครซอฟท์แปลบล็อก

การแปลเครื่องทางสถิติ–บล็อกผู้เข้าพัก (อัปเดตด้วยกระดาษเพิ่มเติม)

จะ Lewis เป็นผู้จัดการโปรแกรมบนทีมนักแปล Microsoft, การทำงานเกี่ยวกับคุณภาพของภาษาและการซื้อข้อมูล  บล็อกของผู้เข้าพักในวันนี้เป็นคำอธิบายระดับสูงของวิธีการทำงานของเครื่องยนต์:  

ในฐานะที่เป็นจำนวนมากของคุณรู้ว่าภายใต้เครื่องดูดควันไมโครซอฟท์แปลถูกขับเคลื่อนด้วยโปรแกรมเครื่องมือการแปลภาษา (SMT) ทางสถิติ  ระบบทางสถิติแตกต่างจากกลุ่มที่ใช้กฎในการที่ "กฎ" การแม็พคำและวลีจากภาษาหนึ่งไปยังอีกที่มีการเรียนรู้โดยระบบแทนที่จะเป็นรหัสมือถือ  การฝึกอบรม SMT ต้องใช้ข้อมูลการฝึกอบรมแบบคู่ขนานเป็นจำนวนมาก—หวังว่าคุณภาพที่ดีและจากแหล่งที่มาที่แตกต่างกันและการฝึกอบรมเครื่องยนต์ในข้อมูลนั้น  เราหมายถึงแหล่งที่มาของข้อมูลที่เนื้อหาสำหรับภาษาหนึ่งจะเหมือนกับเนื้อหาอื่นๆ)  เครื่องยนต์เรียนรู้การคำระหว่างคำและวลีในภาษาหนึ่งและผู้ที่อยู่ในอีก, ซึ่งมักจะเสริมด้วยการเกิดซ้ำของคำและวลีเดียวกันตลอดการป้อนข้อมูล.  ตัวอย่างเช่นในการฝึกอบรมระบบภาษาอังกฤษเยอรมันสมมติว่าถ้าเครื่องยนต์เห็นวลี สงวน ทางด้านภาษาอังกฤษและสังเกตเห็น -10,000% ในด้านเยอรมัน, มันอาจจะจัดสองวลีเหล่านี้, และกำหนดความน่าจะเป็นบางอย่างเพื่อการจัดตำแหน่งนี้.  การเกิดซ้ำของวลีต้นทางและเป้าหมายในข้อมูลการฝึกอบรมจะส่งเสริมการจัดตำแหน่งนี้เท่านั้น

โดยทั่วไปการมีข้อมูลแบบขนานสำหรับคู่ภาษาหมายความว่าเราสามารถฝึกเครื่องยนต์ในทั้งสองทิศทาง (เช่นภาษาอังกฤษภาษาเยอรมันและภาษาเยอรมัน-อังกฤษสามารถฝึกได้ในประโยคป้อนเข้าเดียวกัน)  บางคนมีคำถามบางอย่างเกี่ยวกับเหตุผลที่ว่าเราได้เปิดตัวระบบภาษาอังกฤษ-สเปนก่อนที่เราจะปล่อยภาษาสเปน-อังกฤษ  มีเหตุผลสองประการ  แรก, อังกฤษ-สเปนเป็นคู่ภาษาทั่วไปโดเมนแรกที่เราปล่อยออกมา.  การปล่อยคู่ภาษาหนึ่งให้เราทดสอบโครงสร้างพื้นฐานก่อนที่เราจะเริ่มเผยแพร่เพิ่มเติม  ประการที่สองเทคโนโลยีสำหรับภาษาสเปน-อังกฤษมีความแตกต่างกันเล็กน้อยกว่าที่ใช้สำหรับภาษาอังกฤษ-สเปนและเราต้องการเวลาเพิ่มเติมเพื่อทำการเปลี่ยนแปลง infrastructural ที่จำเป็นเพื่อรองรับ  ในอนาคตเราวางแผนที่จะปล่อยระบบการแปลใหม่เป็นคู่ (มีข้อยกเว้นสองเท่า)  ฉันไม่สามารถเปิดเผยภาษาที่เราได้วางแผนไว้ต่อไปแต่คาดหวังคนใหม่เร็วๆนี้!

สำหรับผู้ที่สนใจในการอภิปรายทางเทคนิคเกี่ยวกับเครื่องยนต์ของเราและวิธีการทำงานของพวกเขาโปรดดูที่บางส่วนของเอกสารโดยนักวิจัยที่พัฒนาพวกเขา  เอกสารที่สามของหมายเหตุมีดังนี้:

คริสแปลก, Arul เราต้องการวลีหรือไม่? การท้าทายภูมิปัญญาทั่วไปในการแปลภาษาด้วยเครื่องจักรทางสถิติ พฤษภาคม๒๐๐๖นิวยอร์ก, นิวยอร์ก, สหรัฐอเมริกา การดำเนินการของ HLT-NAACL ๒๐๐๖

คริสแปลก, Arul การแปลการอ้างอิง Treelet: การบรรจบกันของสถิติและตัวอย่างการแปลเครื่องตาม? มีนาคม๒๐๐๖เครื่องมือแปล 43-65 (ไฟล์ที่แนบ)


คริสแปลก, Arul การใช้แม่แบบใบสั่งการอ้างอิงเพื่อปรับปรุงทั่วไปในการแปล กรกฎาคม๒๐๐๗ สมาคมการคำนวณภาษาศาสตร์

การแปลความหมายการอ้างอิงการบรรจบกันของสถิติและตัวอย่างการแปลที่อ้างอิง. pdf