Bỏ qua và nội dung chính
Translator
Trang này đã được tự động dịch của Microsoft Translator Dịch vụ máy dịch. Tìm hiểu thêm

Blog của Microsoft Translator

Thống kê máy dịch-khách blog (Cập Nhật với giấy bổ sung)

Will Lewis là một người quản lý chương trình trên Microsoft Translator nhóm, làm việc về chất lượng ngôn ngữ và thu thập dữ liệu.  Blog khách hôm nay là một giải thích cấp cao về cách thức hoạt động của động cơ:  

Như nhiều bạn đã biết, dưới mui xe Microsoft Translator được cung cấp bởi một công cụ dịch máy thống kê (SMT).  Hệ thống thống kê là khác nhau hơn so với các quy tắc dựa trên những người trong đó các "quy tắc" lập bản đồ từ và cụm từ từ một ngôn ngữ khác được học bởi hệ thống thay vì được mã hóa bằng tay.  Đào tạo một SMT đòi hỏi phải tích lũy một lượng lớn dữ liệu đào tạo song song-hy vọng có chất lượng tốt và từ các nguồn không đồng nhất — và đào tạo động cơ trên dữ liệu đó.  (Bằng cách Parallel, chúng tôi có nghĩa là một nguồn dữ liệu mà nội dung cho một ngôn ngữ là giống như nội dung cho người kia.)  Động cơ này học các tương ứng giữa các từ và cụm từ trong một ngôn ngữ và những người khác, thường được gia cố bằng các lần xuất hiện lặp lại của cùng một từ và cụm từ trong suốt đầu vào.  Ví dụ, trong đào tạo hệ thống tiếng Anh-Đức Hãy nói, nếu động cơ thấy cụm từ Tất cả các quyền ở phía Anh và cũng có thông báo Alle Rechte vorbehalten ở phía Đức, nó có thể sắp xếp hai cụm từ này, và chỉ định một số xác suất để căn chỉnh này.  Các lần xuất hiện lặp lại của các cụm từ nguồn và mục tiêu trong dữ liệu đào tạo sẽ chỉ củng cố sự liên kết này.

Nói chung, có dữ liệu song song cho một cặp ngôn ngữ có nghĩa là chúng ta có thể đào tạo động cơ theo cả hai hướng (ví dụ, cả tiếng Anh-Đức và các hệ thống Đức-Anh có thể được đào tạo trên cùng một câu đầu vào).  Một số bạn đã có một số câu hỏi liên quan đến lý do tại sao nó được rằng chúng tôi phát hành các hệ thống tiếng Anh-Tây Ban Nha trước khi chúng tôi phát hành Tây Ban Nha-tiếng Anh.  Có hai lý do thực sự.  Đầu tiên, Anh-Tây Ban Nha là cặp ngôn ngữ miền chung đầu tiên chúng tôi phát hành.  Phát hành một cặp ngôn ngữ cho phép chúng tôi kiểm tra cơ sở hạ tầng trước khi chúng tôi bắt đầu phát hành thêm.  Thứ hai, công nghệ cho tiếng Anh-Tây Ban Nha hơi khác so với sử dụng cho tiếng Anh-Tây Ban Nha, và chúng ta cần thêm thời gian để làm những thay đổi cơ sở hạ tầng cần thiết để phù hợp.  Trong tương lai, chúng tôi có kế hoạch phát hành các hệ thống dịch thuật mới theo cặp (với một vài trường hợp ngoại lệ).  Tôi không thể tiết lộ những gì ngôn ngữ chúng tôi đã lên kế hoạch tiếp theo, nhưng mong đợi một số những cái mới sớm!

Đối với những người bạn quan tâm đến các cuộc thảo luận kỹ thuật liên quan đến động cơ của chúng tôi và cách họ làm việc, xin vui lòng tham khảo một số các giấy tờ của các nhà nghiên cứu đã phát triển chúng.  Ba giấy tờ gần đây của lưu ý là:

Chris Quirk, Arul Menezes. Chúng ta có cần cụm từ không? Thách thức sự khôn ngoan thông thường trong dịch máy thống kê Có thể 2006 New York, New York, Hoa Kỳ Kỷ yếu của HLT-NAACL 2006

Chris Quirk, Arul Menezes. Phụ thuộc Treelet Translation: các hội tụ của thống kê và ví dụ dựa trên máy dịch? Tháng 2006 dịch máy 43-65 (đính kèm tập tin)


Chris Quirk, Arul Menezes. Sử dụng phụ thuộc để mẫu cải thiện tính tổng quát trong dịch Ngày 2007 tháng 7 Hiệp hội ngôn ngữ học tính toán

Phụ thuộc Treelet Translation các hội tụ của thống kê và ví dụ dựa trên machinetranslation. PDF