ข้ามไปที่เนื้อหาหลัก
Translator
หน้านี้ได้รับการแปลโดยอัตโนมัติโดยบริการแปลภาษาเครื่องของ Microsoft แปล ศึกษาเพิ่มเติม

ไมโครซอฟท์แปลบล็อก

Microsoft แปลนำการแปลคำพูดแบบ end-to-end ให้กับทุกคนที่มี API การแปลคำพูดครั้งแรกของโลก

วันนี้เราได้เปิดตัวรุ่นใหม่ของ Microsoft นักแปล API ที่เพิ่มความสามารถในการแปลเป็นคำพูด (และคำพูดเป็นข้อความ) แบบเรียลไทม์ให้กับ API การแปลที่มีอยู่ ขับเคลื่อนโดยเทคโนโลยีปัญญาประดิษฐ์ที่ทันสมัยของไมโครซอฟท์ความสามารถนี้มีให้บริการแก่ผู้ใช้นับล้าน Skype เป็นเวลากว่าหนึ่งปี iOS และ หุ่นยนต์ ผู้ใช้โปรแกรมแปลของ Microsoft ตั้งแต่ล่าช้า๒๐๑๕ ตอนนี้ธุรกิจจะสามารถเพิ่มความสามารถในการแปลคำพูดเหล่านี้ให้กับแอปพลิเคชันหรือบริการของตนและนำเสนอประสบการณ์ผู้ใช้ที่เป็นธรรมชาติและมีประสิทธิภาพมากขึ้นแก่ลูกค้าและพนักงานของพวกเขา

การแปลคำพูดใช้ได้กับแปดภาษา— อาหรับ, จีนกลาง, อังกฤษ, ฝรั่งเศส, เยอรมัน, อิตาลี, โปรตุเกสและสเปน การแปลเป็นข้อความที่มีอยู่ในทั้งหมดของ Microsoft แปล 50 + ภาษาที่รองรับ. แปลเป็นเสียงที่พูดได้ใน18ภาษาที่รองรับ

โปรแกรมแปล Microsoft รุ่นใหม่นี้เป็นโซลูชันการแปลคำพูดแบบ end-to-end ที่มีการปรับให้เหมาะสมที่สุดสำหรับการสนทนาในชีวิตจริง (เทียบกับคำสั่งของมนุษย์ที่ง่ายต่อเครื่อง) ที่มีอยู่ในตลาด ก่อนที่จะวันนี้, โซลูชันการแปลคำพูดที่จำเป็นในการปูด้วยหินร่วมกันจากจำนวนของ Api ที่แตกต่างกัน (การรู้จำเสียงพูด, การแปล, และการสังเคราะห์เสียงพูด), ไม่เหมาะสำหรับการพูดสนทนาหรือออกแบบมาเพื่อทำงานร่วมกัน. ตอนนี้ผู้ใช้และธุรกิจที่เหมือนกันสามารถลบอุปสรรคด้านภาษาด้วยการผสานการแปลคำพูดในแอพและบริการที่คุ้นเคยของพวกเขา

 

ธุรกิจของฉันจะใช้เทคโนโลยีการแปลคำพูดได้อย่างไร

การแปลคำพูดสามารถนำมาใช้ในสถานการณ์ที่หลากหลายของบุคคลต่อบุคคลกลุ่มหรือมนุษย์ต่อเครื่อง สถานการณ์ที่บุคคลต่อบุคคลอาจรวมถึงการแปลแบบทางเดียวเช่นการแปลส่วนบุคคล, ซับไตเติ้ล, หรือการสื่อสารแบบหลายภาษาหรือในบุคคลที่คล้ายกับสิ่งที่พบในปัจจุบันในการแปล Skype หรือปพลิเคชัน Microsoft แปลสำหรับ iOS และ Android สถานการณ์สมมติของกลุ่มอาจรวมถึงการนำเสนอแบบเรียลไทม์เช่นคีย์บันทึกเหตุการณ์เว็บคาสต์และคลาสของมหาวิทยาลัยหรือการชุมนุมเช่นในการประชุมผู้คนหรือห้องแชทแบบเกมออนไลน์ สถานการณ์สมมติของมนุษย์ต่อเครื่องอาจรวมถึงสถานการณ์ของข่าวกรองธุรกิจ (เช่นการวิเคราะห์หรือบันทึกการโทรของลูกค้า) หรือการโต้ตอบของ AI

เราเพิ่งเริ่มต้นที่จะรอยขีดข่วนพื้นผิวของสถานการณ์ที่เทคโนโลยีนี้จะช่วยให้และเนื่องจากมันเป็นเครื่องเรียนรู้ที่มีคุณภาพและดังนั้นความเกี่ยวข้องจะปรับปรุงกับเวลาเป็นคนมากขึ้นและบริษัทที่ใช้มัน

บริษัทพันธมิตรหลายรายมีการทดสอบ API และรวมเข้ากับแอปของตนเอง:

  • 2 ของสวีเดน, ผู้ให้บริการโทรศัพท์มือถือชั้นนำที่มีมากกว่า๑๕,๐๐๐,๐๐๐สมาชิกในกว่า15ประเทศ, แปลบูรณาการใน PBX ของพวกเขาเพื่อสนับสนุนการแปลโทรศัพท์เรียลไทม์ (ไม่จำเป็นต้องใช้ app!) บนเครือข่ายโทรศัพท์มือถือของพวกเขา.
  • สะพานสิงโต (บอสตัน, MA), ผู้ให้บริการภาษาและคู่ค้าระดับ Gold, พัฒนาโซลูชันซับไตเติ้ลวิดีโอแบบบูรณาการ.
  • ProDeaf หนวกผู้จำหน่ายโปรแกรมประยุกต์ที่เชี่ยวชาญในการพัฒนาเทคโนโลยีเพื่อสนับสนุนชุมชนที่ยากต่อการได้ยินและหูหนวกรวม API ใหม่เข้าไปในแอพพลิเคชั่น avatar ภาษาของพวกเขาเพื่อเปิดใช้งานการสนับสนุนที่หลากหลายของคำพูดที่จะเข้าสู่ระบบสถานการณ์

 

การแปลคำพูดทำงานอย่างไร

การแปลคำพูดเป็นคำพูดเป็นความท้าทายที่ซับซ้อนมาก มันใช้เทคโนโลยี AI ล่าสุด, เช่นเครือข่ายประสาทลึกสำหรับการรู้จำเสียงและการแปลข้อความ. ไม่มีโซลูชันการแปลคำพูดแบบบูรณาการอย่างเต็มที่พร้อมใช้งานในตลาดวันนี้และการส่งมอบแพลตฟอร์มที่จะสนับสนุนสถานการณ์การแปลคำพูดในชีวิตจริงที่จำเป็นจะเกินเพียงแค่เย็บเข้าด้วยกันการรู้จำเสียงที่มีอยู่และ เทคโนโลยีการแปลข้อความ มีสี่ขั้นตอนในการแปลคำพูดเพื่อให้สามารถส่งมอบประสบการณ์นี้:

  1. การรู้จำเสียงอัตโนมัติ (ASR) — เครือข่ายประสาทลึกได้รับการฝึกอบรมในหลายพันชั่วโมงของเสียงวิเคราะห์การพูดที่เข้ามา. รุ่นนี้ได้รับการฝึกอบรมเกี่ยวกับการโต้ตอบของมนุษย์ต่อมนุษย์มากกว่าคำสั่งของมนุษย์ต่อเครื่อง, การผลิตการรู้จำเสียงที่เหมาะสำหรับการสนทนาปกติ.
  2. TrueText — นวัตกรรมการวิจัยของ Microsoft, TrueText จะใช้ข้อความตามตัวอักษรและแปลงให้สอดคล้องกับเจตนาของผู้ใช้อย่างใกล้ชิด การทำเช่นนี้โดยการลบการยกเลิกคำพูดเช่น "um" s และ "ah" รวมทั้ง stutters และการทำซ้ำ นอกจากนี้ยังสามารถอ่านข้อความได้มากขึ้นโดยการเพิ่มตัวแบ่งประโยคเครื่องหมายวรรคตอนที่เหมาะสมและตัวพิมพ์ใหญ่ (ดูรูปภาพด้านล่าง)
  3. แปล ข้อความจะถูกแปลเป็นภาษาใดก็ได้ใน 50 + ได้รับการสนับสนุนโดย Microsoft แปล ภาษาคำพูดทั้งแปดได้รับการปรับให้เหมาะสำหรับการสนทนาโดยการฝึกอบรมเกี่ยวกับคำพูดของข้อมูลการสนทนาหลายล้านครั้งโดยใช้แบบจำลองภาษาที่ขับเคลื่อนด้วยระบบประสาทลึก
  4. ข้อความที่จะพูด— ถ้าภาษาเป้าหมายเป็นหนึ่งในภาษาคำพูดสิบแปดได้รับการสนับสนุนข้อความจะถูกแปลงเป็นคำพูดออกมาโดยใช้การสังเคราะห์เสียงพูด ขั้นตอนนี้จะถูกละเว้นในสถานการณ์สมมติการแปลคำพูดเป็นข้อความเช่นวิดีโอซับไตเติ้ล

ฉันจะเริ่มต้นได้อย่างไร

เป็นเรื่องง่ายที่จะเริ่มต้นใช้งานกับ API คำพูดของนักแปล Microsoft ใหม่ มีบริการทดลองใช้ฟรี10ชั่วโมงที่ aka.ms/TranslatorADMSpeech. คุณสามารถทดสอบการติดตั้งและการดำเนินงานในสภาพแวดล้อมเสมือนจริงเช่นเดียวกับการอ่านเอกสาร API ในการใหม่ของเรา เพสแวกเกอร์. นอกจากนี้คุณยังสามารถค้นหาตัวอย่างปพลิเคชันและข้อมูลที่เป็นประโยชน์อื่นๆบน GitHub.

แน่นอนถ้าคุณมีคำถามปัญหาหรือข้อเสนอแนะที่เราชอบที่จะได้ยินมัน! คุณสามารถแจ้งให้เราทราบ ความคิดเห็นและฟอรั่มการสนับสนุน.

ศึกษาเพิ่มเติม