วันศุกร์ที่ 5 มกราคม พ.ศ. 2561

กูเกิลระบุ AI ของกูเกิลสร้างเสียงพูดได้แทบแยกกับเสียงจริงของมนุษย์ไม่ออกแล้ว

กูเกิลระบุ AI ของกูเกิลสร้างเสียงพูดได้แทบแยกกับเสียงจริงของมนุษย์ไม่ออกแล้ว
กูเกิลอ้างว่าระบบสังเคราะห์เสียงพูดจากปัญญาประดิษฐ์ (AI) เวอร์ชั่นล่าสุดที่มีชื่อว่า "Tacotron 2" สามารถสังเคราะห์เสียงได้ชนิดที่เรียกว่าแทบแยกกับเสียงมนุษย์จริงไม่ออก รวมทั้งยังเผยแพร่ตัวอย่างเสียงให้เปรียบเทียบกันทางออนไลน์ด้วย คลิกที่นี่ เพื่อลองฟังเสียงได้เลย
Tacotron 2 ทำงานโดยตรงกับตัวอักษร และกูเกิลระบุว่ามันสามารถใช้บริบทเพื่อที่จะอ่านออกเสียงได้อย่างถูกต้อง แม้จะเป็นคำที่สะกดเหมือนกันอย่างคำว่า read (กริยาช่อง 1) และ read (กริยาช่อง 3) ก็ตาม สามารถตอบสนองต่อวรรคตอน การใส่จุลภาค (comma) และเรียนรู้คำที่เน้นเสียงหนัก รวมถึงวิเคราะห์เครื่องหมายคำถาม (Question Mark) เพื่อปรับโทนเสียงได้อีกด้วย 
โดยเดฟ เกิร์ชกอน อธิบายหลักการทำงานของ Tacotron 2 ไว้ว่า เป็นเทคโนโลยี Neural Network เชิงลึก 2 ส่วนมาประกอบกัน ส่วนแรกจะแปลข้อความจากตัวอักษรให้อยู่ในรูป Spectogram ซึ่งเป็นการแสดงภาพเพื่อแทนความถี่เสียงตามเวลา จากนั้น Spectogram จะถูกส่งเข้าสู่ AI ที่ชื่อว่า WaveNet ที่สร้างโดยบริษัท Alphabet (บริษัทแม่ของกูเกิล) ซึ่งจะอ่านแผนภูมิดังกล่าวและแปลงเป็นเสียงต่อไป
กูเกิลไม่ได้บอกออกมาตรงๆ ว่าในตัวอย่างเปรียบเทียบที่เผยแพร่อยู่ทางออนไลน์นั้น เสียงใดเป็นเสียงมนุษย์จริง หรือเสียงใดเป็นเสียงสังเคราะห์ แต่เกิร์ชกอน บอกว่าถ้ากด View Source ในหน้าเว็บก็รู้จากชื่อไฟล์ได้ทันที ดังนั้นถ้าไม่อยากถูกสปอยล์ก็ลองฟังกันก่อนนะครับ

ที่มา : https://news.thaiware.com/12185.html 9to5google.com , google.github.io

ไม่มีความคิดเห็น:

แสดงความคิดเห็น