VALL-E AI ของ Microsoft สามารถเลียนเสียงของคุณโดยใช้ตัวอย่างเสียง 3 วินาที

click fraud protection

จำ ทอม ครูซ เลียนแบบเสียงคนร้ายขณะบินไปกอบกู้โลกได้ไหม? VALL-E ของ Microsoft ต้องการเพียงคลิป 3 วินาทีเพื่อเริ่มพูดเหมือนคุณ

คนที่มากกว่าที่ ไมโครซอฟท์ ได้สร้าง AI- แบบจำลองการสังเคราะห์เสียงที่เรียกว่า VALL-E ที่ต้องได้ยินเสียงของมนุษย์เพียงสามวินาทีก่อนที่มันจะเริ่มพูดเหมือนพวกเขา ตอนนี้ Microsoft ไม่ใช่คนแปลกหน้าสำหรับเทคโนโลยี AI ที่ล้ำสมัย โดยเฉพาะอย่างยิ่งไม่ใช่ในปี 2023 จำ Chat GPT ซึ่งเป็น AI การสนทนาที่มีความสุขในการแชทที่สามารถพูดคุยอย่างผู้เรียนรู้ที่มีความรู้เกี่ยวกับโลกทั้งใบได้หรือไม่ ChatGPT ทำงานเฉพาะบนเซิร์ฟเวอร์ Azure ของ Microsoft และโมเดลภาษาธรรมชาติกำลังจะมาเพื่อเพิ่มผลิตภัณฑ์เช่นการค้นหา Bing และชุดแอป Office ลองนึกภาพบอกให้ Outlook เขียนอีเมลลางานอย่างเป็นทางการด้วยพรอมต์บรรทัดเดียวแบบสบาย ๆ!

แม้ว่า Microsoft จะทุ่มเงิน 1 หมื่นล้านดอลลาร์ให้กับผู้สร้าง ChatGPT ในทุกที่ แต่ผู้เชี่ยวชาญก็ให้ความสนใจอย่างใกล้ชิดกับด้านเสียงของสิ่งต่างๆ ผลลัพธ์ที่ได้คือ วัล-อีซึ่งเป็นรูปแบบการอ่านออกเสียงข้อความที่ต้องการเพียงคลิปเสียงความยาว 3 วินาทีของเสียงคน เพื่อสร้างเสียงสังเคราะห์ที่คล้ายคลึงกันจนน่าขนลุก

พูดอะไรก็ตามที่ป้อนเข้าไปในรูปแบบของข้อความแจ้ง ศักยภาพของนวัตกรรมดังกล่าวมีมาก ลองนึกภาพการฟังคานธีท่องหนังสือของเขาหลังจากฝึกฝน VALL-E โดยใช้คลิปเสียงที่หายากของเขา VALL-E อาศัยเทคนิคที่เรียกว่าโมเดลภาษาตัวแปลงสัญญาณประสาท ซึ่งไม่เพียงเรียนรู้จากคำที่พูดเท่านั้น แต่ยังรวมถึงวิธีออกเสียงที่ไม่เหมือนใครและลำดับวรรณยุกต์ของประโยคด้วย

VALL-E ดีอย่างน่ากลัว

รูปภาพ: DALL-E 2 

วัล-อี คือ “เป็นรายแรกที่ใช้รหัสตัวแปลงสัญญาณเสียงเป็นตัวแทนระดับกลาง และเกิดความสามารถในการเรียนรู้ในบริบทใน” ทีมงานที่อยู่เบื้องหลังเขียนไว้ใน รายงานการวิจัย VALL-E นั้นมีความสามารถในการเรียนรู้ตามบริบทประเภทเดียวกัน เป็นแพลตฟอร์ม ChatGPT ของ OpenAI. อย่างไรก็ตาม ชัยชนะที่ยิ่งใหญ่ที่สุดของ VALL-E ไม่ได้อยู่ที่ความสามารถในการเรียนรู้ได้เร็วเพียงใด แต่คือความเป็นธรรมชาติของเสียงพูดที่นำเสนอและความคล้ายคลึงกันอย่างน่าขนลุกกับเสียงอ้างอิงของมนุษย์ ความสำเร็จอีกประการหนึ่งคือสิ่งที่ทีมเรียกว่าการบำรุงรักษาสภาพแวดล้อมทางเสียง กล่าวโดยสรุป หากเสียงตัวอย่างการฝึกอบรมมีการสะท้อนรูปแบบใดๆ เกิดขึ้นอยู่เบื้องหลัง เสียงพูดสังเคราะห์ที่สร้างโดยโปรแกรมจะมีลักษณะเสียงเหล่านั้นด้วย

แต่สิ่งที่น่ากังวลจริงๆ และสิ่งที่ทำให้แยกคำพูดจริงออกจากการบรรยาย VALL-E ได้ยากขึ้นคือการรักษาอารมณ์ เอกสารการวิจัยระบุว่า “VALL-E สามารถรักษาอารมณ์ในพร้อมต์ที่การตั้งค่าแบบ Zero-shot.” เพื่อจับอารมณ์ซึ่งอาศัยชุดข้อมูลที่เรียกว่า EmoV-DB ซึ่งมุ่งเน้นไปที่อารมณ์หลัก 5 ประการที่สะท้อนในการสนทนาตามธรรมชาติของบุคคล ในขณะที่สร้างคลิปเสียงของตัวเอง VALL-E สามารถคัดลอกอารมณ์เดียวกับที่ระบุได้ในพรอมต์ดั้งเดิม แต่ VALL-E ยังไม่สมบูรณ์แบบ และยังมีข้อจำกัดทางเทคนิคบางประการ ตัวอย่างเช่น บางครั้งคำอาจซ้ำกันหรือออกมาอย่างไม่เข้าใจ นอกจากนี้ การฝึกอบรมข้อมูลที่คุ้มค่ากับเสียง 60 ชั่วโมงอาจฟังดูมาก แต่ก็ยังมีความหลากหลายไม่เพียงพอ โดยเฉพาะอย่างยิ่งเมื่อคำนึงถึงสำเนียงและโทนเสียงที่แตกต่างกัน

เทคโนโลยีของ Microsoft นั้นน่าประทับใจ อันที่จริง มันน่าประทับใจมาก และทีมงานก็รับทราบถึงความเป็นไปได้ในการใช้งานในทางที่ผิด เอกสารการวิจัยบันทึกว่า ตัวร้ายก็ใช้ได้ เพื่อสวมรอยหรือแอบอ้างเป็นบุคคลอื่นโดยที่พวกเขาไม่รู้ นรกทั้งหมดแตกสลายเมื่อนักต้มตุ๋นได้รับเทคโนโลยีเช่นนั้น นอกจากนี้ยังอธิบายว่าทำไมไม่มี VALL-E เวอร์ชันสาธารณะให้เล่นด้วย ซึ่งแตกต่างจากเครื่องมือ AI ยอดนิยมอื่น ๆ เช่น ChatGPT, DALL-E และ Stable Diffusion และอื่น ๆ โชคดีที่งานวิจัยระบุว่าการสร้างแบบจำลองที่สามารถตรวจจับคำพูดจริงจากคำพูดที่สร้างโดย VALL-E นั้นเป็นไปได้ สำหรับตอนนี้, ไมโครซอฟท์ ยังไม่ได้บอกว่ามีแผนจะเปิดตัว VALL-E เวอร์ชันสาธารณะหรือไม่หรือเมื่อใด

แหล่งที่มา: GitHub, อาร์ซีฟ, สตีเวน เทย์/ทวิตเตอร์