การเลือกซอฟต์แวร์สร้างเสียง AI ดูเหมือนจะง่าย จนกว่าคุณจะต้องลงมือทำจริง ๆ ผมเรียนรู้เรื่องนี้จากประสบการณ์ตรง ผมกำลังทำวิดีโอสั้นและคลิปอธิบายบางอย่าง และผมต้องการเสียงที่เหมือนจริง
การบันทึกเสียงตัวเองไม่เคยอยู่ในแผนเลย ฉันไม่มีไมโครโฟนที่ดี และฉันก็ทนฟังเสียงตัวเองที่บันทึกไว้ไม่ได้ด้วย
การจ้างนักพากย์เสียงนั้นเกินงบประมาณของฉัน ดังนั้นฉันจึงตัดสินใจใช้ AI แทน ฉันไม่ได้คาดคิดมาก่อนว่าทุกอย่างจะผิดพลาดไปได้เร็วขนาดนี้หากใช้เครื่องมือที่ไม่เหมาะสม และเชื่อฉันเถอะ มีเครื่องมือที่ไม่เหมาะสมอยู่มากมายจริงๆ
การเลือกโปรแกรมสร้างเสียง AI ที่ดีที่สุดนั้นขึ้นอยู่กับสิ่งเดียวคือ ความเหมาะสม ไม่ใช่ว่าโปรแกรมไหนมีรายชื่อเสียงให้เลือกมากที่สุด แต่โปรแกรมไหนที่ตอบโจทย์ความต้องการของฉันอย่างแท้จริง ได้แก่ ความสม่ำเสมอ เสียงที่เป็นธรรมชาติ และการควบคุมเสียงที่ออกมาได้อย่างแท้จริง
อย่างไรก็ตาม ฉันไม่ได้ผ่านกระบวนการนี้เพียงลำพัง เพื่อนร่วมงานของฉันจาก FixThePhoto ก็เข้ามาช่วยด้วย โดยร่วมกับ Kate Debela, Vadym Antypenko และ Eva Williams พวกเรา ทดสอบเครื่องสร้างเสียง AI มากกว่า 40 เครื่อง เพื่อหาโปรแกรมที่ดีที่สุด
โปรแกรมสร้างเสียง AI เป็นเครื่องมือที่น่าประทับใจ แต่หลังจากที่ได้ทดสอบแล้ว ผมบอกได้เลยว่ามันยังมีข้อบกพร่องอยู่บ้าง นี่คือสิ่งที่คุณจะได้พบเจอ:
AI สร้างเสียงพูดผ่านเทคโนโลยีแปลงข้อความเป็นเสียงพูด (TTS) ซึ่งทำงานบนการเรียนรู้ของเครื่องและโครงข่ายประสาทเทียม นี่คือวิธีง่ายๆ ที่จะเข้าใจว่าทุกอย่างทำงานร่วมกันได้อย่างไร:
การแยกวิเคราะห์ข้อความ AI เริ่มต้นด้วยการวิเคราะห์ข้อความและแยกมันออกเป็นคำ ประโยค และหน่วยเสียงเล็กๆ ที่เรียกว่าโฟนีม นอกจากนี้ยังให้ความสำคัญกับเครื่องหมายวรรคตอนเพื่อให้รู้ว่าเมื่อใดควรหายใจหรือเปลี่ยนโทนเสียง
โมเดลเสียงที่ผ่านการฝึกฝน เครื่องมือเสียง AI สมัยใหม่ขับเคลื่อนด้วยโมเดลการเรียนรู้เชิงลึก (โดยทั่วไปคือโครงข่ายประสาทเทียม) ซึ่งได้รับการฝึกฝนจากเสียงพูดของมนุษย์จริง ๆ เป็นเวลานับไม่ถ้วน ผ่านการฝึกฝนนี้ พวกมันจะเรียนรู้ว่าผู้คนพูดคำอย่างไร เปลี่ยนระดับเสียง เน้นพยางค์บางพยางค์ และถ่ายทอดอารมณ์ในน้ำเสียงอย่างไร
การสร้างเสียง จากนั้นระบบจะนำข้อความที่ผ่านการประมวลผลทั้งหมดมาแปลงเป็นเสียง โดยการสร้างคลื่นเสียงที่ใกล้เคียงกับเสียงพูดของมนุษย์จริง รุ่นที่ทันสมัยกว่านั้นสามารถปรับแต่งโทนเสียง ความเร็ว ระดับเสียง และการเน้นเสียง ทำให้เสียงฟังดูเป็นธรรมชาติ แทนที่จะฟังดูแบนและเหมือนหุ่นยนต์
การปรับแต่งสไตล์และอารมณ์ เสียงสังเคราะห์ AI ที่ใช้โครงข่ายประสาทเทียมจำนวนมากช่วยให้คุณเลือกเสียง สำเนียง หรือสไตล์การพูดที่แตกต่างกันได้ บางรุ่นยังสามารถเพิ่มอารมณ์เข้าไป หรือปรับแต่งเสียงให้เหมาะกับสถานการณ์ต่างๆ เช่น บรรยากาศการบรรยาย หรือการสนทนาโต้ตอบที่เป็นธรรมชาติ
การส่งออกไฟล์เสียง เมื่อเสร็จสิ้นแล้ว เสียงพูดที่เสร็จสมบูรณ์จะถูกบันทึกเป็นไฟล์เสียง (MP3 หรือ WAV) จากนั้นคุณสามารถแทรกไฟล์เสียงนี้ลงในวิดีโอ พอดแคสต์ เกม หรือแอปพลิเคชันได้
เสียง AI สร้างขึ้นโดยการฝึกฝนคอมพิวเตอร์ให้เข้าใจวิธีการพูดของคน แล้วจึงคัดลอกคำพูดนั้นในรูปแบบที่ง่ายและทำซ้ำได้ คนไม่จำเป็นต้องนั่งลงและบันทึกทุกประโยคด้วยตนเองอีกต่อไป
ตอนที่ผมเริ่มใช้ โมเดลวิดีโอ Adobe Firefly ครั้งแรก ผมไม่ได้อยู่ในอารมณ์ที่จะทดลองอะไรใหม่ๆ ผมต้องการอะไรที่ผมสามารถพึ่งพาได้จริงๆ สำหรับงานเชิงพาณิชย์ ดังนั้น ผมจึงใส่สคริปต์อธิบายที่เรียบง่ายสำหรับเว็บไซต์ของแบรนด์ และได้รับผลลัพธ์ที่เป็นกลางและดูเป็นมืออาชีพ
จากนั้นผมลองทดสอบเพิ่มเติมด้วยเนื้อหาการศึกษาที่ยาวขึ้น การบรรยายหลายย่อหน้าเป็นจุดที่โปรแกรมสร้างเสียง AI ออนไลน์จำนวนมากเริ่มทำงานได้ไม่ดีนัก พวกมันรับมือกับการเปลี่ยนแปลงโทนเสียงและจังหวะการพูดได้ไม่ดี แต่ Firefly ไม่สะท้านเลย มันคงที่ตลอด และในส่วนที่ซับซ้อนและมีรายละเอียดทางเทคนิคมากขึ้น มันกลับลดความเร็วลงอย่างจงใจด้วยซ้ำ
เสียงที่ได้ยินไม่ได้ฟังดูเหมือนปัญญาประดิษฐ์กำลังอ่านจากหน้ากระดาษ แต่ฟังดูเหมือนคนที่มีประสบการณ์อ่านแบบนี้มาแล้วนับร้อยครั้ง
ฉันส่งสคริปต์โปรโมชั่นสั้นๆ ให้ Firefly ซึ่งมีอารมณ์ความรู้สึกแฝงอยู่บ้าง มันไม่ได้ดูโอเวอร์เกินไป ฉันได้ยินน้ำเสียงที่สงบ มั่นใจ และหนักแน่น ซึ่งเป็นสิ่งที่ฉันต้องการเพื่อนำเสนอแบรนด์ ฉันชอบความสม่ำเสมอเป็นพิเศษ ฉันลองอัดหลายครั้ง และน้ำเสียงก็คงที่ทุกครั้ง นั่นเป็นเรื่องสำคัญมากเมื่อคุณต้องผลิตคอนเทนต์ในปริมาณมากและต้องการให้ทุกอย่างฟังดูสอดคล้องกัน
ความคิดเห็นส่วนตัวของผมคือ Firefly พร้อมใช้งานจริง ๆ แล้ว มันไม่ได้พยายามที่จะหวือหวาหรือแหวกแนวความคิดสร้างสรรค์ มันเน้นความชัดเจน ความสม่ำเสมอ และให้ความรู้สึกเป็นมืออาชีพในทุกสิ่งที่มันทำ นี่คือหนึ่งในโปรแกรมแปลงข้อความเป็นเสียงพูดด้วย AI ที่ดีที่สุดสำหรับการใช้งานในแบรนด์หรือองค์กร
ฉันเคยทดสอบโปรแกรมแปลงเสียงเป็นเสียงพูดมาหลายตัวแล้ว ส่วนใหญ่ฟังดูเหมือนเครื่องจักรกำลังอ่านข้อความ แต่ ElevenLabs แตกต่างออกไป ฉันใส่สคริปต์บรรยายง่ายๆ เข้าไป โดยคาดหวังผลลัพธ์ที่เหมือนหุ่นยนต์ทั่วไป แต่สิ่งที่ฉันได้กลับเป็นการหยุดพูดที่เป็นธรรมชาติ การเปลี่ยนอารมณ์ที่แท้จริง และน้ำเสียงที่สมเหตุสมผล เป็นเครื่องมือตัวแรกในรอบหลายปีที่ทำให้ฉันต้องฟังซ้ำอีกรอบเพื่อตรวจสอบความถูกต้อง
จากนั้นฉันก็ปรับแต่งมัน – เขียนบทใหม่ด้วยความตึงเครียดและความตื่นเต้น มันถ่ายทอดพลังงานนั้นออกมาได้หมด คำที่สำคัญถูกเน้นย้ำโดยไม่ฟังดูเกินจริงหรือฝืนธรรมชาติ โปรแกรมสร้างเสียงพากย์ AI ส่วนใหญ่จะประมวลผลข้อความของคุณ แต่โปรแกรมนี้ตอบสนองต่อข้อความอย่างแท้จริง ซึ่งเป็นสิ่งที่หาได้ยาก
ต่อมา ผมใช้สคริปต์ความยาวห้านาที เสียงยังคงแสดงอารมณ์ได้ดีโดยไม่เพี้ยน มีข้อผิดพลาดเล็กน้อยในการออกเสียงบ้าง แต่ก็ไม่ใช่เรื่องร้ายแรงอะไร โดยทั่วไปแล้ว ElevenLabs ให้ผลตอบแทนที่ดีกับสคริปต์ที่เขียนได้ดี ยิ่งคุณตั้งใจเขียนสคริปต์มากเท่าไหร่ ผลลัพธ์ก็จะยิ่งดีขึ้นเท่านั้น มันต้องใช้ความพยายามมากกว่าโปรแกรมสร้างเสียง AI พื้นฐานเล็กน้อย แต่ความสมจริงที่คุณได้รับกลับมานั้นอยู่ในระดับที่เหนือกว่า
Murf AI เหนือกว่าโปรแกรมตัดต่อวิดีโออื่นๆ ที่คล้ายกันด้วยเหตุผลสำคัญข้อหนึ่ง คือ เสียงที่ได้นั้นดูเป็นมืออาชีพตั้งแต่เริ่ม box ใช้งาน อินเทอร์เฟซสะอาดตาและใช้งานง่าย ผมลองใส่สคริปต์สาธิตผลิตภัณฑ์ลงไป และผลลัพธ์ที่ได้นั้นคมชัด มีโครงสร้าง และดูดีมากแทบจะในทันที มันทำให้ผมนึกถึงวิดีโอแนะนำสินค้าของบริษัทที่ผลิตออกมาได้ดีจริงๆ สำหรับเนื้อหาการสอน ความชัดเจนคือทุกสิ่ง
ต่อมา ผมปรับระดับเสียง ปรับความเร็ว และพยายามทำให้เสียงดูอบอุ่นและเป็นกันเองมากขึ้น มันช่วยได้บ้าง แต่โดยธรรมชาติแล้ว Murf มักจะใช้ภาษาที่เป็นทางการ ประโยคสั้นๆ ฟังดูดี แต่ย่อหน้ายาวๆ รู้สึกว่าขาดอารมณ์ไปบ้าง ผมคิดว่า Murf ไม่ได้พยายามทำให้เสียงเหมือนมนุษย์จริงๆ แต่พยายามทำให้เสียงดูน่าเชื่อถือ ซึ่งเป็นสิ่งที่จำเป็นสำหรับการสอน การนำเสนอ และการสาธิตแบบมืออาชีพ
เมื่อผมลองใช้โมดูลฝึกอบรมขนาดยาวกับ เครื่องมือเสียง AI นี้ เสียงที่ได้มีความสม่ำเสมออย่างน่าทึ่งตั้งแต่ต้นจนจบ ผมไม่ได้ยินเสียงกระโดดของโทนเสียงหรือการหยุดชะงักที่น่าอึดอัดใดๆ ทุกอย่างไหลลื่นอย่างเป็นธรรมชาติระหว่างประโยค หากคุณกำลังสร้างวิดีโอปฐมนิเทศหรือเนื้อหาภายในองค์กร นี่คือหนึ่งในเครื่องมือสร้างเสียง AI ระดับมืออาชีพที่ดีที่สุดที่มีอยู่
ฉันใช้เวลาสำรวจคลังเสียงและการรองรับหลายภาษาด้วยเช่นกัน การเลือกเสียงอยู่ในระดับที่เหมาะสม ไม่มีอะไรที่โดดเด่นเกินไป แต่ก็เพียงพอต่อการใช้งาน เสียงบางเสียงฟังดูเหมือนคนจริง ๆ ในขณะที่บางเสียงฟังดูเหมือนหุ่นยนต์ ดังนั้นคุณควรทดสอบก่อนตัดสินใจใช้ ฉันลองใช้สำเนียงต่าง ๆ ด้วย ความชัดเจนของเสียงอยู่ในระดับดีในเกือบทุกสำเนียง แม้ว่าอารมณ์ที่ละเอียดอ่อนจะขาดหายไปเป็นส่วนใหญ่
ตอนแรกที่เปิดใช้ Revoicer ฉันไม่ได้คาดหวังอะไรมาก แต่กลับรู้สึกประหลาดใจจริงๆ น้ำเสียงมีพลังเป็นธรรมชาติ วลีสำคัญๆ สื่อความหมายได้ชัดเจน และพลังงานก็เหมาะสมลงตัว มันตรงกับสิ่งที่ฉันต้องการสำหรับโฆษณาสั้นๆ มีบางประโยคที่ดูดราม่าเกินไปเล็กน้อย แต่ก็ไม่ได้แย่จนทำให้โฆษณาเสีย
จากนั้นผมก็เริ่มทะเยอทะยานและทดสอบ ซอฟต์แวร์พากย์เสียง นี้กับการบรรยายที่ยาวขึ้น นั่นแหละที่ผมต้องลดความเร็วลง พลังงานเริ่มไม่สม่ำเสมอระหว่างย่อหน้า บางประโยคฟังดูดังเกินไปโดยไม่ตั้งใจ บางประโยคก็ฟังดูราบเรียบไปหน่อย และช่วงหยุดพูดบางครั้งก็ดูไม่เป็นธรรมชาติ เหมือนกับว่าใครบางคนลืมหายใจในจังหวะที่เหมาะสม
ฉันยังได้ทดลองกับสไตล์การบรรยายและการตั้งค่าโทนเสียงด้วย โดยการปรับระดับเสียง ความเร็ว และการเน้นเสียง ฉันสามารถทำให้เสียงฟังดูผ่อนคลายมากขึ้นสำหรับเนื้อหาที่เบาลง มันสามารถปรับเล็กน้อยได้ค่อนข้างดี แต่ความรู้สึกกระฉับกระเฉงก็ไม่หายไปทั้งหมด ฉันลองใช้กับสคริปต์ทุกประเภท และมันทำงานได้ดีที่สุดกับคลิปสั้นๆ ส่วนการบรรยายที่ยาวกว่าและนุ่มนวลกว่านั้นต้องมีการปรับแต่งเพิ่มเติม
ฉันได้ทดสอบการใช้งานเชิงพาณิชย์แล้วด้วย เสียงที่ได้นั้นหนักแน่นและติดหู ซึ่งช่วยให้แบรนด์ติดอยู่ในใจผู้คนได้ อย่างไรก็ตาม ฉันคงต้องคิดสองครั้งก่อนที่จะใช้มันสำหรับการเล่าเรื่องแบบนุ่มนวลหรือวิดีโอที่มีความยาวมาก โดยทั่วไปแล้ว มันเป็นหนึ่งในโปรแกรมสร้างเสียงพูดด้วย AI ที่ดีที่สุดสำหรับการโฆษณา โซเชียลมีเดีย และการประกาศต่างๆ ซึ่งการมีเสียงดังและกระฉับกระเฉงนั้นเป็นประโยชน์อย่างมาก
เมื่อลองใช้ LOVO ครั้งแรก ฉันรู้สึกประหลาดใจกับความสะอาดตาและใช้งานง่ายของทุกอย่าง ตัวเลือกเสียงต่างๆ ก็ทำให้ฉันอยากลองแล้ว ฉันเลยลองสร้างสคริปต์สั้นๆ สำหรับโซเชียลมีเดียเพื่อดูว่ามันจัดการกับบทสนทนาแบบสบายๆ ได้ดีแค่ไหน เสียงแรกที่ฉันเลือกนั้นให้ความรู้สึกอบอุ่นและเป็นธรรมชาติ เหมือนมีคนกำลังคุยกับคุณจริงๆ
การปรับความเร็วและระดับเสียงทำได้ง่าย จากนั้นฉันก็ลองใช้สคริปต์อธิบายที่ยาวขึ้น เสียงยังคงชัดเจนตลอดทั้งเรื่อง แต่รู้สึกว่ามันดูราบเรียบทางอารมณ์ไปหน่อยเมื่อเทียบกับผู้บรรยายที่เป็นคนจริงๆ อย่างไรก็ตาม มันก็ดูดีและเข้าใจง่าย การลองใช้เสียงต่างๆ ทำให้ฉันเข้าใจว่าการเลือกเสียงที่เหมาะสมสามารถทำให้เนื้อหาของคุณน่าสนใจหรือไม่น่าสนใจได้เลยทีเดียว
ฉันได้ทดสอบ เครื่องสร้างวิดีโอ AI ตัวนี้ในโปรเจ็กต์แบรนด์หนึ่งด้วย ฉันเลือกใช้โทนเสียงแบบมืออาชีพ และมันก็ทำได้ดี เสียงมีความชัดเจนและไพเราะ – เป็นทางการพอสำหรับบริบททางธุรกิจโดยไม่ฟังดูแข็งทื่อ ฉันได้ปรับแต่งความเร็วและการเน้นเสียงเล็กน้อย ฉันคิดว่าตัวเองจะกลับมาใช้โปรแกรมสร้างเสียง AI นี้อีกแน่นอนสำหรับการสร้างวิดีโอเพื่อโซเชียลมีเดียในอนาคต
ถัดมา ผมได้วิเคราะห์คุณสมบัติหลายภาษา LOVO มีสำเนียงและภาษาให้เลือกมากมาย แต่บางภาษาก็ฟังดูราบรื่นกว่าภาษาอื่นๆ อย่างเห็นได้ชัด สำหรับผู้ที่สร้างคอนเทนต์สำหรับผู้ชมทั่วโลก ความยืดหยุ่นนี้ถือเป็นข้อดีอย่างมาก โดยทั่วไปแล้ว การใช้งานนั้นง่าย และการส่งออกไฟล์ก็รวดเร็วและไม่ยุ่งยาก
ตอนที่ผมลองใช้ RecCloud ครั้งแรก มันดูโดดเด่นกว่าโปรแกรมสร้างเสียง AI สำหรับผู้สร้างคอนเทนต์อื่นๆ แต่ไม่ใช่ในทางที่ดีที่สุด เสียงที่ได้นั้นพอใช้ได้ แต่ผมรู้สึกได้ทันทีว่ามันมีโทนเสียงแบบหุ่นยนต์ ผมลองใส่สคริปต์แนะนำสั้นๆ เข้าไป แล้วผลลัพธ์ก็ออกมาอย่างรวดเร็ว
เพื่อทดสอบประสิทธิภาพของมัน ฉันจึงอัปโหลดเนื้อหาที่ยาวขึ้นและมีหลายย่อหน้า การเรียบเรียงเนื้อหาทำได้ค่อนข้างดี แต่จังหวะการพูดนั้นคาดเดาได้ง่ายเกินไปเมื่อเวลาผ่านไป มันขาดความลื่นไหลแบบมนุษย์ การปรับเครื่องหมายวรรคตอนช่วยได้เล็กน้อย แต่เสียงก็ยังฟังดูเหมือนเครื่องจักรอยู่ดี
ฉันลองทดสอบกับสคริปต์หลายภาษาแล้ว ผลลัพธ์ที่ได้ค่อนข้างหลากหลาย ภาษาอังกฤษฟังดูดีที่สุด ในขณะที่ภาษาอื่นๆ ฟังดูเหมือนหุ่นยนต์มากกว่า สำหรับการบรรยายแบบรวดเร็วและไม่ซับซ้อน มันก็ใช้งานได้ดี แต่ก็ไม่ได้มีความหลากหลายเท่ากับเครื่องมืออื่นๆ ในรายการของฉัน
ข้อเสียที่สำคัญที่สุดคือมันไม่สามารถสร้างทำนองเพลงได้ ดังนั้นหากคุณต้องการดนตรีประกอบเสียงพากย์ คุณจะต้องใช้ เครื่องกำเนิดเพลง AI แยกต่างหากเพื่อเติมเต็มส่วนนั้น
ฉันได้รู้จัก Fliki ขณะกำลังทำวิดีโอสั้นที่ต้องการภาพประกอบ การเชื่อมโยงข้อความกับวิดีโอทำได้ง่ายกว่าเครื่องมืออื่นๆ ที่ฉันเคยใช้มาก่อน เสียงบรรยายเข้ากับคำบรรยายและสิ่งที่เกิดขึ้นบนหน้าจอได้อย่างเป็นธรรมชาติ ทำให้ฉันไม่ต้องเสียเวลาปรับจังหวะเอง เสียงมีความเสถียรและชัดเจน แม้ว่าจะไม่ได้แสดงอารมณ์มากนักก็ตาม
โดยรวมแล้ว Fliki เป็นหนึ่งในโปรแกรมสร้างเสียง AI ที่สมจริงที่สุดสำหรับผู้ที่ต้องการผลลัพธ์ที่รวดเร็ว
ฉันอัปโหลดสคริปต์การเล่าเรื่องด้วย มันจัดการกับประโยคสั้นๆ ได้ดี แต่ย่อหน้าที่ยาวๆ ดูเหมือนหุ่นยนต์ไปหน่อย การปรับความเร็วและระดับเสียงช่วยได้เล็กน้อย ในขณะที่การแบ่งสคริปต์ออกเป็นส่วนย่อยๆ ช่วยได้มากทีเดียว เห็นได้ชัดว่า Fliki เหมาะกับเนื้อหาที่สั้นและแบ่งเป็นส่วนๆ มากกว่าการเล่าเรื่องยาวๆ
ขณะทดสอบ Speechify ฉันใช้ข้อความสนทนาทั่วไปเพื่อดูว่ามันสามารถรับมือได้ดีแค่ไหน ผลลัพธ์ดีกว่าที่ฉันคาดไว้ มันสามารถจับคำสำคัญได้อย่างเป็นธรรมชาติโดยไม่เน้นอารมณ์มากเกินไป จังหวะการพูดเหมาะสม ทำให้ฟังง่ายและเพลิดเพลินอย่างแท้จริง ดูเหมือนว่าจะเป็นเครื่องมือสร้างเสียง AI ที่ฟังดูเหมือนมนุษย์ได้ดี เหมาะสำหรับวิดีโออธิบายหรือพอดแคสต์เพื่อการศึกษา
ต่อมา ฉันอัปโหลดเนื้อหาชิ้นใหญ่ๆ ทีละชิ้น เสียงยังคงราบรื่นและสม่ำเสมอโดยไม่มีการเปลี่ยนแปลงโทนเสียงหรือจังหวะการพูดที่แปลกประหลาด การเปลี่ยนแปลงเครื่องหมายวรรคตอนเล็กน้อยช่วยในการหยุดพูด ฟังง่ายจริงๆ อย่างไรก็ตาม การปรับแต่งมีข้อจำกัดอยู่บ้าง ความเร็วและน้ำเสียงทำงานได้ดี แต่การควบคุมความลึกซึ้งทางอารมณ์และการเน้นเสียงนั้นค่อนข้างพื้นฐาน
การลองใช้ Fiverr นั้นน่าสนใจมาก มันเป็นตลาดซื้อขายบริการ ไม่ใช่แค่เทคโนโลยีสร้างเสียงด้วย AI เพียงอย่างเดียว ฉันเลื่อนดูงานพากย์เสียง AI ต่างๆ และพบว่าคุณภาพและสไตล์ของแต่ละผู้ให้บริการแตกต่างกันอย่างมาก ฉันสั่งงานพากย์เสียงสั้นๆ ไปหนึ่งงานเพื่อดูว่ากระบวนการทั้งหมดเป็นอย่างไร
ยิ่งคุณให้คำแนะนำชัดเจนมากเท่าไหร่ ผลลัพธ์ก็จะยิ่งดีขึ้นเท่านั้น การแก้ไขต้องใช้เวลาในการพูดคุยกันไปมาบ้าง แต่ในที่สุดฉันก็ได้สิ่งที่ตรงกับสิ่งที่ฉันคิดไว้ Fiverr ต้องใช้ความพยายามมากกว่าการใช้ เครื่องมือ AI เชิงสร้างสรรค์ อัตโนมัติเพียงอย่างเดียว
การปรับแต่งคำสั่งซื้อของคุณหมายถึงการพูดคุยกับผู้ขายโดยตรง ไม่มีตัวเลือกหรือการควบคุมใด ๆ ให้คุณปรับแต่งได้เอง ซึ่งเป็นทั้งข้อดีและข้อเสีย คุณจะได้ความยืดหยุ่นมากขึ้น แต่ก็ทำให้กระบวนการช้าลง ราคาแตกต่างกันมาก ดังนั้นการเปรียบเทียบราคาจึงช่วยได้ เหมาะที่สุดสำหรับกลุ่มเฉพาะหรือสไตล์เสียงที่เฉพาะเจาะจงมาก ๆ
ฉันได้ทดสอบเสียง AI Artlist ต์ ในโปรเจ็กต์วิดีโอจริง และมันทำให้ฉันประทับใจมาก เสียงที่ได้ออกมานั้นคมชัดและเหมือนภาพยนตร์ ผสมผสานเข้ากับดนตรีประกอบได้อย่างลงตัว จากนั้นฉันลองใช้สคริปต์ของแบรนด์เพื่อตรวจสอบว่ามันรับมือกับน้ำเสียงที่เป็นทางการได้ดีแค่ไหน มันยังคงรักษาความสุภาพและเป็นมืออาชีพตลอด การแสดงอารมณ์อาจมีน้อย แต่สำหรับวิดีโอองค์กรแล้ว มันทำได้ดีเยี่ยม
สไตล์น้ำเสียงมีความหลากหลายอย่างลงตัว บางเสียงฟังดูเย็นชาและเป็นกลาง ในขณะที่บางเสียงก็ดูร่าเริงเหมาะสำหรับการโปรโมต การเปลี่ยนสไตล์น้ำเสียงเพื่อให้ได้เสียงที่แตกต่างกันนั้นสะดวกมาก ส่วนที่ดีที่สุดคือคุณภาพเสียงดีสม่ำเสมอในทุกการทดสอบที่ฉันทำ
ฉันทดสอบ WellSaid Labs กับสคริปต์บรรยายสำหรับองค์กร และมันทำให้ฉันประทับใจตั้งแต่แรกเห็น ตั้งแต่บรรทัดแรก เสียงมีความมั่นใจและชัดเจนโดยไม่ฟังดูแข็งทื่อ มันจัดการกับคำศัพท์ทางเทคนิคได้อย่างสมบูรณ์แบบ ซึ่งโดยปกติแล้วโปรแกรมสร้างเสียง AI ฟรีมักจะทำได้ไม่ดีในจุดนี้ แต่ตัวนี้กลับทำได้ดีมาก มันทำให้ฉันนึกถึงนักพากย์เสียงตัวจริงที่รู้ว่าตัวเองกำลังทำอะไรในสภาพแวดล้อมการทำงานแบบมืออาชีพ
ฉันใช้เวลาไปกับการลองใช้เสียงและสำเนียงต่างๆ ด้วย ถึงแม้จะมีให้เลือกไม่มาก แต่ทุกเสียงในคลังก็ฟังดูสะอาดและเป็นมืออาชีพ การออกเสียงหลายภาษาก็ทำได้ดีทีเดียวสำหรับคำศัพท์ทั่วไป ถึงแม้ว่าบางครั้งคำศัพท์ที่ไม่คุ้นเคยอาจต้องปรับแต่งเล็กน้อยเพื่อให้ฟังดูถูกต้อง
อย่างไรก็ตาม สิ่งหนึ่งที่ทำให้ผมรู้สึกไม่ค่อยดีนักก็คือ การขาดฟีเจอร์แก้ไขเสียงในตัว ดังนั้น ในระหว่างที่ผมทดสอบแอป ผมจึงต้องไปหา ซอฟต์แวร์แก้ไขเสียงฟรี แยกต่างหากมาใช้ เพื่อแก้ไขเสียงบางส่วน
เพื่อทดสอบความสามารถของ Listnr ฉันใช้สคริปต์สไตล์พอดแคสต์ เสียงที่ได้นั้นชัดเจนและเข้าใจง่ายโดยไม่มีการปรุงแต่งเกินจริง ความเร็วในการแปลงข้อความเป็นเสียงนั้นทำให้ฉันประหลาดใจในทางที่ดี สำหรับใครก็ตามที่ต้องการเสียงบรรยายที่เรียบง่ายและเชื่อถือได้ ดูเหมือนว่าจะเป็นตัวเลือกที่ดีทีเดียว
ฉันลองทดสอบเสียงหลายๆ ส่วนติดต่อกันเพื่อดูว่าจังหวะเสียงจะคงที่ตลอดหรือไม่ จังหวะเสียงค่อนข้างดี แต่ยิ่งนานไป เสียงก็เริ่มซ้ำซากมากขึ้น การปรับแต่งเล็กๆ น้อยๆ ช่วยให้เสียงราบรื่นขึ้น ในความคิดของฉัน Listnr เป็นเครื่องสร้างเสียง AI ที่ยอดเยี่ยมสำหรับเนื้อหาที่ตรงไปตรงมาและให้ข้อมูล
เพื่อทดสอบเสียง AI ของ Freepik ฉันใช้โปรเจ็กต์ออกแบบของฉัน สคริปต์สั้นๆ ฟังดูดีและเข้าใจง่าย แต่สคริปต์ที่ยาวกว่านั้นทำให้ฉันผิดหวัง มันมีประโยชน์เมื่อคุณต้องการเสียงพากย์สั้นๆ สำหรับภาพของคุณ ฉันลองใช้เสียงและสำเนียงต่างๆ แต่ความแตกต่างไม่ค่อยชัดเจนนัก ในความคิดของฉัน นี่เป็นเครื่องมือที่ดีสำหรับภาพ แต่ยังด้อยกว่าเครื่องสร้างเสียง AI ที่ฟังดูเหมือนมนุษย์โดยเฉพาะ
ฉันลองใช้มันบรรยายหลายย่อหน้าดูแล้ว มันก็ใช้ได้ดีระดับหนึ่ง แต่พอใช้กับสคริปต์ที่ยาวขึ้น ก็เห็นได้ชัดว่าเสียงพากย์มีปัญหาเรื่องการแสดงอารมณ์และจังหวะ ฉันลองปรับแก้ด้วยตนเองแล้ว แต่ก็ยังฟังดูเหมือนหุ่นยนต์อยู่ดีในส่วนที่ยาวกว่า โดยรวมแล้ว เสียงพากย์ AI ของ Freepik เหมาะที่สุดสำหรับการเสริมเพิ่มเติมอย่างรวดเร็วและสะดวกสำหรับการบรรยายแบบง่ายๆ เมื่อคุณใช้มันกับภาพอยู่แล้ว ไม่ใช่เครื่องมือพากย์เสียงหลัก
ทีมทดสอบของเรามีสมาชิก ทีม FixThePhoto สามคน ได้แก่ Kate Debela, Vadym Antypenko และ Eva Williams โดย Kate ตรวจสอบความชัดเจนและความถูกต้องของการออกเสียง Vadym ตรวจสอบความเร็วและความสม่ำเสมอของการพูด และ Eva ประเมินว่าเสียงพูดแสดงอารมณ์ได้ดีเพียงใด
เพื่อทดสอบโปรแกรมสร้างเสียง AI แต่ละตัวอย่างยุติธรรม เราจึงใช้ สคริปต์เดียวกัน ในทุกโปรแกรม ซึ่งรวมถึงข้อความสั้นๆ สำหรับโซเชียลมีเดีย บทแนะนำ เนื้อหาโปรโมชั่น และเนื้อหาให้ความรู้ที่ยาวขึ้น
เคทคอยตรวจสอบคำที่ฟังดูเหมือนหุ่นยนต์หรือออกเสียงผิด วาดิมตรวจสอบว่าจังหวะการพูดคงที่หรือไม่ โดยเฉพาะในส่วนที่ยาวกว่า อีวาตรวจสอบ การถ่ายทอดอารมณ์ ว่าน้ำเสียงฟังดูตื่นเต้น สงบ หรือเป็นมืออาชีพตามเนื้อหาหรือไม่ การทดสอบหนึ่งใช้ประกาศเกี่ยวกับแบรนด์ อีกการทดสอบหนึ่งใช้บทช่วยสอนทางเทคนิคความยาวห้านาที
ถัดมา เราประเมินว่าเครื่องมือแต่ละตัวฟัง ดูสมจริงและใช้งานได้จริง แค่ไหน LOVO ใช้ได้ดีกับสคริปต์แบบไม่เป็นทางการ แต่ขาดความลึกซึ้งทางอารมณ์ในเนื้อหาที่ยาวกว่า ส่วน Revoicer ฟังดูโดดเด่นและมีพลัง ทำให้เหมาะสำหรับโฆษณาสั้นๆ แต่สคริปต์ที่ยาวกว่านั้นจำเป็นต้องปรับแต่งเพิ่มเติม
Murf AI ทำงานได้ดีที่สุดสำหรับบทเรียนและเนื้อหาสำหรับองค์กร เนื่องจากมีโทนเสียงที่ชัดเจนและเป็นระบบ ElevenLabs สร้างความประทับใจให้เราด้วยการเล่าเรื่องที่ฟังดูเป็นธรรมชาติและการเปลี่ยนอารมณ์ที่ราบรื่น Adobe Firefly มีความเสถียรและเชื่อถือได้สำหรับเนื้อหาแบรนด์และการศึกษา
นอกจากนี้เรายังพิจารณาถึงความเร็ว การปรับแต่ง และความง่ายในการใช้งาน เคททดสอบว่าแต่ละเครื่องมือสร้างเสียงได้เร็วแค่ไหน และปรับระดับเสียง ความเร็ว และการเน้นเสียงได้ง่ายเพียงใด วาดิมตรวจสอบ ตัวเลือกการส่งออก การรองรับภาษา และการบูรณาการวิดีโอ อีวาให้คะแนนแต่ละเครื่องมือในด้านการแสดงออกทางอารมณ์และความเป็นธรรมชาติของเสียง
โดยรวมแล้ว LOVO และ Fliki เหมาะสำหรับเนื้อหาโซเชียลมีเดียสั้นๆ ในขณะที่ Murf AI , WellSaid Labs และ ElevenLabs เหมาะกว่าสำหรับการบรรยายที่ยาวกว่าและเป็นมืออาชีพ
ทีมของเรา ทดสอบแล้ว เครื่องมือสร้างเสียง AI แต่ละตัวในสถานการณ์จริง โดยประเมินความชัดเจน อารมณ์ ความสอดคล้อง และความสามารถในการใช้งาน ด้วยการนำผลการค้นพบของเคท วาดิม และอีวามารวมกัน เราจึงได้สร้างบทวิจารณ์ที่เที่ยงตรงและรอบด้านเพื่อช่วยคุณเลือกเครื่องมือที่เหมาะสมสำหรับโครงการของคุณ