בחירת תוכנה ליצירת קול מבוססת בינה מלאכותית נשמעת פשוטה, עד שבאמת צריך לעשות את זה. למדתי את זה בדרך הקשה. הכנתי סרטון קצר וכמה קטעי הסבר, והייתי צריך קול אמיתי.
להקליט את עצמי אף פעם לא באמת עלה בגורל. לא היה לי מיקרופון טוב, ואני לא יכול לסבול לשמוע את הקול שלי מתנגן.
שכירת שחקן קול הייתה מחוץ לתקציב שלי. אז החלטתי להשתמש בבינה מלאכותית. לא ציפיתי כמה מהר דברים יכולים להשתבש עם הכלי הלא נכון. ותאמינו לי, יש הרבה כלים לא נכונים בשוק.
בחירת מחוללי הקול הטובים ביותר מבוססי בינה מלאכותית הסתכמה בדבר אחד - התאמה. לא איזה כלי הציג את רשימת הקולות הארוכה ביותר, אלא איזה מהם באמת סיפק את מה שהייתי צריך: עקביות, צליל טבעי ושליטה אמיתית על הפלט.
לא עברתי את התהליך הזה לבד. עמיתיי מ- FixThePhoto קפצו לתמונה כדי לעזור. יחד עם קייט דבלה, ואדים אנטיפנקו ואווה וויליאמס, נבדקו מעל 40 מחוללי קול מבוססי בינה מלאכותית כדי למצוא את הטוב ביותר.
מחוללי קול מבוססי בינה מלאכותית הם כלים מרשימים, אבל אחרי שבדקתי אותם, אני יכול לומר לכם שעדיין יש להם כמה קשיים. הנה מה שתיתקלו בו:
בינה מלאכותית בונה קולות באמצעות טכנולוגיית טקסט לדיבור (TTS) הפועלת על למידת מכונה ורשתות עצביות. הנה דרך פשוטה להבין איך הכל מתחבר:
פירוק הטקסט. הבינה המלאכותית מתחילה במעבר על הטקסט ופירוקו למילים, משפטים ויחידות צליל זעירות הנקראות פונמות. בנוסף, היא שמה לב לפיסוק כדי לדעת מתי לנשום או לשנות את הטון.
מודלים קוליים מאומנים. כלי קול מודרניים מבוססי בינה מלאכותית מופעלים על ידי מודלים של למידה עמוקה (בדרך כלל רשתות עצביות) שאומנו על אינספור שעות של דיבור אנושי אמיתי. באמצעות אימון זה, הם מבינים כיצד אנשים אומרים מילים, משנים את גובה הצליל שלהם, מדגישים הברות מסוימות ונושאים רגש בקולם.
יצירת הצליל. משם, המערכת לוקחת את כל הטקסט המעובד והופכת אותו לאודיו על ידי הפקת גלי קול התואמים מקרוב לדיבור אנושי אמיתי. הדגמים המתקדמים יותר יכולים לכוונן את הטון, המהירות, גובה הצליל וההדגשה, ובכך לתת לקול תחושה טבעית במקום להישמע שטוח ורובוטי.
התאמת סגנון ומצב רוח. מגוון רחב של מחוללי קול מבוססי בינה מלאכותית מאפשרים לך לבחור מבין קולות, מבטאים או סגנונות דיבור שונים. דגמים מסוימים יכולים אפילו להוסיף רגשות לתערובת או לכוונן את הקול כדי להתאים לתרחישים שונים, כגון אווירת קריינות או שיחה טבעית הלוך ושוב.
ייצוא השמע. לאחר סיום הפעולה, הנאום המוגמר נשמר כקובץ שמע (MP3 או WAV). בהמשך, תוכלו להכניס אותו לסרטונים, פודקאסטים, משחקים או אפליקציות.
קולות מבוססי בינה מלאכותית נוצרים על ידי אימון מחשבים להבין כיצד אנשים מדברים ולאחר מכן להעתיק את הדיבור הזה בצורה קלה וחוזרת על עצמה. אנשים לא צריכים לשבת ולהקליט כל שורה ושורה.
כשהתחלתי לעבוד עם מודל וידאו Adobe Firefly , לא היה לי חשק להתנסות. הייתי צריך משהו שאוכל לסמוך עליו לעבודה מסחרית. אז, הזנתי סקריפט הסבר נקי לאתר אינטרנט של מותג, וקיבלתי תוצאה ניטרלית ומקצועית.
אחר כך דחפתי את זה קדימה עם קטע חינוכי ארוך יותר. קריינות מרובת פסקאות היא המקום שבו הרבה מחוללי קול מקוונים של בינה מלאכותית מתחילים להתפרק, מתמודדים עם שינויי טון וקצב. Firefly לא נרתעה. היא נשארה יציבה לכל אורך הדרך, ובחלקים הצפופים והטכניים יותר, היא למעשה האטה במכוון.
האודיו לא נשמע כמו בינה מלאכותית שקראה דף, אלא יותר כמו מישהו שעשה את זה מאה פעמים בעבר.
נתתי ל- Firefly תסריט קצר לקידום מכירות, כזה עם נימה רגשית אפויה. הוא לא הגזים. שמעתי ביטחון עצמי רגוע ויציב - בדיוק מה שהייתי צריך כדי לייצג מותג. אהבתי במיוחד את העקביות. הרצתי מספר טייקים, והקול נשאר יציב בכל פעם. זה עניין גדול כשאתה מפיק תוכן בקנה מידה גדול וצריך שהכל יישמע קוהרנטי.
דעתי הכנה היא ש- Firefly באמת מוכן להפקה. הוא לא מנסה להיות ראוותני או לדחוף גבולות יצירתיים. הוא מתפאר בבהירות, נשאר עקבי ומביא תחושה מקצועית לכל מה שהוא נוגע בו. זהו אחד ממחוללי הטקסט לדיבור המובילים בתחום הבינה המלאכותית לעבודה ממותגת או ארגונית.
בדקתי הרבה כלי קול. רובם נשמעים כמו מכונה שקוראת טקסט. ElevenLabs היה סיפור אחר. הוספתי סקריפט נרטיבי פשוט וציפיתי לפלט הרובוטי הרגיל. במקום זאת, קיבלתי הפסקות טבעיות, שינויים רגשיים אמיתיים ואינטונציה שהייתה הגיונית. הכלי הראשון מזה זמן מה שגרם לי להשמיע שוב את האודיו רק כדי לבדוק שוב.
ואז דחפתי את זה - כתבתי מחדש את התסריט עם מתח והתרגשות. הוא קלט כל פיסת אנרגיה. המילים הנכונות הודגשו בלי להישמע מוגזמות או מאולצות. רוב מחוללי קריינות מבוססי בינה מלאכותית מעבדים את הטקסט שלך. התסריט הזה באמת מגיב אליו, וזה דבר נדיר.
לאחר מכן, השתמשתי בתסריט של חמש דקות. הקול נשאר אקספרסיבי בלי להיסחף. היו כמה תקלות הגייה קטנות, אבל זה לא היה משהו רציני. באופן כללי, ElevenLabs מתגמלת כתיבה טובה. ככל שמשקיעים יותר כוונה בתסריט, כך הפלט טוב יותר. זה דורש קצת יותר מאמץ ממחוללי קול בינה מלאכותית בסיסיים, אבל הריאליזם שמקבלים בחזרה הוא ברמה אחרת.
Murf AI עולה על הרבה אנלוגים מסיבה אחת ספציפית. זה נשמע מקצועי ישר box . הממשק נקי ואינטואיטיבי. הוספתי סקריפט הדגמה של מוצר, והפלט היה חד, מובנה ומלוטש כמעט באופן מיידי. זה באמת הזכיר לי סרטוני הסבר תאגידיים שהופקו היטב. עבור תוכן הדרכה, בהירות היא הכל.
לאחר מכן, כיוונתי את גובה הצליל, כיוונתי את הקצב וניסיתי להוציא משהו חם ושיחתי יותר. זה עזר קצת, אבל מורף נוטה באופן טבעי לפורמליות. משפטים קצרים נחתמו מצוין, אבל פסקאות ארוכות יותר הרגישו קצת שטוחות מבחינה רגשית. אני חושב שמורף לא מנסה להישמע אנושי. הוא מנסה להישמע אמין. זה מה שצריך בשביל הדרכות, מצגות והדגמות מקצועיות.
כאשר הרצתי מודול הדרכה ארוך באמצעות כלי אודיו של בינה מלאכותית הזה, הקול נשאר עקבי להפליא מתחילתו ועד סופו. לא שמעתי קפיצות אקראיות בצלילים או הפסקות מביכות. הכל זרם באופן טבעי בין המשפטים. אם אתם בונים סרטוני הדרכה או תוכן פנימי של החברה, זהו אחד ממחוללי הקול המקצועיים הטובים ביותר בתחום הבינה המלאכותית שקיימים.
הקדשתי גם זמן לבחון את ספריית הקולות והתמיכה בריבוי שפות. המבחר סביר. שום דבר לא מכריע, אבל מספיק כדי לעבוד איתו. חלק מהקולות נשמעים אנושיים באמת, אחרים מרגישים קצת רובוטיים, אז כדאי לבדוק לפני שמתחיבים. ניסיתי גם מבטאים שונים. הבהירות נותרה יציבה ברובם, אם כי רגש עדין נעדר ברובו.
לא ציפיתי להרבה כשפתחתי Revoicer לראשונה, אבל זה באמת הפתיע אותי. לקול היה נגיעה טבעית. משפטי מפתח נחתו עם משקל אמיתי והאנרגיה הרגישה נכונה. זה היה בדיוק מה שהייתי צריך בשביל פרסומת קצרה. כמה שורות קצת הגזימו עם הדרמה, אבל שום דבר שלא שבר את העסקה.
אחר כך נהייתי שאפתן ובדקתי את תוכנת קריינות הזו על קריינות ארוכה יותר. שם הייתי צריך להאט. האנרגיה התחילה לנדוד בין פסקאות. חלק מהמשפטים נשמעו חזקים באופן לא מכוון, אחרים הרגישו קצת שטוחים. וההפסקות היו לפעמים מביכות, כאילו מישהו שכח לנשום ברגע הנכון.
התנסיתי גם בסגנונות קריינות והגדרות גוון. על ידי כוונון גובה הצליל, המהירות והדגש, הצלחתי לגרום לקול להישמע רגוע יותר עבור תוכן קליל יותר. הוא קלט די טוב בהתאמות קטנות, אבל התחושה האנרגטית אף פעם לא נעלמת לגמרי. ניסיתי אותו על כל מיני תסריטים, והוא מתמודד טוב יותר עם קטעים קצרים וקולעים. קריינות ארוכה ורגועה יותר דרשה כוונון נוסף.
בדקתי אותו גם לשימוש מסחרי. הקולות נועזים וקליטים, מה שיכול לעזור למותג להידבק בתודעתם של אנשים. עם זאת, הייתי חושב פעמיים לפני שאני משתמש בו לסיפור סיפורים רך או סרטונים ארוכים. באופן כללי, זהו אחד ממחוללי הדיבור המובילים בתחום הבינה המלאכותית עבור פרסומות, מדיה חברתית והכרזות, שבהן להיות רועש ואנרגטי עובד לטובתך.
כשקפצתי לתוך LOVO בפעם הראשונה, הופתעתי עד כמה הכל נראה נקי וקל. אפשרויות הקול לבדן הספיקו כדי לעורר את סקרנותי, אז יצרתי כמה תסריטים קצרים למדיה חברתית כדי לראות איך זה מתמודד עם דיאלוג רשמי. הקול הראשון שבחרתי הרגיש חם וטבעי, כמו מישהו שבאמת מדבר אליך.
התאמת המהירות והגובה הייתה פשוטה. לאחר מכן עברתי לתסריט הסבר ארוך יותר. הקול נשאר צלול לכל אורך הדרך, אבל הוא הרגיש קצת שטוח רגשית ליד קריין אנושי אמיתי. ובכל זאת, הקול נשמע מלוטש וקל לעקוב אחריו. ניסיתי קולות שונים, והבנתי שבחירת הקול הנכון יכולה לקבוע או להרוס את מידת המעניין של התוכן שלך.
בדקתי גם את מחולל וידאו של בינה מלאכותית עבור פרויקט מותג. בחרתי בטון מקצועי, והוא החזיק מעמד היטב. הקול נשאר צלול ומלוטש - רשמי מספיק לסביבה עסקית מבלי להישמע נוקשה. עשיתי כמה שינויים קטנים במהירות ובדגש. אני בהחלט יכול לראות את עצמי חוזר למחולל הקול הזה המבוסס על בינה מלאכותית עבור סרטונים בעת יצירת תוכן חברתי ממותג.
לאחר מכן, ניתחתי את תכונת ריבוי השפות. LOVO מציעה מגוון רחב של מבטאים ושפות, אם כי חלקן נשמעו חלקות יותר באופן ניכר מאחרות. עבור כל מי שיוצר תוכן לקהל עולמי, גמישות זו היא יתרון גדול. באופן כללי, השימוש בה היה קל, וייצוא הקבצים היה מהיר וללא טרחה.
כשניסיתי לראשונה RecCloud , הוא בלט ממגוון גנרטורים קוליים מבוססי בינה מלאכותית אחרים ליוצרי תוכן, רק לא בצורה הטובה ביותר. הפלט היה שמיש, אבל מיד הדהד בי צליל רובוטי. הזנתי סקריפט הדרכה קצר והתוצאה חזרה במהירות.
כדי לראות את היכולות שלו, העליתי תוכן ארוך יותר, מרובה פסקאות. הקצב נשמר די טוב, אבל הקצב היה צפוי מדי לאורך זמן. חסרה לו זרימה אנושית. כוונון הפיסוק היה מעט מועיל, אבל הקול עדיין נשמע די מכני.
בדקתי אותו גם עם סקריפט מרוב שפות, והתוצאות היו מעורבות. אנגלית נשמעה הכי טוב ללא ספק, בעוד ששפות אחרות יצאו קצת יותר רובוטיות. לקריינות מהירה וללא קשיים, הוא עושה את העבודה. אבל הוא לא רב-תכליתי כמו כמה כלים אחרים ברשימה שלי.
החיסרון הגדול ביותר הוא שהוא לא מטפל ביצירת מנגינות, כך שאם אתם צריכים מוזיקה לצד הקריינות שלכם, תצטרכו להביא מחולל מוזיקה של בינה מלאכותית כדי למלא את החסר הזה.
נתקלתי Fliki בזמן שעבדתי על סרטון קצר שדרש לו ויזואליה. חיבור טקסט לסרטון היה קל יותר בהשוואה לכלים אחרים שהשתמשתי בהם בעבר. הקריינות התאימה באופן טבעי לכיתובים ולמה שקורה על המסך, כך שלא הייתי צריך לבזבז זמן על תיקון התזמון בעצמי. האודיו היה יציב ונקי, גם אם לא היה אקספרסיבי במיוחד.
בסך הכל, Fliki הוא אחד ממחוללי הקול הריאליסטיים המובילים בתחום הבינה המלאכותית עבור אנשים שרוצים לקבל תוצאות מהירות.
העליתי גם תסריט לסיפור סיפורים. הוא התמודד היטב עם שורות קצרות, אבל פסקאות ארוכות יותר נראו קצת רובוטיות. כוונון המהירות והגובה עשה הבדל קטן, בעוד שקיצוץ התסריט לקטעים קצרים היה מאוד מועיל. התברר למדי Fliki מתאים יותר לתוכן מהיר ומקוטע מאשר לקריינות ארוכה.
בזמן שבדקתי Speechify , השתמשתי בטקסט שיחה יומיומי כדי לראות עד כמה הוא עומד בקצב. הוא הצליח יותר ממה שציפיתי, וקלט מילות מפתח באופן טבעי מבלי להגזים ברגש. הקצב היה בדיוק נכון, מה שהפך את המעקב לקל ומהנה באמת להאזנה. זה נראה כמו מחולל קול אנושי מוצק עם בינה מלאכותית לסרטוני הסבר או פודקאסטים חינוכיים.
לאחר מכן, העליתי קטעי תוכן גדולים בזה אחר זה. הקול נשאר חלק ועקבי לכל אורך הדרך ללא שינויי טון מוזרים או בעיות קצב. שינויים קטנים בפיסוק עזרו עם הפסקות. היה קל באמת להאזנה. להתאמה אישית היו כמה מגבלות. המהירות והקול עבדו בסדר, אבל העומק הרגשי והשליטה בדגש היו די בסיסיים.
היה מעניין מאוד לנסות את Fiverr . זהו שוק, לא רק טכנולוגיית יצירת קול מבוססת בינה מלאכותית אחת. גלשתי בין הצעות עבודה ליצירת קול מבוססת בינה מלאכותית וההבדל באיכות ובסגנון בין מוכר אחד למשנהו היה די מטורף. ביצעתי הזמנה לקריינות קצרה רק כדי לראות איך כל התהליך מאורגן.
ככל שתהיו ברורים יותר עם ההוראות שלכם, כך התוצאה טובה יותר. תיקונים אמנם דרשו קצת הלוך ושוב, אבל בסופו של דבר הצלחתי להשיג משהו שתאם את מה שחשבתי עליו. Fiverr דורשת יותר מאמץ מעשי מאשר סתם שימוש כלי בינה מלאכותית יצירתית אוטומטי.
התאמה אישית של ההזמנה שלך פירושה לדבר ישירות עם מוכרים. אין הגדרות או בקרות שאתה צריך לכוונן בעצמך. זה גם דבר טוב וגם דבר רע. אתה מקבל יותר גמישות, אבל זה מאט את העניינים. המחירים גם משתנים מאוד, כך שחיפוש אחר מוצרים שונים עוזר. זה מתאים ביותר לנישות או לסגנונות קול ספציפיים מאוד.
בדקתי את קול הבינה המלאכותית Artlist על פרויקט וידאו אמיתי, והוא באמת הרשים אותי. האודיו יצא נקי וקולנועי, והשתלב מיד עם מוזיקת הרקע. לאחר מכן זרקתי עליו תסריט ממותג כדי לבדוק עד כמה הוא מתמודד עם טון רשמי יותר. הוא נשאר רגוע ומקצועי לכל אורכו. העומק הרגשי היה מינימלי, אבל עבור סרטוני תדמית, הוא קלע בול.
סגנונות הקול השתנו יפה. חלקם היו רגועים וניטרליים, בעוד שאחרים נראו אופטימיים לשימוש פרסומי. נוח להחליף סגנונות כדי לקבל וריאציות אודיו שונות. החלק הכי טוב הוא שהאיכות הייתה טובה באופן עקבי בכל בדיקה שעשיתי.
בדקתי WellSaid Labs עם תסריטים של קריינות ארגונית, וזה הרשים אותי מהר. כבר מהשורה הראשונה, הקול היה בטוח ונקי בלי להישמע נוקשה. הוא התמודד בצורה מושלמת עם מונחים טכניים. זה בדרך כלל המקום שבו מחוללי קול בינה מלאכותית חינמיים נופלים, אבל זה החזיק מעמד היטב. זה הזכיר לי שחקן קול אמיתי שיודע בדיוק מה הוא עושה בסביבה מקצועית.
הקדשתי גם זמן למעבר על אפשרויות הקול והמבטא. המבחר לא היה עצום, אבל כל קול מהספרייה היה נקי ומקצועי. ההגייה הרב-לשונית החזיקה מעמד יפה למונחים יומיומיים, אם כי מדי פעם, מילה לא שגרתית הייתה זקוקה לכוונון קל כדי להישמע בדיוק כמו שצריך.
דבר אחד שכן הפריע לי, בכל אופן, היה היעדר תכונת עריכה מובנית. לכן, כשבדקתי את האפליקציה, הייתי צריך למצוא תוכנת עריכת אודיו בחינם נפרדת רק כדי לבצע כמה תיקונים.
כדי לראות את היכולות של Listnr , השתמשתי בסקריפטים בסגנון פודקאסט. הקול היה נקי וקל להבנה ללא נגיעות דרמטיות יתר על המידה. המהירות שבה הוא המיר טקסט לאודיו תפסה אותי לא מוכנה בצורה טובה. עבור כל מי שצריך קריינות פשוטה ואמין, זה נראה כמו בחירה די טובה.
הרצתי כמה קטעים ברצף רק כדי לראות אם הקול יישאר עקבי לכל אורך הקטע. הקצב החזיק מעמד די טוב, אבל ככל שזה נמשך יותר זמן, כך זה התחיל להרגיש קצת חוזר על עצמו. כמה שינויים קטנים פה ושם עזרו להחליק את העניינים. לדעתי, Listnr הזה הוא מחולל קול AI נהדר לתוכן אינפורמטיבי פשוט וקל.
כדי לבדוק את קול הבינה המלאכותית של Freepik , השתמשתי בפרויקט העיצוב שלי. תסריטים קצרים נשמעים סבירים וקלים למעקב, אבל ארוכים יותר אכזבו אותי. זה שימושי כשאתה רק צריך קריינות מהירה לוויזואליה שלך. ניסיתי קולות ומבטאים שונים, אבל ההבדלים לא ממש מורגשים. לדעתי, זה כלי סביר לוויזואליה, אבל הוא מפגר אחרי מחוללי קול אנושיים בינה מלאכותית ייעודיים.
השתמשתי בו גם כדי לקרוא מספר פסקאות. זה עבד בסדר, אבל סקריפטים ארוכים יותר הבהירו שהקול מתקשה עם הבעה וקצב. יישמתי כמה תיקונים ידניים, אבל זה עדיין נשמע רובוטי בקטעים ארוכים יותר. בסך הכל, קול הבינה המלאכותית של Freepik עובד בצורה הטובה ביותר כתוסף מהיר ושימושי לקריינות פשוטה כשאתם כבר משתמשים בו לוויזואליה - לא ככלי קריינות עיקרי.
צוות הבדיקה שלנו כלל שלושה חברי צוות FixThePhoto : קייט דבלה, ואדים אנטיפנקו ואווה וויליאמס. קייט בדקה את רמת הבהירות והדיוק של ההגייה. ואדים בחן את מהירות ועקביות הדיבור. אווה העריכה עד כמה הקולות ביטאו רגשות.
כדי לבחון כל מחולל קול מבוסס בינה מלאכותית בצורה הוגנת, השתמשנו באותם סקריפטים בכל הכלים. אלה כללו פוסטים קצרים במדיה חברתית, הדרכות, תוכן פרסומי וחומרי הדרכה ארוכים יותר.
קייט סימנה כל מילה רובוטית או שגויה בהגייה. ואדים בדק האם הקצב נשאר יציב, במיוחד בקטעים ארוכים יותר. אווה בדקה הגשה רגשית - האם הקול נשמע נרגש, רגוע או מקצועי בהתבסס על התוכן. מבחן אחד השתמש בהכרזה על מותג. אחר השתמש בהדרכה טכנית בת חמש דקות.
לאחר מכן, הערכנו עד כמה כל כלי נשמע ריאליסטי ומעשי . LOVO עבד היטב עבור תסריטים מזדמנים אך חסר עומק רגשי בתוכן ארוך יותר. Revoicer הרגיש נועז ואנרגטי, מה שהופך אותו לנהדר עבור פרסומות קצרות, אם כי תסריטים ארוכים יותר דורשים התאמות נוספות.
Murf AI הצליח בצורה הטובה ביותר עבור מדריכים ותוכן תאגידי בזכות הטון הברור והמובנה שלו. ElevenLabs הרשימה אותנו עם סיפור סיפורים טבעי ושינויים רגשיים חלקים. Adobe Firefly הייתה יציבה ואמינה עבור חומרי מיתוג וחומרי לימוד.
בדקנו גם את המהירות, ההתאמה האישית וקלות השימוש. קייט בדקה כמה מהר כל כלי הפיק אודיו וכמה פשוט היה להתאים את גובה הצליל, המהירות וההדגשה. ואדים בדק את אפשרויות הייצוא, התמיכה בשפה ושילוב וידאו. אווה דירגה כל כלי לפי יכולת ההבעה שלו וכמה אנושי הוא נשמע.
בסך הכל, LOVO ו- Fliki התאימו לתוכן קצר ברשתות חברתיות, בעוד ש- Murf AI , WellSaid Labs ו- ElevenLabs היו טובים יותר לקריינות מקצועית וארוכה יותר.
הצוות שלנו בָּדוּק כל כלי ליצירת קול מבוסס בינה מלאכותית במצבים אמיתיים, תוך הערכת בהירות, רגש, עקביות ושימושיות. על ידי שילוב הממצאים של קייט, ואדים ואווה, יצרנו סקירה כנה ומקיפה שתעזור לכם לבחור את הכלי המתאים לפרויקט שלכם.