لذا بدأت البحث عن مولد صوت بالذكاء الاصطناعي يمكنه فهم ما أطلبه بالفعل، بدلاً من إعطائي مؤثرات صوتية عشوائية.
هذا ما أردته:
لأول مرة، لم أكن أعاني من أجل ملاءمة صوت لمقطع الفيديو الخاص بي - كنت أقوم بتشكيل الصوت لقصتي.
الآن، بدلاً من قضاء ساعات في البحث عبر مكتبات الصوت، أصف فقط الصوت الذي أريده - مثل "صوت المطر الناعم يطرق الزجاج في المساء" - ويقوم الذكاء الاصطناعي بإنشائه في ثوانٍ.
قررت اختيار أفضل الأدوات لنفسي ومشاركتها في هذه المقالة. لتحقيق ذلك، طلبتُ المساعدة من زملائي في فريق FixThePhoto. اخترنا عدة مشاريع - بعضها من عملي المهني وبعضها فيديوهات أسلوب حياة لوسائل التواصل الاجتماعي من إنتاج زملائي. دوّننا احتياجات كل مشروع وبدأنا باستكشاف مُولّدات صوت مختلفة. تصفحنا المنتديات، واطلعنا على التوصيات، ثم بدأنا باختبار كل أداة.
صوت الفيديو الرائع لا يبدأ على الكمبيوتر، بل يبدأ في رأسك. أولًا، اكتشف عاطفة قصتك لكل مشهد طابعه الخاص، كالهدوء أو الحيوية أو الغموض. عندما تعرف الشعور الذي تريده، يمكنك تصميم الصوت المناسب له، بدلًا من إضافته كخطوة أخيرة. بفضل الذكاء الاصطناعي، أصبح إنشاء الصوت لفيديوهاتك أسهل. لم تعد بحاجة للبحث في مكتبات صوتية لا حصر لها. فقط وصف المشاعر أو المشهد أو الجو الذي تحاول خلقه، وسيُنشئ الذكاء الاصطناعي الصوت لك. دقة وصفك ستمنحك أفضل النتائج.
. تنطبق القاعدة نفسها على الأصوات. اختر صوتًا يتناسب مع أسلوب الفيديو الخاص بك: صوت قوي وواضح للفيديو التعليمي، صوت ناعم وبطيء لقصة حزينة، أو صوت حيوي لمقطع سريع الوتيرة. بفضل الذكاء الاصطناعي، أصبحت هذه الأصوات طبيعية وواقعية، وتتناسب تمامًا مع الفيديو. بعد الانتهاء من التعليق الصوتي والمؤثرات الصوتية، يبدأ العمل الحقيقي أثناء التحرير. يساعد ضبط مستوى الصوت والتوقيت ومدى ملاءمة الأصوات للفيديو على جعل كل شيء يبدو طبيعيًا وحيويًا. حتى تفاصيل صغيرة - ضوضاء خلفية خفيفة، أو صدى ناعم، أو تعديلات طفيفة في المعادل - يمكن أن تجعل الصوت يبدو وكأنه ينتمي حقًا إلى المشهد.
في النهاية، لا يقتصر الحصول على صوت رائع على الأدوات التي تستخدمها فقط. يتعلق الأمر بمعرفة الحالة المزاجية ورسالة الفيديو الخاص بك عندما تفهم القصة والشعور الذي تريد إيصاله، يساعدك الذكاء الاصطناعي ببساطة على التعبير عنه. لا يعود تصميم الصوت مجرد مشكلة تقنية، بل يصبح جزءًا لا يتجزأ من عملية سرد القصة.
| افعل | لا تفعل |
|---|---|
|
✔️ الحالة المزاجية والشعور في الفيديو الخاص بك قبل إصدار الصوت.
|
❌ تبدأ في إنشاء الصوت دون معرفة الجو الذي تريده.
|
|
✔️ اكتب مطالبات مفصلة مع أوصاف واضحة.
|
❌ تستخدم إشارات قصيرة أو غامضة مثل "موسيقى خلفية" أو "صوت".
|
|
✔️ نمط الصوت والوتيرة التي تتناسب مع العناصر المرئية والرسالة.
|
❌ تستخدم نفس نبرة الصوت لكل مشروع.
|
|
✔️ ضبط التوقيت والحجم والمزج عند تحرير الصوت.
|
❌ لا بإسقاط الأصوات دون مزامنتها مع الفيديو.
|
|
✔️ أصواتًا محيطة صغيرة لجعل المشهد يبدو حقيقيًا.
|
❌ تترك الصوت فارغًا أو نظيفًا للغاية.
|
|
✔️ استخدم الذكاء كأداة لدعم إبداعك.
|
❌ تتوقع أن يقوم الذكاء الاصطناعي بكل العمل الإبداعي نيابةً عنك
|
عندما فتحتُ فيديو Adobe Firefly ، لأول مرة، لم أكن متأكدًا مما أتوقعه. سمعتُ الكثير عنه، لكنني لم أستكشف إمكانياته حقًا - خاصةً وأنني عادةً ما كنت أبحث عن الأصوات والتعليقات الصوتية يدويًا في المكتبات المُخزّنة.
قررتُ تجربته في مشروع كان صعبًا بالنسبة لي: مشهد درامي لشخص يمشي في مدينة خالية عند غروب الشمس. عادةً، كنت أقضي وقتًا طويلًا في البحث في مكتبات الصوت عن خطوات الأقدام والرياح وأجواء المدينة الهادئة - وحتى حينها، كنت من المرجح أن ينتهي بي الأمر بشيء لا أشعر أنه صحيح تمامًا.
أدخلتُ مُوجِّهًا مُفصَّلًا في مُولِّد المؤثرات الصوتية هذا: "صدى خطوات في شارع مدينة هادئ عند غروب الشمس، ريح لطيفة، صفارات إنذار خافتة بعيدة، جوٌّ سينمائي". في ثوانٍ معدودة، ولَّدَ المُولِّدُ إصدارات صوتية مُتعدِّدة. فاجأتني الجودة - كان لخطوات الأقدام وتيرة ووزن واقعيَّين، والريح خلقت جوًا دون أن تُطغى على أي شيء، وصافرات الإنذار البعيدة أضافت توترًا خفيفًا. بدت النتيجة غنية ومتعددة الطبقات، وليست كصوت قصير مُكرَّر _٣_٣_٣_٨_ وأكثر.
ثم تحققتُ من مدى قدرتي على ضبط الصوت. تمكنتُ من تغيير قوة صوت الرياح في برامج أدوبي المجانية ، وإضافة صدى الصوت أو تقليله لجعل خطوات الأقدام تبدو أقرب أو أبعد، وحتى فصل أجزاء مختلفة من مزيج الصوت.
وضعتُ الصوت الذي أنشأه Firefly مباشرةً في الجدول الزمني للفيديو. لقد تطابق مع المرئيات تمامًا، وشعرتُ فورًا أن المشهد أصبح أكثر واقعية. سهّلت الواجهة تجربة إصدارات مختلفة - حيث تمكنتُ من إنشاء الأصوات والاستماع إليها وتعديلها وتبديلها دون مغادرة مساحة عمل التحرير.
اختبرت ElevenLabs على مشهد يحتاج إلى تعليق صوتي لفيلم وثائقي قصير. كتبتُ مُوجِّهًا قصيرًا يصف النبرة التي أريدها: هادئة، واضحة، وثابتة. في ثوانٍ معدودة، أنتجت ElevenLabs تعليقًا صوتيًا بدا طبيعيًا للغاية - الإيقاع، والتركيز، وحتى الأنفاس القصيرة بدت واقعية.
الشيء الرئيسي الذي أثار إعجابي هو مدى سهولة ضبط تفاصيل الصوت. يمكنني تغيير السرعة والنغمة والتركيز دون استخدام أي برنامج تحرير الصوت المجاني الذي استخدمته من قبل. بالنسبة للمؤثرات الصوتية، حاولت إضافة أشياء مثل الرياح والأمطار الخفيفة.
على الرغم من أن ElevenLabs مصمم بشكل أساسي للأصوات، إلا أن الأصوات المحيطة التي أنشأتها تتناسب جيدًا مع الفيديو الخاص بي. بشكل عام، يعد ElevenLabs خيارًا ممتازًا إذا كان مشروعك يعتمد بشكل أساسي على السرد، مع خيار إضافة بعض التأثيرات الخلفية عند الحاجة.
لم أكن أعتقد أن كانفا سيكون قويًا في إنشاء الصوت، ولكن تبين أن ميزات الصوت بالذكاء الاصطناعي الخاصة به سهلة الاستخدام للغاية. لقد قمت بتحميل مقطع ترويجي قصير وكنت بحاجة إلى صوت خلفية لطيف - نسيم لطيف وأصوات رنين خفيفة لتتناسب مع الحالة المزاجية المتفائلة.
canva سمح لي بإدخال وصف قصير، وأنتج بسرعة العديد من خيارات الصوت التي يمكنني معاينتها ووضعها مباشرة على الجدول الزمني.
الميزة الرئيسية هي سهولة وترابط كل شيء. لا تحتاج إلى أي مهارات صوتية - يمنحك الذكاء الاصطناعي العديد من خيارات الصوت الجاهزة التي يمكنك إضافتها مباشرةً إلى مشروعك Canva. لم يُصمم هذا البرنامج لتحرير الصوت بدقة، بل للعمل السريع والمريح حيث تريد أن يتطابق الصوت مع صورك المرئية فورًا، وهو مثالي للتسويق ومقاطع الفيديو على منصات التواصل الاجتماعي.
أفضل ما في الأمر هو إمكانية القيام بكل شيء داخل محرر واحد. لا حاجة للتصدير، ولا تبديل التطبيقات، ولا استخدام مولدات الموسيقى بالذكاء الاصطناعي منفصلة. لإنشاء محتوى اجتماعي سريع، هذا مفيد للغاية.
شعرتُ باستخدام SFX Engine كمُولّد مؤثرات صوتية احترافي. جربتُه بإنشاء أصوات خيال علمي متعددة الطبقات - طلقات ليزر، وصدمات معدنية، وهمهمة خلفية منخفضة لمركبة فضائية. أتاحت لي الأداة تغيير درجة الصوت، والصدى، وموقع الصوت في الفضاء، مما منحني مستوى تحكم لا أجده عادةً إلا في برامج DAW مجانية.
كان الجزء الأكثر لفتًا للانتباه هو مدى أصالة الأصوات. تُنتج العديد من أدوات الذكاء الاصطناعي تأثيرات متكررة أو مسطحة، لكن SFX Engine أنتج صوتًا غنيًا وسينمائيًا، وكأنه مُقتبس مباشرةً من موسيقى تصويرية لفيلم احترافي.
شعرتُ باستخدام LoudMe وكأنني أمتلك مساعدًا يفهم الجو الذي أحاول خلقه. كنتُ أُحرّر مقهى vlog، وأردتُ صوتًا خلفيًا يبدو حقيقيًا دون أن يُشتت الانتباه - أحاديث هادئة، آلات قهوة، وأصوات أطباق خفيفة.
كتبتُ وصفًا للمكان، وفي ثوانٍ معدودة، قدّم لي LoudMe عدة إصدارات للاختيار من بينها. لكل منها مستوى مختلف من الضوضاء الخلفية والنبرة. اخترتُ الإصدار الذي بدا أكثر طبيعيةً ووضعته في تعديلي - وقد تطابق تمامًا دون أي تعديلات إضافية.
أفضل ما في الأمر هو أن هذا برنامج التعليق الصوتي اقترح تلقائيًا توازن الصوت المناسب بناءً على صوت الفيديو الخاص بي. لم أضطر إلى ضبط صوت الخلفية والكلام يدويًا.
إنه ليس الخيار الأكثر تقدمًا لتحرير الصوت التفصيلي، ولكنه رائع للحصول على نتائج سريعة وواقعية. بالنسبة لمدوني الفيديو أو المبدعين أو أي شخص يعمل بسرعة، يوفر LoudMe جوًا نظيفًا وطبيعيًا دون أي جهد إضافي تقريبًا.
برز برنامج OptimizerAI بالنسبة لي لأنه يدعي إنشاء صوت يتناسب تلقائيًا مع العناصر المرئية. أردت معرفة ما إذا كان يمكنه بالفعل تحليل مقطع فيديو وإنتاج صوت يتناسب مع المشهد. رأيت أيضًا أشخاصًا في المنتديات يقولون إنه يعمل بشكل جيد إنشاء أصوات متحركة ، لذلك أردت اختبار ذلك أيضًا.
لقد قمت بتحميل مشهد معركة قصير من أحد مشاريعي - لقطات سريعة وضربات سيوف وخطوات ثقيلة. يقرأ OptimizerAI تلقائيًا التوقيت والحركة في الفيديو. ثم، بعد أن أدخلت مطالبة قصيرة مثل "أجواء معركة العصور الوسطى المكثفة"، أنشأ مؤثرات صوتية تتناسب مع الحدث على الفور.
أكثر ما أدهشني هو كيفية مزامنة الذكاء الاصطناعي للأصوات مع الحركة - تطابقت خطوات الأقدام مع الحركة، وضربات الاصطدامات بدقة على الأرجوحات، وصدى الخلفية يتغير بشكل طبيعي. لم أكن بحاجة لتعديل أي شيء.
تم تصميم KlingAI للمبدعين الذين يريدون صوتًا يبدو خياليًا وغير واقعي. لقد جربت هذا الصوت المدعم بالذكاء الاصطناعي overgenerator على رسم متحرك حالم وأحتاج إلى صوت يبدو ناعمًا وعائمًا. لقد كتبت رسالة قصيرة: "دقات لطيفة مع نغمات طنين عميقة ونبضات بطيئة تشبه الموجة." لم تبدو مثل المؤثرات الشائعة التي تجدها في مواقع الموسيقى وتتنافس من الحقوق الملكية. بدلا من ذلك، كان لديهم العمق والجو. لقد قمت بدمج بعض المقاطع المولدة، وكانت النتيجة النهائية تبدو أصلية - وهو شيء لم أتمكن من الحصول عليه من مكتبة صوتية قياسية.
. لكن العيب هو أن النتائج قد تختلف، وقد تحتاج إلى إعادة التسجيل عدة مرات للحصول على الإحساس المطلوب. ولكن عندما يتوافق الناتج، فإنه يقدم تجربة مميزة حقًا.
إنه بالتأكيد غير مصمم لتصميم الصوت الكامل أو المزج المعقد - إنه مخصص أكثر للمبدعين الذين يحتاجون إلى صوت سريع وجاهز للاستخدام. انتهى بي الأمر باستخدامه للتحرير السريع، ومقاطع الفيديو الاجتماعية القصيرة، وعناصر الصوت المؤقتة في المشاريع الكبيرة.
إنه في الأساس أسهل طريقة لبدء استخدام الذكاء الاصطناعي للصوت. مثالي للمبتدئين أو لأي شخص يرغب في نتائج سريعة بدلاً من التحكم العميق. وإذا استخدمته مع برنامج DAW للمبتدئين ، فقد يصبح إعدادًا قويًا بشكل مدهش.
في FixThePhoto، اختبرنا أشهر أدوات إنشاء المؤثرات الصوتية بالذكاء الاصطناعي لمعرفة أيها يعمل بالفعل كما هو مُعلن عنه. كانت الفكرة واضحة - لمعرفة ما إذا كانت هذه الأدوات يمكنها تقليل الوقت المستغرق في تصميم الصوت اليدوي وتحريره بشكل واقعي باستخدام الذكاء الاصطناعي للمساعدة في إنشاء الصوت بكفاءة أكبر.
كانت عملية الاختبار عملية الاختبار مزيجًا من الفحص الفني والحكم الإبداعي. اختبر كل عضو في فريقنا (ناتالي أوميلتشينكو وتاتا روسي وكيت ديبيلا) الأدوات من وجهة نظره المهنية الخاصة. ركزت ناتالي، المتخصصة في تحرير الفيديو وسرد القصص البصرية، على مدى توافق الصوت المُولّد بالذكاء الاصطناعي مع اللقطات الفعلية. حمّلت مقاطع متنوعة، مثل مقاطع رحلات، ولقطات لأسلوب حياة، وأفلام قصيرة مؤثرة، وقيّمت مدى توافق الأصوات مع إيقاع الفيديو، ومزاج المشاهد، وأحداثه. ركزت تاتا على مدى واقعية وتوازن الأصوات. استمعت إلى كيفية تناغم الطبقات المختلفة، ومدى طبيعية الصوت ونبرته، ومدى انسجام الصوت مع الفيديو دون الحاجة إلى الكثير من التعديلات الإضافية. كما لاحظت أي الأدوات كانت أفضل لإنشاء جو خلفية عامة وأيها كانت أكثر فائدة لتأثيرات صوتية حادة ومفصلة.
من ناحية أخرى، ركزت كيت على مدى سهولة استخدام الأدوات. وتحققت من مدى سرعة كل أدوات الصوت الذكاء الاصطناعي في إنتاج الصوت، وما إذا كانت عناصر التحكم سهلة الفهم، ومدى سلاسة إضافة الأصوات إلى برامج تحرير الفيديو. كما نظرت في مدى جودة عمل الأدوات للمبتدئين الذين ليس لديهم خبرة في تصميم الصوت.
لقد عملنا معًا لاختبار كل مولد صوت بالذكاء الاصطناعي في مواقف تحرير حقيقية ويومية. استخدمنا مقاطع الفيديو نفسها (من مشاهد الشوارع الهادئة إلى اللقطات السريعة المليئة بالحركة) وقارنا كيفية استجابة كل أداة لنفس الوصف أو الحالة المزاجية. أعجبتنا بعض المولدات بصوت سينمائي غني ومتعدد الطبقات، بينما تميز البعض الآخر بشكل أساسي بالسرعة وسهولة الاستخدام.
أثناء الاختبار، لم نقم فقط بتقييم مدى جودة الصوت النهائي. لقد نظرنا أيضًا إلى مدى سهولة ملاءمة كل أداة لسير العمل العادي للمنشئ. كانت الاختلافات واضحة للغاية: امتزج Firefly بسلاسة مع برامج Adobe الأخرى، وأنتجت ElevenLabs أصواتًا بدت واقعية بشكل لا يصدق، وسمح محرك SFX بالتحكم الدقيق في الصوت، بينما ركز Canva على إنشاء صوت سريع وبسيط بأقل جهد.
بحلول الوقت الذي انتهينا فيه من الاختبار، كان من الواضح أنه لا توجد أداة ذكاء اصطناعي مثالية لكل موقف - كل منها يعمل بشكل أفضل لاحتياجات مختلفة. ما لفت انتباهي حقًا هو مدى تطور الصوت بالذكاء الاصطناعي. غالبًا ما كانت النتائج طبيعية ومبتكرة بشكل مدهش، مما أثار حماسنا لرؤية كيف ستستمر هذه الأدوات في التطور في المستقبل.