Tôi đã làm việc với công việc biên tập video trong một thời gian dài, nhưng thiết kế âm thanh luôn là phần khó nhất đối với tôi. Tôi có thể dành hàng giờ để tìm kiếm hiệu ứng âm thanh phù hợp - dù là tiếng vù vù mạnh mẽ, tiếng nổ lách tách của lò sưởi, hay âm thanh nền nhẹ nhàng - mà vẫn không tìm được hiệu ứng nào phù hợp. Hầu hết các thư viện âm thanh đều có giá quá cao, quá cơ bản, hoặc đơn giản là không hoàn toàn phù hợp.
Tuần trước, tôi đang làm một video du lịch ngắn. Hình ảnh đã sẵn sàng - màu sắc, cảnh quay và chuyển cảnh đều đẹp - nhưng khi xem lại, tôi thấy nó nhạt nhẽo. Không có chút không khí nào cả. Đó là lúc tôi nhận ra: Tôi không chỉ cần âm thanh nền, tôi cần âm thanh hỗ trợ cho câu chuyện.
Vì vậy, tôi bắt đầu tìm kiếm một trình tạo âm thanh AI có thể thực sự hiểu được những gì tôi yêu cầu, thay vì chỉ cung cấp cho tôi những hiệu ứng âm thanh ngẫu nhiên.
Đây là những gì tôi muốn:
Sau khi thử nghiệm nhiều công cụ, tôi nhận ra rằng hầu hết các nền tảng được gọi là "AI" chỉ đang sử dụng lại các thư viện âm thanh gốc. Nhưng có một công cụ nổi bật - nó thực sự tạo ra âm thanh từ chính lời nhắc. Khi tôi nhập "cánh cửa kim loại cũ từ từ mở ra trong hành lang tối", nó tạo ra một âm thanh chân thực, chi tiết và hoàn toàn khớp với cảnh của tôi.
Lần đầu tiên, tôi không còn phải vật lộn để đưa âm thanh vào video nữa - tôi đang định hình âm thanh đó cho câu chuyện của mình.
Bây giờ, thay vì mất hàng giờ tìm kiếm trong thư viện âm thanh, tôi chỉ cần mô tả âm thanh mình muốn - chẳng hạn như "tiếng mưa rơi nhẹ trên kính vào buổi tối" - và AI sẽ tạo ra âm thanh đó chỉ trong vài giây.
Tôi quyết định chọn những công cụ tốt nhất cho mình và chia sẻ chúng trong bài viết này. Để làm được điều đó, tôi đã nhờ các đồng nghiệp từ Đội ngũ FixThePhoto giúp đỡ. Chúng tôi đã chọn một số dự án - một số từ công việc chuyên môn của tôi và một số video về phong cách sống cho mạng xã hội do các đồng nghiệp của tôi thực hiện.
Chúng tôi đã ghi lại những gì mỗi dự án cần và bắt đầu khám phá các trình tạo âm thanh khác nhau. Chúng tôi đã kiểm tra các diễn đàn, xem xét các đề xuất, rồi bắt đầu thử nghiệm từng công cụ.
Âm thanh video tuyệt vời không bắt đầu từ máy tính. Nó bắt đầu từ trong đầu bạn. Đầu tiên, tìm ra cảm xúc trong câu chuyện của bạn Mỗi cảnh quay đều mang một sắc thái riêng, có thể là bình yên, sôi động, hoặc bí ẩn. Khi bạn đã xác định được cảm xúc mình muốn truyền tải, bạn có thể thiết kế âm thanh để tạo ra cảm xúc đó, thay vì chỉ thêm vào như một bước cuối cùng.
Việc tạo âm thanh cho video của bạn giờ đây đã đơn giản hơn nhờ AI. Bạn không còn phải tìm kiếm trong vô số thư viện âm thanh nữa. Chỉ cần mô tả cảm xúc, bối cảnh hoặc bầu không khí mà bạn đang cố gắng tạo ra và AI sẽ tạo ra âm thanh cho bạn. Mô tả cụ thể sẽ mang lại cho bạn kết quả tốt nhất.
Quy tắc tương tự cũng áp dụng cho giọng nói. Chọn giọng nói phù hợp với phong cách video của bạn: giọng nói mạnh mẽ, rõ ràng cho phần hướng dẫn; giọng nói nhẹ nhàng, chậm rãi cho một câu chuyện buồn; hoặc giọng nói năng động cho một clip tiết tấu nhanh. Nhờ AI, những giọng nói này giờ đây nghe tự nhiên và chân thực, hoàn toàn phù hợp với video của bạn.
Sau khi đã có giọng lồng tiếng và hiệu ứng âm thanh, công việc thực sự sẽ diễn ra trong quá trình biên tập. Việc điều chỉnh âm lượng, thời gian và cách âm thanh phù hợp với video giúp mọi thứ trở nên tự nhiên và sống động. Thậm chí chi tiết nhỏ - tiếng ồn nền nhẹ, tiếng vang nhẹ hoặc điều chỉnh EQ nhẹ - có thể khiến âm thanh thực sự phù hợp với bối cảnh.
Cuối cùng, để có được âm thanh tuyệt vời không chỉ phụ thuộc vào công cụ bạn sử dụng. Vấn đề là phải biết tâm trạng và thông điệp của video của bạn Khi bạn hiểu được câu chuyện và cảm xúc mình muốn truyền tải, AI sẽ giúp bạn thể hiện nó. Thiết kế âm thanh không còn là vấn đề kỹ thuật nữa mà trở thành một phần mượt mà của quá trình kể chuyện.
| Nên làm | Không nên làm |
|---|---|
|
✔️ Quyết định tâm trạng và cảm xúc của video trước khi tạo âm thanh.
|
❌ Đừng bắt đầu tạo âm thanh mà không biết bạn muốn tạo ra bầu không khí như thế nào.
|
|
✔️ Viết lời nhắc chi tiết với mô tả rõ ràng.
|
❌ Đừng sử dụng những lời nhắc ngắn gọn hoặc mơ hồ như "nhạc nền" hoặc "giọng nói".
|
|
✔️ Chọn phong cách giọng nói và nhịp độ phù hợp với hình ảnh và thông điệp.
|
❌ Đừng sử dụng cùng một giọng điệu cho mọi dự án.
|
|
✔️ Điều chỉnh thời gian, âm lượng và độ hòa trộn khi chỉnh sửa âm thanh.
|
❌ Không thêm âm thanh vào mà không đồng bộ với video.
|
|
✔️ Thêm âm thanh xung quanh nhỏ để làm cho cảnh quay có cảm giác chân thực.
|
❌ Đừng để âm thanh có cảm giác trống rỗng hoặc quá trong trẻo.
|
|
✔️ Sử dụng AI như một công cụ hỗ trợ sự sáng tạo của bạn.
|
❌ Đừng mong đợi AI sẽ làm tất cả công việc sáng tạo cho bạn
|
Khi tôi mở Video Adobe Firefly lần đầu tiên, tôi không biết phải mong đợi điều gì. Tôi đã nghe rất nhiều về nó, nhưng tôi chưa bao giờ thực sự khám phá những gì nó có thể làm - nhất là vì tôi thường tự tìm kiếm âm thanh và giọng lồng tiếng trên các thư viện có sẵn.
Tôi quyết định thử nghiệm nó trên một dự án từng rất khó khăn với tôi: một cảnh ấn tượng về một người đi bộ qua một thành phố vắng vẻ lúc hoàng hôn. Thông thường, tôi sẽ mất rất nhiều thời gian tìm kiếm trong các thư viện âm thanh tiếng bước chân, tiếng gió và âm thanh đô thị êm dịu - và ngay cả khi làm vậy, tôi vẫn có thể nhận được một kết quả không được như mong đợi.
Tôi đã nhập một gợi ý chi tiết vào trình tạo hiệu ứng âm thanh này: "Tiếng bước chân vọng lại trên một con phố yên tĩnh lúc hoàng hôn, gió nhẹ, tiếng còi báo động yếu ớt từ xa, mang lại cảm giác điện ảnh." Chỉ trong vài giây, nó đã tạo ra nhiều phiên bản âm thanh. Chất lượng âm thanh khiến tôi ngạc nhiên - tiếng bước chân có nhịp độ và sức nặng chân thực, gió tạo nên bầu không khí mà không lấn át bất cứ thứ gì, và tiếng còi báo động từ xa tạo thêm sự căng thẳng tinh tế. Kết quả mang lại cảm giác phong phú và đa tầng, không giống như một âm thanh ngắn được lặp lại overvà hơn thế nữa.
Sau đó, tôi kiểm tra xem mình có thể điều chỉnh âm thanh đến mức nào. Tôi có thể thay đổi độ mạnh của tiếng gió trong phần mềm Adobe miễn phí này, thêm hoặc giảm tiếng vang để làm cho tiếng bước chân có vẻ gần hơn hoặc xa hơn, và thậm chí tách biệt các phần khác nhau của bản phối âm thanh.
Tôi đã đặt âm thanh do Firefly tạo ra ngay vào dòng thời gian video của mình. Nó hoàn toàn khớp với hình ảnh, và cảnh quay ngay lập tức trở nên chân thực hơn. Giao diện giúp việc thử nghiệm các phiên bản khác nhau trở nên dễ dàng - tôi có thể tạo, nghe, điều chỉnh và hoán đổi âm thanh mà không cần rời khỏi không gian làm việc.
Tôi đã thử nghiệm ElevenLabs trên một cảnh cần thuyết minh cho một phim tài liệu ngắn. Tôi đã viết một gợi ý ngắn gọn mô tả tông giọng mong muốn: bình tĩnh, rõ ràng và ổn định. Chỉ trong vài giây, ElevenLabs đã tạo ra một giọng lồng tiếng nghe rất tự nhiên - nhịp điệu, sự nhấn mạnh, và thậm chí cả những hơi thở nhỏ đều rất chân thực.
Điều chính khiến tôi ấn tượng là khả năng điều chỉnh chi tiết giọng nói dễ dàng đến mức nào. Tôi có thể thay đổi tốc độ, âm điệu và nhấn mạnh mà không cần dùng đến bất kỳ phần mềm chỉnh sửa âm thanh miễn phí phức tạp nào mà tôi đã từng dùng trước đây. Về hiệu ứng âm thanh, tôi đã thử thêm những thứ như tiếng gió và tiếng mưa nhẹ.
Mặc dù ElevenLabs chủ yếu được thiết kế cho giọng nói, nhưng âm thanh xung quanh mà nó tạo ra lại rất phù hợp với video của tôi. Nhìn chung, ElevenLabs là một lựa chọn tuyệt vời nếu dự án của bạn chủ yếu dựa vào lời tường thuật, với tùy chọn thêm một số hiệu ứng nền khi cần.
Tôi không nghĩ canva lại mạnh về khả năng tạo âm thanh, nhưng tính năng âm thanh AI của nó hóa ra lại rất dễ sử dụng. Tôi đã tải lên một đoạn clip quảng cáo ngắn và cần một chút âm thanh nền nhẹ nhàng - một làn gió nhẹ và tiếng chuông nhẹ nhàng để phù hợp với tâm trạng vui tươi.
canva cho phép tôi nhập một mô tả ngắn và nhanh chóng tạo ra một số tùy chọn âm thanh mà tôi có thể xem trước và đặt ngay vào dòng thời gian.
Ưu điểm chính là mọi thứ đều dễ dàng và liền mạch. Bạn không cần bất kỳ kỹ năng âm thanh nào - AI cung cấp cho bạn một số tùy chọn âm thanh có sẵn mà bạn có thể đưa trực tiếp vào dự án Canva của mình. Ứng dụng này không được thiết kế để chỉnh sửa âm thanh chi tiết, mà dành cho công việc nhanh chóng, tiện lợi khi bạn muốn âm thanh khớp ngay với hình ảnh, rất lý tưởng cho các video tiếp thị và video trên mạng xã hội.
Điều tuyệt vời nhất là bạn có thể làm mọi thứ trong một trình chỉnh sửa. Không xuất, không chuyển đổi ứng dụng và không sử dụng Máy phát nhạc AI. Để tạo nội dung xã hội nhanh chóng, điều đó cực kỳ hữu ích.
SFX Engine mang lại cảm giác như đang sử dụng một trình tạo hiệu ứng âm thanh chuyên nghiệp. Tôi đã thử nghiệm bằng cách xây dựng các lớp âm thanh khoa học viễn tưởng - các cảnh quay laser, va chạm kim loại và tiếng ồn nền tàu vũ trụ trầm thấp. Công cụ này cho phép tôi thay đổi các yếu tố như cao độ, tiếng vang và vị trí âm thanh trong không gian, mang lại cho tôi mức độ kiểm soát mà thông thường tôi chỉ tìm thấy trong DAW miễn phí.
Điểm ấn tượng nhất là âm thanh chân thực đến mức nào. Nhiều công cụ AI tạo ra các hiệu ứng lặp lại hoặc phẳng, nhưng SFX Engine lại tạo ra âm thanh phong phú và đậm chất điện ảnh, như thể được lấy trực tiếp từ nhạc phim chuyên nghiệp.
SFX Engine không phải là công cụ tạo giọng nói AI tốt nhất để tạo clip nhanh trên mạng xã hội. Nó dành cho các nhà sáng tạo như nhà làm phim, họa sĩ hoạt hình và nhà phát triển game, những người muốn kiểm soát hoàn toàn và có âm thanh chân thực. Nhược điểm là cần thời gian để học và cần một máy tính mạnh. Nhưng nếu bạn muốn âm thanh chất lượng chuyên nghiệp, đây là một trong những công cụ tốt nhất hiện có.
Sử dụng LoudMe giống như có một người trợ lý hiểu rõ bầu không khí tôi đang cố gắng tạo ra. Tôi đang chỉnh sửa một quán cà phê vlogvà muốn có âm thanh nền chân thực nhưng không gây mất tập trung - những cuộc trò chuyện nhỏ nhẹ, tiếng máy pha cà phê, tiếng đĩa nhẹ.
Tôi nhập mô tả về môi trường xung quanh, và chỉ sau vài giây, LoudMe đã cho tôi một vài phiên bản để lựa chọn. Mỗi phiên bản có mức độ tiếng ồn và âm sắc nền khác nhau. Tôi chọn phiên bản nghe tự nhiên nhất và đưa vào bản chỉnh sửa - nó khớp hoàn hảo mà không cần bất kỳ điều chỉnh bổ sung nào.
Điều tuyệt vời nhất là phần mềm lồng tiếng này tự động đề xuất mức âm lượng phù hợp dựa trên âm thanh video của tôi. Tôi không phải tự tay điều chỉnh âm thanh nền và giọng nói.
Đây không phải là lựa chọn tiên tiến nhất để chỉnh sửa âm thanh chi tiết, nhưng lại rất tuyệt vời cho kết quả nhanh chóng và chân thực. Đối với vlogger, người sáng tạo, hoặc bất kỳ ai làm việc nhanh, LoudMe mang đến một bầu không khí trong trẻo, tự nhiên mà hầu như không cần thêm bất kỳ thao tác nào.
OptimizerAI nổi bật với tôi vì nó tuyên bố có thể tự động tạo ra âm thanh khớp với hình ảnh. Tôi muốn xem liệu nó có thực sự phân tích video và tạo ra âm thanh phù hợp với cảnh đó hay không. Tôi cũng thấy mọi người trên diễn đàn nói rằng nó hoạt động tốt với tạo giọng nói hoạt hình, nên tôi cũng muốn thử nghiệm.
Tôi đã tải lên một cảnh chiến đấu ngắn từ một trong những dự án của mình - những cú đánh nhanh, những nhát kiếm và những bước chân nặng nề. OptimizerAI tự động đọc thời gian và chuyển động trong video. Sau đó, khi tôi nhập một lời nhắc ngắn như "bầu không khí chiến đấu thời trung cổ dữ dội", nó tạo ra các hiệu ứng âm thanh khớp ngay với hành động.
Điều làm tôi ngạc nhiên nhất là cách AI tự động đồng bộ âm thanh với hành động - tiếng bước chân khớp với chuyển động, tiếng va chạm chính xác với những cú đu đưa, và tiếng vọng nền thay đổi tự nhiên. Tôi hầu như không cần phải điều chỉnh gì cả.
KlingAI được tạo ra dành cho những người sáng tạo muốn có âm thanh mang tính tưởng tượng và phi thực tế. Tôi đã thử nghiệm giọng nói AI này overgenerator trên một hình ảnh động mơ màng và cần âm thanh mềm mại, bay bổng. Tôi đã viết một gợi ý ngắn: "Tiếng chuông nhẹ nhàng với âm thanh ngân nga sâu lắng và nhịp đập chậm rãi như sóng biển".
Vài giây sau, KlingAI tạo ra những âm thanh gần như sống động. Chúng nghe không giống những hiệu ứng thường thấy trên các trang web âm nhạc miễn phí bản quyền. Thay vào đó, chúng có chiều sâu và không khí. Tôi đã kết hợp một vài đoạn clip được tạo ra, và kết quả cuối cùng mang lại cảm giác độc đáo - điều mà tôi không thể có được từ một thư viện âm thanh tiêu chuẩn.
KlingAI không được thiết kế cho môi trường âm thanh tự nhiên hay theo nghĩa đen - nó tập trung vào âm thanh biểu cảm, giàu cảm xúc. Nó hoạt động tốt nhất cho các đoạn mở đầu mang tính nghệ thuật, chuyển đổi tâm trạng hoặc phim thử nghiệm, nơi bạn cần thứ gì đó giàu cảm xúc và khác biệt.
Điểm trừ là kết quả có thể khác nhau, và bạn có thể cần phải tạo lại vài lần để có được cảm giác chính xác như mong muốn. Nhưng khi đầu ra đồng nhất, nó sẽ mang lại một điều gì đó thực sự đặc biệt.
Tôi đã thử Genny khi đang thực hiện một dự án hoạt hình 2D gồm nhiều cảnh ngắn. Tôi cần một loạt âm thanh như tiếng bước chân, tiếng cửa mở, tiếng cười và tiếng ồn thành phố, nhưng tôi không có thời gian để tạo riêng từng âm thanh.
Tính năng xử lý hàng loạt của Genny thực sự làm tôi ngạc nhiên. Tôi đã nhập nhiều lời nhắc cùng lúc, và nó tạo ra nhiều hiệu ứng âm thanh chỉ trong một lần. Tất cả âm thanh đều khớp nhau, cân bằng và rõ ràng, điều này hiếm khi xảy ra khi sử dụng phần mềm trí tuệ nhân tạo mà không cần chỉnh sửa thêm.
Nó được thiết kế để hoạt động nhanh chóng và mượt mà. Việc chuyển đổi giữa các phiên bản âm thanh khác nhau gần như không mất thời gian, nên tôi có thể thử nghiệm các tùy chọn mà không làm gián đoạn quá trình chỉnh sửa.
Genny không dành cho việc chỉnh sửa âm thanh chuyên sâu, chi tiết, nhưng nó hoàn hảo cho các nhà làm phim hoạt hình, YouTuber và các nhà sáng tạo nội dung nhỏ cần nhiều âm thanh chất lượng cao chỉ trong vài phút. Nó dễ sử dụng, đáng tin cậy và tiết kiệm rất nhiều thời gian.
Trình tạo âm thanh AI này gây ấn tượng với tôi hơn cả mong đợi. Giao diện đơn giản và chỉ tập trung vào việc chuyển đổi văn bản thành âm thanh. Tôi chỉ cần nhập một mô tả đơn giản, "mưa trên mái tôn kèm tiếng sấm nhỏ ở phía xa", và nó đã tạo ra một đoạn âm thanh chân thực, dễ sử dụng chỉ trong vài giây.
Điều tôi thích nhất là nó rất dễ sử dụng - không cần cài đặt, không cần điều khiển phức tạp. Nó chạy trực tiếp trên trình duyệt, nên bất kỳ ai cũng có thể bắt đầu ngay lập tức. Âm thanh phát ra nghe rõ ràng và tự nhiên, với độ sâu và cân bằng âm sắc tốt.
Nó chắc chắn không được thiết kế cho thiết kế âm thanh toàn diện hay phối nhạc phức tạp - nó dành cho những người sáng tạo cần âm thanh nhanh, sẵn sàng sử dụng. Cuối cùng, tôi dùng nó để chỉnh sửa nhanh, làm video ngắn trên mạng xã hội và làm nhạc nền tạm thời cho các dự án lớn hơn.
Về cơ bản, đây là cách dễ nhất để bắt đầu sử dụng AI cho âm thanh. Lý tưởng cho người mới bắt đầu hoặc bất kỳ ai muốn có kết quả nhanh hơn là kiểm soát sâu. Và nếu bạn sử dụng nó cùng với DAW dành cho người mới bắt đầu, nó có thể trở thành một thiết lập mạnh mẽ đáng ngạc nhiên.
Tại FixThePhoto, chúng tôi đã thử nghiệm các công cụ tạo hiệu ứng âm thanh AI phổ biến nhất để xem công cụ nào thực sự hiệu quả như quảng cáo. Ý tưởng rất đơn giản - tìm hiểu xem liệu những công cụ này có thực sự giúp giảm thời gian thiết kế và chỉnh sửa âm thanh thủ công hay không bằng cách sử dụng AI để giúp tạo âm thanh hiệu quả hơn.
quá trình thử nghiệm là sự kết hợp giữa kiểm tra kỹ thuật và đánh giá sáng tạo. Mỗi thành viên trong nhóm của chúng tôi (Nataly Omelchenko, Tata Rossi và Kate Debela) đã thử nghiệm các công cụ theo góc nhìn chuyên môn của riêng họ.
Nataly, chuyên gia biên tập video và kể chuyện bằng hình ảnh, tập trung vào việc âm thanh do AI tạo ra khớp với cảnh quay thực tế như thế nào. Cô đã tải lên nhiều đoạn clip khác nhau, từ cảnh quay du lịch, cảnh quay phong cách sống, đến những thước phim ngắn đầy cảm xúc, và đánh giá xem âm thanh có phù hợp với nhịp độ, tâm trạng và hành động diễn ra trên màn hình hay không.
Tata tập trung vào độ chân thực và cân bằng của âm thanh. Cô lắng nghe cách các lớp âm thanh khác nhau phối hợp với nhau, xem âm lượng và tông giọng có tự nhiên không, và âm thanh có phù hợp với video mà không cần chỉnh sửa nhiều không. Cô cũng lưu ý công cụ nào tốt hơn để tạo ra bầu không khí nền chung và công cụ nào hữu ích hơn cho hiệu ứng âm thanh sắc nét, chi tiết.
Ngược lại, Kate tập trung vào mức độ dễ sử dụng của các công cụ. Cô kiểm tra tốc độ tạo âm thanh của từng Công cụ âm thanh AI, xem các nút điều khiển có dễ hiểu không, và âm thanh có thể được thêm vào các chương trình chỉnh sửa video một cách mượt mà không. Cô cũng xem xét mức độ hoạt động của các công cụ đối với người mới bắt đầu chưa có kinh nghiệm về thiết kế âm thanh.
Chúng tôi đã cùng nhau thử nghiệm mọi trình tạo âm thanh AI trong các tình huống biên tập thực tế hàng ngày. Chúng tôi sử dụng cùng một đoạn video clip (từ cảnh đường phố yên tĩnh đến các cảnh quay nhanh, hành động dồn dập) và so sánh cách mỗi công cụ phản hồi với cùng một mô tả hoặc tâm trạng. Một số trình tạo âm thanh gây ấn tượng với chúng tôi nhờ âm thanh phong phú, nhiều lớp, đậm chất điện ảnh, trong khi một số khác nổi bật chủ yếu nhờ tốc độ và tính dễ sử dụng.
Trong quá trình thử nghiệm, chúng tôi không chỉ đánh giá chất lượng âm thanh cuối cùng mà còn xem xét mức độ phù hợp của từng công cụ với quy trình làm việc thông thường của người sáng tạo. Sự khác biệt rất rõ ràng: Firefly hòa trộn mượt mà với các chương trình Adobe khác, ElevenLabs tạo ra giọng nói cực kỳ chân thực, SFX Engine cho phép kiểm soát âm thanh cực kỳ chính xác, trong khi Canva tập trung vào việc tạo âm thanh nhanh chóng, đơn giản với ít nỗ lực nhất.
Khi chúng tôi hoàn tất thử nghiệm, rõ ràng là không có một công cụ AI hoàn hảo nào cho mọi tình huống - mỗi công cụ hoạt động tốt nhất cho những nhu cầu khác nhau. Điều thực sự nổi bật là âm thanh AI đã trở nên tiên tiến đến mức nào. Kết quả thường tự nhiên và sáng tạo đến bất ngờ, và điều này khiến chúng tôi rất hào hứng chờ xem những công cụ này sẽ tiếp tục được cải thiện như thế nào trong tương lai.