Régóta foglalkozom videószerkesztéssel, de a hangdizájn mindig is a legnehezebb rész volt számomra. Órákat tudok eltölteni a megfelelő hangeffektus keresésével – legyen az drámai suhogás, kandalló ropogása vagy halk háttérhang –, és mégsem találok olyat, ami illik hozzám. A legtöbb hangkönyvtár túlárazott, túl alapvető, vagy egyszerűen nem egészen megfelelő.
Múlt héten egy rövid úti videón dolgoztam. A vizuális elemek készen álltak – a színek, a vágások és az átmenetek mind jól néztek ki –, de amikor megnéztem, laposnak éreztem. Nem volt hangulata. Ekkor döbbentem rá: nem csak háttérzenére volt szükségem, hanem olyan hangra, ami alátámasztja a történetet.
Így elkezdtem keresni egy mesterséges intelligencián alapuló hanggenerátort, ami ténylegesen megérti, amit kérek, ahelyett, hogy véletlenszerű hangeffektusokat adna.
Ezt akartam:
Több eszköz tesztelése után rájöttem, hogy a legtöbb úgynevezett „mesterséges intelligencia” platform csak gyári hangkönyvtárakat használ újra. De egy eszköz kiemelkedett – valójában magából a promptból generálta a hangot. Amikor beléptem egy „régi fémajtón, ami lassan nyílott egy sötét folyosón”, egy olyan hangot produkált, ami valóságosnak, részletesnek tűnt, és tökéletesen illett a jelenethez.
Most először nem azzal küzdöttem, hogy hangot illesztsek a videómhoz – a hangot a történetemhez formáltam.
Most ahelyett, hogy órákat töltenék a hangkönyvtárak böngészésével, csak leírom a kívánt hangot – például „este kopog az üvegen az esőben” –, és a mesterséges intelligencia másodpercek alatt elkészíti azt.
Úgy döntöttem, kiválasztom magamnak a legjobb eszközöket, és megosztom őket ebben a cikkben. Ehhez megkértem a FixThePhoto csapat kollégáimat, hogy segítsenek. Több projektet is kiválasztottunk – némelyiket a szakmai munkáimból, és néhány közösségi médiába szánt életmód videót, amelyeket a munkatársaim készítettek.
Leírtuk, hogy mire van szüksége az egyes projekteknek, és elkezdtük felfedezni a különböző hanggenerátorokat. Fórumokat ellenőriztünk, ajánlásokat néztünk át, majd elkezdtük tesztelni az egyes eszközöket.
A nagyszerű videóhang nem a számítógépen születik. A fejedben születik. Először is, Találd ki a történeted érzelmeit Minden jelenetnek más a hangulata, például nyugodt, energikus vagy titokzatos. Ha tudod, milyen érzést szeretnél elérni, megtervezheted a hangzást, hogy az azt hozza létre, ahelyett, hogy csak az utolsó lépésként adnád hozzá.
A mesterséges intelligenciának köszönhetően mostantól egyszerűbb hangokat készíteni videóidhoz. Nem kell többé végtelen hangkönyvtárban keresgélned. Csak... írd le az érzelmet, a jelenetet vagy a hangulatot, amit megpróbálsz létrehozni, és a mesterséges intelligencia megalkotja a hangot. A pontos leírással a legjobb eredményt érheted el.
Ugyanez a szabály működik a hangoknál is. Válasszon egy hangot amely illik a videód stílusához: erős, tiszta hang egy oktatóanyaghoz; lágy, lassú hang egy szomorú történethez; vagy energikus hang egy gyors tempójú kliphez. A mesterséges intelligenciának köszönhetően ezek a hangok mostantól természetesnek és valóságosnak hangzanak, tökéletesen illeszkedve a videódhoz.
Miután elkészült a narráció és a hangeffektek, az igazi munka a vágás során történik. A hangerő, az időzítés és a hangok videóhoz való illeszkedésének beállítása segít abban, hogy minden természetesnek és élőnek tűnjön. Még apró részletek – halk háttérzaj, halk visszhang vagy enyhe EQ-beállítások – olyan érzést kelthetnek a hangban, mintha valóban a jelenethez tartozna.
Végső soron a nagyszerű hangzás nem csak az eszközökön múlik. Arról van szó, hogy ismerd a videód hangulatát és üzenetét. Amikor megérted a történetet és az érzést, amit közvetíteni szeretnél, a mesterséges intelligencia egyszerűen segít kifejezni azt. A hangdizájn megszűnik technikai probléma lenni, és a történetmesélési folyamat zökkenőmentes részévé válik.
| Tennivalók | Tiltott dolgok |
|---|---|
|
✔️ A hang elkészítése előtt döntsd el a videód hangulatát és hangulatát.
|
❌ Ne kezdj el hangot generálni anélkül, hogy tudnád, milyen hangulatot szeretnél.
|
|
✔️ Írjon részletes utasításokat világos leírásokkal.
|
❌ Ne használjon rövid vagy homályos utasításokat, például „háttérzene” vagy „hang”.
|
|
✔️ Válasszon olyan hangstílust és tempót, amely illik a vizuális elemekhez és az üzenethez.
|
❌ Ne használd ugyanazt a hangnemet minden projekthez.
|
|
✔️ Az időzítés, a hangerő és a keverés beállítása hangszerkesztés közben.
|
❌ Ne adj hozzá hangokat anélkül, hogy szinkronizálnád őket a videóval.
|
|
✔️ Adj hozzá apró környezeti hangokat, hogy a jelenet valósághűnek tűnjön.
|
❌ Ne hagyd üresnek vagy túl tisztának tűnni a hanganyagot.
|
|
✔️ Használd a mesterséges intelligenciát eszközként a kreativitásod támogatására.
|
❌ Ne várd el a mesterséges intelligenciától, hogy elvégezze helyetted az összes kreatív munkát
|
Amikor először megnyitottam Adobe Firefly videó videót, nem tudtam, mire számítsak. Sokat hallottam róla, de sosem vizsgáltam meg igazán, hogy mire képes – főleg mivel általában manuálisan kerestem hangokat és narrációkat a videótárakból.
Egy számomra nehéz projekten próbáltam ki: egy drámai jeleneten, ahol egy ember sétál egy üres városban naplementekor. Normális esetben sokáig kutattam a hangkönyvtárakban lépések, szél és lágy városi hangulat után kutatva – és még akkor is valószínűleg valami olyasmivel találkoztam, ami nem tűnt teljesen helyénvalónak.
Beírtam egy részletes promptot ebbe a hangeffektus-generátorba: „Visszhangzó lépések egy csendes városi utcában naplementekor, lágy szél, halk szirénák távolban, filmes hangulat.” Néhány másodperc alatt több hangverziót generált. A minőség meglepett – a lépések tempója és súlya realisztikus volt, a szél hangulatot teremtett anélkül, hogy bármit is elnyomott volna, a távoli szirénák pedig finom feszültséget adtak hozzá. Az eredmény gazdagnak és többrétegűnek érződött, nem pedig egyetlen rövid hang ismétlődésének overés újra.
Aztán ellenőriztem, mennyire tudom állítani a hangot. Ebben az ingyenes Adobe szoftver -ban meg tudtam változtatni a szél hangerejét, visszhangot tudtam hozzáadni vagy csökkenteni, hogy a lépések közelebbinek vagy távolabbinak tűnjenek, sőt, a hangmix különböző részeit is el tudtam különíteni.
A Firefly által létrehozott hangot közvetlenül a videó idővonalába helyeztem. Tökéletesen illeszkedett a vizuális elemekhez, és a jelenet azonnal valóságosabbnak tűnt. A kezelőfelület megkönnyítette a különböző verziók kipróbálását - generálhattam, hallgathattam, állíthattam és cserélhettem a hangokat anélkül, hogy elhagytam volna a szerkesztőfelületet.
Az ElevenLabs-et egy olyan jeleneten teszteltem, amelyhez narrációra volt szükség egy rövid dokumentumfilmhez. Írtam egy rövid üzenetet, amelyben leírtam a kívánt hangnemet: nyugodt, tiszta és stabil. Néhány másodperc alatt az ElevenLabs egy nagyon természetesen hangzó narrációt generált – a ritmus, a hangsúly és még a kis lélegzetek is realisztikusnak tűntek.
A legfontosabb dolog, ami lenyűgözött, az a hang részleteinek könnyű beállítása volt. Meg tudtam változtatni a sebességet, a hangszínt és a hangsúlyt anélkül, hogy bármilyen bonyolult ingyenes hangszerkesztő szoftver -t használtam volna, amit korábban használtam. Hangeffektusként olyan dolgokat próbáltam hozzáadni, mint a szél és a könnyű eső.
Habár az ElevenLabs főként hangeffektusokhoz készült, az általa létrehozott környezeti hangok jól illeszkedtek a videómhoz. Összességében az ElevenLabs kiváló választás, ha a projekted főként narrációra épül, szükség esetén háttéreffektusok hozzáadásának lehetőségével.
Nem gondoltam volna, hogy canva erős lesz a hangkészítésben, de a mesterséges intelligencia által vezérelt audio funkciói nagyon könnyen használhatónak bizonyultak. Feltöltöttem egy rövid promóciós klipet, és szükségem volt lágy háttérzenére - egy lágy szellőre és könnyű csengőhangokra, hogy illeszkedjenek a vidám hangulathoz.
A canva lehetővé tette számomra, hogy megadjak egy rövid leírást, és gyorsan számos hangbeállítást generált, amelyeket előzetesen megtekinthettem és közvetlenül az idővonalra helyezhettem.
A fő előnye, hogy mennyire egyszerűnek és összekapcsoltnak tűnik minden. Nincs szükség semmilyen hangtudásra – a mesterséges intelligencia számos kész hangbeállítást kínál, amelyeket közvetlenül a Canva projektedbe helyezhetsz. Nem részletes hangszerkesztésre tervezték, hanem gyors és kényelmes munkára, ahol azt szeretnéd, hogy a hang azonnal illeszkedjen a vizuális elemekhez, ami tökéletes marketing- és közösségi médiavideókhoz.
A legjobb az egészben az, hogy mindent megtehet egyetlen szerkesztőben. No exporting, no switching apps, and no using different AI zenegenerátorok. A gyors közösségi tartalom létrehozásához ez hihetetlenül hasznos.
Az SFX Engine olyan érzést keltett, mintha egy professzionális hangeffektus-generátort használnék. Rétegzett sci-fi hangok létrehozásával próbáltam ki - lézerlövések, fémbecsapódások és egy halk űrhajó-háttérzúgás. Az eszközzel olyan dolgokat tudtam megváltoztatni, mint a hangmagasság, a visszhang és a hang térbeli elhelyezkedése, ami olyan szintű kontrollt adott nekem, amit általában csak teljes értékű ingyenes DAW-k találok meg.
A legszembetűnőbb az volt, hogy mennyire hitelesnek tűntek a hangok. Sok mesterséges intelligencia eszköz ismétlődő vagy lapos effekteket produkál, de az SFX Engine gazdag és filmes hangzású hangokat hozott létre, mintha egyenesen egy profi filmzenéből vették volna át.
Az SFX Engine nem a legjobb mesterséges intelligencia alapú hanggenerátor a gyors közösségi média klipek készítéséhez. Olyan alkotóknak szól, mint filmesek, animátorok és játékfejlesztők, akik teljes kontrollt és realisztikus hangzást szeretnének. A hátránya, hogy időbe telik megtanulni, és nagy teljesítményű számítógépre van szükség. De ha professzionális minőségű hangot szeretnél, ez az egyik legjobb elérhető eszköz.
A LoudMe használata olyan érzés volt, mintha lenne egy segítőm, aki már érti a hangulatot, amit megpróbálok teremteni. Egy kávézót szerkesztettem vlog, és olyan háttérzenét szerettem volna, ami valóságosnak érződik, de nem vonja el a figyelmet – halk beszélgetések, kávéfőzők, halk ételek hangjai.
Beírtam a környezet leírását, és néhány másodperc múlva a LoudMe számos verziót kínált fel, amik közül választhattam. Mindegyiknek más volt a háttérzajszintje és a hangszíne. Kiválasztottam azt, amelyik a legtermészetesebbnek hangzott, és elhelyeztem a szerkesztésemben – tökéletesen illeszkedett mindenféle extra beállítás nélkül.
A legjobb az egészben az volt, hogy ez a hangalámondás szoftver automatikusan javasolta a megfelelő hangerő-egyensúlyt a videóm hangja alapján. Nem kellett manuálisan beállítanom a háttérzajt és a beszédet.
Nem a legfejlettebb opció a részletes hangszerkesztéshez, de nagyszerű a gyors, realisztikus eredmények eléréséhez. Vloggerek, alkotók vagy bárki számára, aki gyorsan dolgozik, a LoudMe tiszta, természetes hangulatot biztosít szinte semmilyen plusz munkával.
Az OptimizerAI azért tűnt fel számomra, mert azt állítja, hogy olyan hangot hoz létre, amely automatikusan illeszkedik a képhez. Ki akartam próbálni, hogy valóban képes-e elemezni egy videót, és a jelenethez illő hangot előállítani. Fórumokon azt is láttam, hogy emberek azt mondták, hogy jól működik animált hangok létrehozásának elvégzéséhez, ezért ezt is ki akartam próbálni.
Feltöltöttem egy rövid csatajelenetet az egyik projektemből – gyors lövések, kardcsapások és nehéz léptek. Az OptimizerAI automatikusan leolvasta az időzítést és a mozgást a videóban. Ezután, miután beírtam egy rövid utasítást, például az „intenzív középkori csatahangulat”, olyan hangeffektusokat hozott létre, amelyek azonnal illeszkedtek az akcióhoz.
Ami a legjobban meglepett, az az volt, hogy a mesterséges intelligencia hogyan szinkronizálta a hangokat az eseményekkel – a lépések hangja követte a mozgást, az ütközések pontosan a hintákon hallatszottak, és a háttér visszhangja természetesen eltolódott. Alig kellett valamit beállítanom.
A KlingAI-t olyan alkotóknak tervezték, akik fantáziadús és valószerűtlen hangzásra vágynak. Kipróbáltam ezt a mesterséges intelligencia által fejlesztett hanggenerátort, a overgenerátort egy álomszerű animáción, és olyan hangra volt szükségem, ami lágynak és lebegőnek érződik. Írtam egy rövid üzenetet: „gyenge csengőhangok mély zümmögő hangokkal és lassú, hullámszerű pulzusokkal”.
Néhány másodperccel később a KlingAI szinte élőnek érződött hangokat produkált. Nem úgy hangzottak, mint a tipikus jogdíjmentes zenei oldalak lemezeken található megszokott effektek. Ehelyett mélységgel és hangulattal rendelkeztek. Kombináltam néhány generált klipet, és a végeredmény eredetinek érződött – valami olyasmi, amit egy szabványos hangkönyvtárból nem tudtam volna elérni.
A KlingAI-t nem természetes vagy szó szerinti hangkörnyezetekhez tervezték – a kifejező, atmoszférikus hangzásra összpontosít. Művészi nyitányokhoz, hangulatátmenetekhez vagy kísérleti filmekhez működik a legjobban, ahol valami érzelmes és egyedi élményre vágyunk.
A kompromisszum az, hogy az eredmények eltérőek lehetnek, és lehet, hogy többször is újra kell futtatni a programot, hogy pontosan a kívánt érzetet kapjuk. De amikor a végeredmény egy vonalban van, az valami igazán különlegeset eredményez.
Kipróbáltam a Gennyt, miközben egy 2D-s animációs projekten dolgoztam, amiben több rövid jelenet volt. Többféle hangra volt szükségem, például lépések zajára, ajtók nyílására, nevetésre és városi háttérzajra, de nem volt időm minden egyes hangot külön-külön elkészíteni.
Genny kötegelt funkciója nagyon meglepett. Egyszerre több promptot adtam meg, és egyetlen menetben rengeteg hangeffektust produkált. Az összes hang jól illeszkedett, és már eleve kiegyensúlyozott és tiszta volt, ami ritka, ha mesterségi intelligencia szoftvert használjuk extra szerkesztés nélkül.
Úgy tervezték, hogy gyorsan és simán működjön. A különböző hangverziók közötti váltás szinte pillanatok alatt megtörtént, így a szerkesztési folyamat megszakítása nélkül tesztelhettem a lehetőségeket.
A Genny nem mély, részletes hangszerkesztésre készült, de tökéletes animátorok, YouTube-osok és kisebb alkotók számára, akiknek percek alatt rengeteg jó minőségű hangra van szükségük. Könnyen használható, megbízható, és sok időt takarít meg.
Ez a mesterséges intelligencia által generált hanggenerátor jobban lenyűgözött, mint amire számítottam. A kezelőfelület egyszerű, és csak a szöveg hanggá alakítására összpontosít. Beírtam egy egyszerű leírást: „eső egy fémtetőn, halk mennydörgés a távolban”, és a rendszer néhány másodperc alatt egy hihető, használható hangfelvételt készített.
Ami a legjobban tetszett, az a könnyű használata volt – nem kellett telepíteni, nincsenek bonyolult vezérlők. Közvetlenül a böngészőben fut, így bárki azonnal elkezdheti. A létrehozott hang tisztán és természetesen szólt, jó mélységgel és hangszínegyensúlyral.
Határozottan nem teljes körű hangdizájnhoz vagy komplex keveréshez tervezték – inkább azoknak az alkotóknak való, akiknek gyors, használatra kész hangra van szükségük. Végül gyors szerkesztésekhez, rövid közösségi videókhoz és ideiglenes hanghelyőrzőkhöz használtam nagyobb projektekben.
Ez alapvetően a legegyszerűbb módja a mesterséges intelligencia hangzáshoz való használatának. Ideális kezdőknek vagy bárkinek, aki gyors eredményeket szeretne a mélyreható kontroll helyett. És ha egy DAW kezdőknek együtt használod, meglepően erős összeállítássá válhat.
A FixThePhoto oldalon teszteltük a legnépszerűbb mesterséges intelligenciával hajtott hangeffektus-készítőket, hogy kiderüljön, melyek működnek valóban olyan jól, mint ahogy azt hirdetik. Az ötlet egyszerű volt: kideríteni, hogy ezek az eszközök reálisan le tudják-e csökkenteni a manuális hangtervezésre és szerkesztésre fordított időt azáltal, hogy a mesterséges intelligenciát hatékonyabban használják a hanganyagok előállításához.
A vizsgálati folyamat a technikai ellenőrzés és a kreatív ítéletalkotás keveréke volt. Csapatunk minden tagja (Nataly Omelchenko, Tata Rossi és Kate Debela) a saját szakmai szemszögéből tesztelte az eszközöket.
Nataly, aki videószerkesztésre és vizuális történetmesélésre specializálódott, arra összpontosított, hogy a mesterséges intelligencia által generált hanganyagok mennyire illeszkednek a tényleges felvételekhez. Különböző klipeket töltött fel, például utazási jeleneteket, életmódfotókat, érzelmes minifilmeket, és értékelte, hogy a hangok illeszkednek-e a képernyőn zajló tempóhoz, hangulathoz és akcióhoz.
Tata arra összpontosított, hogy mennyire valóságosnak és kiegyensúlyozottnak érződnek a hangok. Figyelte, hogyan működnek együtt a különböző rétegek, hogy a hangerő és a tónus természetesnek hangzik-e, és hogy a hang illeszkedik-e a videóba sok extra javítás nélkül. Azt is megjegyezte, hogy mely eszközök jobbak az általános háttérhangulat megteremtéséhez, és melyek hasznosabbak az éles, részletes hangeffektusokhoz.
Kate ezzel szemben arra koncentrált, hogy mennyire könnyű használni az eszközöket. Ellenőrizte, hogy az egyes AI audioeszközök milyen gyorsan állítanak elő hangot, hogy a vezérlők könnyen érthetők-e, és hogy milyen simán lehet-e a hangokat hozzáadni a videószerkesztő programokhoz. Azt is megvizsgálta, hogy az eszközök mennyire működnek jól a kezdők számára, akiknek nincs tapasztalatuk a hangdizájnban.
Együttesen teszteltük az összes mesterséges intelligenciával működő hanggenerátort valós, mindennapi vágási helyzetekben. Ugyanazokat a videoklipeket használtuk (a csendes utcai jelenetektől a gyors, akciódús felvételekig), és összehasonlítottuk, hogy az egyes eszközök hogyan reagáltak ugyanarra a leírásra vagy hangulatra. Néhány generátor gazdag, rétegzett, filmszerű hangzásával nyűgözött le minket, míg mások főként a sebességük és a könnyű kezelhetőségük miatt tűntek ki.
A tesztelés során nemcsak a végső hangminőséget értékeltük. Azt is megvizsgáltuk, hogy az egyes eszközök milyen könnyen illeszkednek egy alkotó szokásos munkafolyamatába. A különbségek nagyon egyértelműek voltak: a Firefly simán illeszkedett más Adobe programokkal, az ElevenLabs hihetetlenül élethű hangokat produkált, az SFX Engine nagyon precíz hangvezérlést tett lehetővé, míg a Canva a gyors, egyszerű hangkészítésre összpontosított, minimális erőfeszítéssel.
Mire befejeztük a tesztelést, nyilvánvalóvá vált, hogy nincs egyetlen tökéletes MI-eszköz minden helyzetre – mindegyik más-más igényekhez működik a legjobban. Ami igazán feltűnt, az az, hogy mennyire fejlett lett a MI-hangzás. Az eredmények gyakran meglepően természetesek és kreatívak voltak, és izgatottan vártuk, hogy ezek az eszközök hogyan fognak a jövőben tovább fejlődni.