Η επιλογή λογισμικού γεννήτριας φωνής με τεχνητή νοημοσύνη ακούγεται απλή, μέχρι που πρέπει πραγματικά να την κάνετε. Το έμαθα με τον δύσκολο τρόπο. Έφτιαχνα ένα σύντομο βίντεο και μερικά επεξηγηματικά κλιπ και χρειαζόμουν μια ρεαλιστική φωνή.
Η ηχογράφηση του εαυτού μου δεν ήταν ποτέ στο τραπέζι. Δεν είχα ένα αξιοπρεπές μικρόφωνο και δεν αντέχω να ακούω την ίδια μου τη φωνή να παίζεται.
Η πρόσληψη ενός ηθοποιού φωνής ήταν εκτός προϋπολογισμού. Έτσι, αποφάσισα να χρησιμοποιήσω Τεχνητή Νοημοσύνη. Δεν περίμενα πόσο γρήγορα θα μπορούσαν να πάνε τα πράγματα στραβά με το λάθος εργαλείο. Και πιστέψτε με, υπάρχουν πολλά λάθος εργαλεία εκεί έξω.
Η επιλογή των καλύτερων γεννητριών φωνής με τεχνητή νοημοσύνη κατέληξε σε ένα πράγμα: την εφαρμογή. Όχι ποιο εργαλείο είχε τη μεγαλύτερη λίστα φωνών, αλλά ποιο από αυτά μου παρείχε αυτό που χρειαζόμουν: συνέπεια, φυσικό ήχο και πραγματικό έλεγχο της εξόδου.
Δεν πέρασα μόνη μου αυτή τη διαδικασία. Οι συνάδελφοί μου από FixThePhoto έσπευσαν να βοηθήσουν. Μαζί με την Kate Debela, τον Vadym Antypenko και την Eva Williams, δοκιμασμένες 40+ γεννήτριες φωνής τεχνητής νοημοσύνης για να βρούμε την καλύτερη.
Οι γεννήτριες φωνής με τεχνητή νοημοσύνη είναι εντυπωσιακά εργαλεία, αλλά αφού τις δοκιμάσω, μπορώ να σας πω ότι εξακολουθούν να έχουν κάποια προβλήματα. Δείτε τι θα συναντήσετε:
Η τεχνητή νοημοσύνη δημιουργεί φωνές μέσω τεχνολογίας μετατροπής κειμένου σε ομιλία (TTS) που λειτουργεί με μηχανική μάθηση και νευρωνικά δίκτυα. Ακολουθεί ένας απλός τρόπος για να κατανοήσετε πώς συνδυάζονται όλα αυτά:
Αναλύοντας το κείμενο. Η Τεχνητή Νοημοσύνη ξεκινάει αναλύοντάς το σε λέξεις, προτάσεις και μικροσκοπικές ηχητικές μονάδες που ονομάζονται φωνήματα. Επιπλέον, δίνει προσοχή στη στίξη, ώστε να γνωρίζει πότε να πάρει μια ανάσα ή να αλλάξει τον τόνο.
Εκπαιδευμένα φωνητικά μοντέλα. Τα σύγχρονα φωνητικά εργαλεία τεχνητής νοημοσύνης τροφοδοτούνται από μοντέλα βαθιάς μάθησης (συνήθως νευρωνικά δίκτυα) που έχουν εκπαιδευτεί σε αμέτρητες ώρες πραγματικής ανθρώπινης ομιλίας. Μέσω αυτής της εκπαίδευσης, καταλαβαίνουν πώς οι άνθρωποι λένε λέξεις, αλλάζουν τον τόνο της φωνής τους, δίνουν έμφαση σε συγκεκριμένες συλλαβές και μεταφέρουν συναίσθημα στη φωνή τους.
Δημιουργία του ήχου. Από εκεί, το σύστημα παίρνει όλο αυτό το επεξεργασμένο κείμενο και το μετατρέπει σε ήχο παράγοντας ηχητικά κύματα που ταιριάζουν απόλυτα με την πραγματική ανθρώπινη ομιλία. Τα πιο προηγμένα μοντέλα μπορούν να ρυθμίσουν με ακρίβεια τον τόνο, την ταχύτητα, το ύψος και την έμφαση, δίνοντας στη φωνή μια φυσική αίσθηση αντί να ακούγεται επίπεδη και ρομποτική.
Προσαρμογή στυλ και διάθεσης. Πολλές γεννήτριες φωνής με νευρωνική τεχνητή νοημοσύνη σάς επιτρέπουν να επιλέξετε από διαφορετικές φωνές, προφορές ή στυλ ομιλίας. Ορισμένα μοντέλα μπορούν ακόμη και να προσθέσουν συναισθήματα στο μείγμα ή να τροποποιήσουν τη φωνή ώστε να ταιριάζει σε διαφορετικά σενάρια, όπως μια ατμόσφαιρα αφήγησης ή μια φυσική συνομιλία.
Εξαγωγή του ήχου. Μόλις ολοκληρωθεί, η ολοκληρωμένη ομιλία αποθηκεύεται ως αρχείο ήχου (MP3 ή WAV). Αργότερα, μπορείτε να την εισαγάγετε σε βίντεο, podcast, παιχνίδια ή εφαρμογές.
Οι φωνές τεχνητής νοημοσύνης δημιουργούνται εκπαιδεύοντας υπολογιστές ώστε να κατανοούν πώς μιλάνε οι άνθρωποι και στη συνέχεια να αντιγράφουν αυτήν την ομιλία με έναν εύκολο, επαναλήψιμο τρόπο. Οι άνθρωποι δεν χρειάζεται να κάθονται και να ηχογραφούν κάθε γραμμή.
Όταν πρωτοέκανα χρήση mοντέλο βίντεο Adobe Firefly, δεν είχα διάθεση να πειραματιστώ. Χρειαζόμουν κάτι στο οποίο θα μπορούσα πραγματικά να βασιστώ για εμπορική εργασία. Έτσι, εισήγαγα ένα καθαρό σενάριο επεξήγησης για έναν ιστότοπο μάρκας και έλαβα ένα ουδέτερο και επαγγελματικό αποτέλεσμα.
Στη συνέχεια, το προώθησα περαιτέρω με ένα μεγαλύτερο εκπαιδευτικό κομμάτι. Η αφήγηση πολλαπλών παραγράφων είναι το σημείο όπου πολλές διαδικτυακές γεννήτριες φωνής με τεχνητή νοημοσύνη αρχίζουν να καταρρέουν, παλεύοντας με τις αλλαγές τόνου και τον ρυθμό. Firefly δεν δίστασε. Παρέμεινε σταθερό σε όλη τη διάρκεια, και στα πιο πυκνά, πιο τεχνικά μέρη, στην πραγματικότητα επιβραδύνθηκε σκόπιμα.
Ο ήχος δεν ακουγόταν σαν να διάβαζε μια σελίδα από τεχνητή νοημοσύνη, αλλά μάλλον σαν κάποιος που το είχε κάνει αυτό εκατό φορές στο παρελθόν.
Έδωσα Firefly ένα σύντομο διαφημιστικό σενάριο, με κάποιες συναισθηματικές υπονοούμενες αποχρώσεις. Δεν το παρακάνει. Άκουσα ήρεμη, γειωμένη αυτοπεποίθηση - ακριβώς αυτό που χρειαζόμουν για να εκπροσωπήσω μια μάρκα. Μου άρεσε ιδιαίτερα η συνέπεια. Έτρεξα πολλά πλάνα και η φωνή παρέμεινε σταθερή κάθε φορά. Αυτό είναι πολύ σημαντικό όταν παράγεις περιεχόμενο σε μεγάλη κλίμακα και χρειάζεσαι όλα να ακούγονται συνεκτικά.
Η ειλικρινής μου άποψη είναι ότι Firefly είναι πραγματικά έτοιμο για παραγωγή. Δεν προσπαθεί να είναι φανταχτερό ή να διευρύνει τα δημιουργικά του όρια. Υπερηφανεύεται για τη σαφήνεια, παραμένει συνεπές και φέρνει μια επαγγελματική αίσθηση σε οτιδήποτε αγγίζει. Πρόκειται για μία από τις κορυφαίες γεννήτριες κειμένου σε ομιλία με τεχνητή νοημοσύνη για επώνυμες ή εταιρικές εργασίες.
Έχω δοκιμάσει πολλά φωνητικά εργαλεία. Τα περισσότερα από αυτά ακούγονται σαν μηχανική ανάγνωση κειμένου. ElevenLabs ήταν μια διαφορετική ιστορία. Πρόσθεσα ένα απλό αφηγηματικό σενάριο περιμένοντας το συνηθισμένο ρομποτικό αποτέλεσμα. Αντ' αυτού, είχα φυσικές παύσεις, πραγματικές συναισθηματικές μετατοπίσεις και νόημα στην χροιά. Το πρώτο εργαλείο μετά από καιρό που με έκανε να επαναλάβω τον ήχο απλώς για να το ελέγξω ξανά.
Έπειτα το πίεσα – ξαναέγραψα το σενάριο με ένταση και ενθουσιασμό. Αποκόμισε κάθε κομμάτι αυτής της ενέργειας. Οι σωστές λέξεις τονίστηκαν χωρίς να ακούγονται υπερβολικές ή βεβιασμένες. Οι περισσότερες γεννήτριες φωνητικής επεξεργασίας με τεχνητή νοημοσύνη επεξεργάζονται το κείμενό σας. Αυτή αντιδρά γνήσια σε αυτό, κάτι που είναι σπάνιο.
Στη συνέχεια, χρησιμοποίησα ένα πεντάλεπτο σενάριο. Η φωνή παρέμεινε εκφραστική χωρίς να παρουσιάζει διακυμάνσεις. Υπήρξαν μερικά μικρά προβλήματα στην προφορά, αλλά δεν ήταν κάτι σοβαρό. Γενικά, ElevenLabs ανταμείβει την καλή γραφή. Όσο περισσότερη πρόθεση καταθέτετε στο σενάριο σας, τόσο καλύτερο είναι το αποτέλεσμα. Απαιτείται λίγο περισσότερη προσπάθεια από τις βασικές γεννήτριες φωνής με τεχνητή νοημοσύνη, αλλά ο ρεαλισμός που αποκομίζετε είναι σε άλλο επίπεδο.
Murf AI ξεπερνά πολλά ανάλογα για έναν συγκεκριμένο λόγο. Ακούγεται επαγγελματικό αμέσως μόλις την box . Η διεπαφή είναι καθαρή και διαισθητική. Πρόσθεσα ένα σενάριο επίδειξης προϊόντος και το αποτέλεσμα ήταν ευκρινές, δομημένο και στιλβωμένο σχεδόν αμέσως. Μου θύμισε πραγματικά καλογραμμένα εταιρικά επεξηγηματικά βίντεο. Για εκπαιδευτικό περιεχόμενο, η σαφήνεια είναι το παν.
Στη συνέχεια, τροποποίησα τον τόνο, ρύθμισα την ταχύτητα και προσπάθησα να βγάλω κάτι πιο ζεστό και πιο συνομιλιακό. Βοήθησε λίγο, αλλά το Murf έχει φυσική κλίση προς την επίσημη γλώσσα. Οι σύντομες προτάσεις ήταν εξαιρετικές, αλλά οι μεγαλύτερες παράγραφοι μου φάνηκαν λίγο άτονες συναισθηματικά. Νομίζω ότι το Murf δεν προσπαθεί να ακουστεί ανθρώπινο. Προσπαθεί να ακουστεί αξιόπιστο. Αυτό είναι που χρειάζεστε για σεμινάρια, παρουσιάσεις και επαγγελματικές επιδείξεις.
Όταν έτρεξα μια μακρά εκπαιδευτική ενότητα μέσω αυτού του Εργαλείο ήχου AI, η φωνή παρέμεινε αξιοσημείωτα συνεπής από την αρχή μέχρι το τέλος. Δεν άκουσα τυχαία άλματα τόνου ή αμήχανες παύσεις. Όλα κυλούσαν φυσικά ανάμεσα στις προτάσεις. Αν δημιουργείτε βίντεο ενσωμάτωσης ή εσωτερικό εταιρικό περιεχόμενο, αυτή είναι μια από τις καλύτερες επαγγελματικές γεννήτριες φωνής AI που υπάρχουν.
Αφιέρωσα επίσης λίγο χρόνο εξερευνώντας τη βιβλιοθήκη φωνών και την υποστήριξη πολλαπλών γλωσσών. Η επιλογή είναι λογική. Τίποτα δεν είναι υπερβολικό, αλλά αρκετό για να δουλέψετε. Κάποιες φωνές ακούγονται πραγματικά ανθρώπινες, άλλες λίγο ρομποτικές, οπότε θα πρέπει να τις δοκιμάσετε πριν δεσμευτείτε. Δοκίμασα και διάφορες προφορές. Η σαφήνεια παρέμεινε σταθερή στις περισσότερες από αυτές, αν και το διακριτικό συναίσθημα απουσίαζε σε μεγάλο βαθμό.
Δεν περίμενα πολλά όταν άνοιξα για πρώτη φορά Revoicer , αλλά πραγματικά με εξέπληξε. Η φωνή είχε μια φυσική ένταση. Οι βασικές φράσεις είχαν πραγματικό βάρος και η ενέργεια έμοιαζε σωστή. Ήταν ακριβώς αυτό που χρειαζόμουν για μια σύντομη διαφήμιση. Μερικές ατάκες ήταν λίγο υπερβολικές στο δράμα, αλλά τίποτα το σπαστικό.
Έπειτα, έγινα φιλόδοξος και δοκίμασα αυτό το λογισμικό φωνητικής υπερφόρτωσης σε μεγαλύτερη αφήγηση. Εκεί έπρεπε να ηρεμήσω. Η ενέργεια άρχισε να μετατοπίζεται μεταξύ των παραγράφων. Κάποιες προτάσεις ακούγονταν ακούσια δυνατές, άλλες λίγο άτονες. Και οι παύσεις ήταν περιστασιακά αμήχανες, σαν κάποιος να ξέχασε να αναπνεύσει την κατάλληλη στιγμή.
Πειραματίστηκα επίσης με στυλ αφήγησης και ρυθμίσεις τόνου. Προσαρμόζοντας τον τόνο, την ταχύτητα και την έμφαση, μπορούσα να κάνω τη φωνή να ακούγεται πιο χαλαρή για πιο ανάλαφρο περιεχόμενο. Εντόπιζε αρκετά καλά τις μικρές προσαρμογές, αλλά η αίσθηση υψηλής ενέργειας δεν εξαφανίζεται ποτέ εντελώς. Το δοκίμασα σε όλα τα είδη σεναρίων και τα καταφέρνει καλύτερα με σύντομα και γρήγορα αποσπάσματα. Η μεγαλύτερη σε διάρκεια, πιο ήρεμη αφήγηση απαιτούσε επιπλέον προσαρμογές.
Το δοκίμασα επίσης για εμπορική χρήση. Οι φωνές είναι έντονες και πιασάρικες, κάτι που μπορεί να βοηθήσει μια επωνυμία να μείνει στο μυαλό των ανθρώπων. Ωστόσο, θα το σκεφτόμουν δύο φορές πριν το χρησιμοποιήσω για απαλές αφηγήσεις ή μεγάλα βίντεο. Γενικά, είναι μια από τις κορυφαίες γεννήτριες ομιλίας με τεχνητή νοημοσύνη για διαφημίσεις, μέσα κοινωνικής δικτύωσης και ανακοινώσεις, όπου το να είσαι δυνατός και ενεργητικός λειτουργεί πραγματικά υπέρ σου.
Μπήκα για πρώτη φορά στο LOVO και με εξέπληξε το πόσο καθαρά και εύκολα φαινόντουσαν όλα. Οι επιλογές φωνής από μόνες τους ήταν αρκετές για να μου κινήσουν την περιέργεια, οπότε δημιούργησα μερικά σύντομα σενάρια για τα μέσα κοινωνικής δικτύωσης για να δω πώς χειριζόταν έναν χαλαρό διάλογο. Η πρώτη φωνή που επέλεξα ήταν ζεστή και φυσική, σαν κάποιος να σου μιλούσε πραγματικά.
Η ρύθμιση της ταχύτητας και του τόνου ήταν απλή. Στη συνέχεια, προχώρησα σε ένα μεγαλύτερο επεξηγηματικό σενάριο. Η φωνή παρέμεινε καθαρή σε όλη τη διάρκεια, αλλά έμοιαζε λίγο συναισθηματικά επίπεδη μπροστά σε έναν πραγματικό ανθρώπινο αφηγητή. Παρ' όλα αυτά, ήταν στιλβωμένη και εύκολη στην παρακολούθηση. Δοκιμάζοντας διαφορετικές φωνές, κατάλαβα ότι η επιλογή της σωστής μπορεί να καθορίσει ή να καταστρέψει το πόσο ελκυστικό είναι στην πραγματικότητα το περιεχόμενό σας.
Δοκίμασα επίσης αυτήν τη Γεννήτρια βίντεο AI για ένα έργο επωνυμίας. Επέλεξα έναν επαγγελματικό τόνο και άντεξε καλά. Η φωνή παρέμεινε καθαρή και στιλπνή - αρκετά επίσημη για ένα επαγγελματικό περιβάλλον χωρίς να ακούγεται άκαμπτη. Έκανα αρκετές μικρές τροποποιήσεις στην ταχύτητα και την έμφαση. Σίγουρα μπορώ να φανταστώ τον εαυτό μου να επιστρέφει σε αυτήν τη γεννήτρια φωνής με τεχνητή νοημοσύνη για βίντεο κατά τη δημιουργία επώνυμου περιεχομένου στα μέσα κοινωνικής δικτύωσης.
Στη συνέχεια, ανέλυσα τη λειτουργία πολλαπλών γλωσσών. LOVO προσφέρει μια μεγάλη γκάμα προφορών και γλωσσών, αν και μερικές ακούγονταν αισθητά πιο ομαλές από άλλες. Για όποιον δημιουργεί περιεχόμενο για ένα παγκόσμιο κοινό, αυτή η ευελιξία είναι ένα μεγάλο πλεονέκτημα. Γενικά, η χρήση του ήταν εύκολη και η εξαγωγή αρχείων γρήγορη και χωρίς προβλήματα.
Όταν δοκίμασα για πρώτη φορά RecCloud , ξεχώριζε από άλλες γεννήτριες φωνής με τεχνητή νοημοσύνη για δημιουργούς περιεχομένου, απλώς όχι με τον καλύτερο τρόπο. Η έξοδος ήταν εύχρηστη, αλλά ένας ρομποτικός τόνος με εντυπωσίασε αμέσως. Έβαλα ένα σύντομο εκπαιδευτικό σενάριο και το αποτέλεσμα ήρθε γρήγορα.
Για να δω τις δυνατότητές του, ανέβασα μεγαλύτερο περιεχόμενο πολλαπλών παραγράφων. Ο ρυθμός κράτησε αρκετά καλά, αλλά ο ρυθμός ήταν πολύ προβλέψιμος με την πάροδο του χρόνου. Δεν είχε ανθρώπινη ροή. Η τροποποίηση της στίξης ήταν ελαφρώς χρήσιμη, αλλά η φωνή εξακολουθούσε να ακουγόταν αρκετά μηχανική.
Το δοκίμασα επίσης με ένα σενάριο πολλαπλών γλωσσών και τα αποτελέσματα ήταν ανάμεικτα. Τα αγγλικά ακούγονταν μακράν τα καλύτερα, ενώ άλλες γλώσσες βγήκαν λίγο πιο ρομποτικές. Για γρήγορη, απλή αφήγηση, κάνει τη δουλειά. Αλλά δεν είναι τόσο ευέλικτο όσο κάποια άλλα εργαλεία στη λίστα μου.
Το μεγαλύτερο μειονέκτημα είναι ότι δεν χειρίζεται τη δημιουργία μελωδίας, οπότε αν χρειάζεστε μουσική παράλληλα με τη φωνή σας, θα πρέπει να φέρετε μια ξεχωριστή Γεννήτρια μουσικής AI για να καλύψετε αυτό το κενό.
Συνάντησα Fliki ενώ δούλευα σε ένα σύντομο βίντεο που χρειαζόταν γραφικά. Η σύνδεση κειμένου με βίντεο ήταν ευκολότερη σε σύγκριση με άλλα εργαλεία που είχα χρησιμοποιήσει στο παρελθόν. Η αφήγηση ευθυγραμμιζόταν φυσικά με τους υπότιτλους και με ό,τι συνέβαινε στην οθόνη, οπότε δεν χρειάστηκε να χάσω χρόνο διορθώνοντας μόνος μου τον συγχρονισμό. Ο ήχος ήταν σταθερός και καθαρός, ακόμα κι αν δεν ήταν εξαιρετικά εκφραστικός.
Συνολικά, Fliki είναι μια από τις κορυφαίες ρεαλιστικές γεννήτριες φωνής με τεχνητή νοημοσύνη για άτομα που θέλουν να έχουν γρήγορα αποτελέσματα.
Ανέβασα επίσης ένα σενάριο αφήγησης. Χειριζόταν καλά τις σύντομες γραμμές, αλλά οι μεγαλύτερες παράγραφοι φάνηκαν λίγο ρομποτικές. Η τροποποίηση της ταχύτητας και του τόνου έκανε μια μικρή διαφορά, ενώ η περικοπή του σεναρίου σε μικρά τμήματα ήταν πολύ χρήσιμη. Έγινε αρκετά σαφές ότι Fliki ταιριάζει περισσότερο σε γρήγορο, διακεκομμένο περιεχόμενο παρά σε μεγάλη αφήγηση.
Κατά τη δοκιμή Speechify , χρησιμοποίησα καθημερινό κείμενο συνομιλίας για να δω πόσο καλά μπορούσε να ανταποκριθεί. Τα πήγε καλύτερα από ό,τι περίμενα, εντοπίζοντας λέξεις-κλειδιά φυσικά χωρίς να υπερβάλλω συναισθηματικά. Ο ρυθμός ήταν ακριβώς ο σωστός, καθιστώντας το εύκολο στην παρακολούθηση και πραγματικά ευχάριστο στην ακρόαση. Φαίνεται σαν μια αξιόπιστη γεννήτρια φωνής τεχνητής νοημοσύνης με ανθρώπινο ήχο για επεξηγηματικά βίντεο ή εκπαιδευτικά podcast.
Στη συνέχεια, ανέβασα μεγάλα κομμάτια περιεχομένου το ένα μετά το άλλο. Η φωνή παρέμεινε ομαλή και συνεπής σε όλη τη διάρκεια, χωρίς περίεργες αλλαγές τόνου ή προβλήματα ρυθμού. Μικρές αλλαγές στίξης βοήθησαν με τις παύσεις. Ήταν πραγματικά εύκολο να το ακούσω. Η προσαρμογή είχε κάποια όρια, ωστόσο. Η ταχύτητα και η φωνή λειτουργούσαν καλά, αλλά το συναισθηματικό βάθος και ο έλεγχος της έμφασης ήταν αρκετά βασικά.
Η δοκιμή Fiverr ήταν πολύ ενδιαφέρουσα. Είναι μια αγορά, όχι απλώς μια τεχνολογία δημιουργίας φωνής με τεχνητή νοημοσύνη. Έψαξα σε διάφορες φωνητικές συναυλίες με τεχνητή νοημοσύνη και η διαφορά στην ποιότητα και το στυλ από τον έναν πωλητή στον άλλο ήταν αρκετά μεγάλη. Έκανα μια παραγγελία για μια σύντομη αφήγηση απλώς για να δω πώς ήταν οργανωμένη όλη η διαδικασία.
Όσο πιο σαφείς είναι οι οδηγίες σας, τόσο καλύτερο είναι το αποτέλεσμα. Οι αναθεωρήσεις χρειάστηκαν λίγο χρόνο, αλλά τελικά κατάφερα να βρω κάτι που να ταιριάζει με αυτό που είχα στο μυαλό μου. Fiverr απαιτεί περισσότερη πρακτική προσπάθεια από τη χρήση ενός αυτοματοποιημένου εργαλείο δημιουργικής τεχνητής νοημοσύνης .
Η προσαρμογή της παραγγελίας σας σημαίνει ότι πρέπει να μιλήσετε απευθείας με τους πωλητές. Δεν υπάρχουν ρυθμίσεις ή στοιχεία ελέγχου για να τροποποιήσετε μόνοι σας. Αυτό είναι καλό και κακό. Έχετε μεγαλύτερη ευελιξία, αλλά επιβραδύνει τα πράγματα. Οι τιμές ποικίλλουν επίσης πολύ, επομένως η αναζήτηση πληροφοριών βοηθάει. Είναι ιδανική για εξειδικευμένα ή πολύ συγκεκριμένα στυλ φωνής.
Δοκίμασα τη φωνή τεχνητής νοημοσύνης Artlist 's σε ένα πραγματικό βίντεο και πραγματικά με εντυπωσίασε. Ο ήχος βγήκε καθαρός και κινηματογραφικός, αναμειγνύοντας αμέσως με τη μουσική υπόκρουση. Στη συνέχεια, του έβαλα ένα επώνυμο σενάριο για να ελέγξω πόσο καλά χειριζόταν έναν πιο επίσημο τόνο. Παρέμεινε συγκροτημένο και επαγγελματικό σε όλη τη διάρκεια. Το συναισθηματικό βάθος ήταν ελάχιστο, αλλά για τα εταιρικά βίντεο, πέτυχε τέλεια.
Τα στυλ φωνής διέφεραν αρκετά. Κάποια ήταν ωραία και ουδέτερα, ενώ άλλα φαίνονταν αισιόδοξα για διαφημιστική χρήση. Είναι βολικό να αλλάζετε στυλ για να έχετε διαφορετικές παραλλαγές ήχου. Το καλύτερο είναι ότι η ποιότητα ήταν σταθερά καλή σε κάθε δοκιμή που έκανα.
Δοκίμασα WellSaid Labs με εταιρικά σενάρια αφήγησης και με εντυπωσίασε γρήγορα. Από την πρώτη κιόλας γραμμή, η φωνή ήταν σίγουρη και καθαρή χωρίς να ακούγεται άκαμπτη. Χειριζόταν τέλεια τους τεχνικούς όρους. Εκεί συνήθως αποτυγχάνουν οι δωρεάν γεννήτριες φωνής με τεχνητή νοημοσύνη, αλλά αυτή άντεξε καλά. Μου θύμισε έναν πραγματικό ηθοποιό φωνής που ξέρει ακριβώς τι κάνει σε ένα επαγγελματικό περιβάλλον.
Αφιέρωσα επίσης λίγο χρόνο εξετάζοντας τις επιλογές φωνής και προφοράς. Η ποικιλία δεν ήταν τεράστια, αλλά κάθε φωνή από τη βιβλιοθήκη ήταν καθαρή και επαγγελματική. Η πολυγλωσσική προφορά άντεχε αρκετά καλά για καθημερινούς όρους, αν και πού και πού, μια ασυνήθιστη λέξη χρειαζόταν λίγη διόρθωση για να ακούγεται ακριβώς όπως πρέπει.
Ένα πράγμα που με ενοχλούσε, ωστόσο, ήταν η έλλειψη ενσωματωμένης λειτουργίας επεξεργασίας. Έτσι, όταν δοκίμαζα την εφαρμογή, έπρεπε να βρω ένα ξεχωριστό δωρεάν λογισμικό επεξεργασίας ήχου μόνο και μόνο για να κάνω μερικές διορθώσεις.
Για να δω τις δυνατότητες του Listnr , χρησιμοποίησα σενάρια τύπου podcast. Η φωνή ήταν καθαρή και εύκολα κατανοητή χωρίς υπερβολικά δραματικές πινελιές. Η ταχύτητα με την οποία μετέτρεπε το κείμενο σε ήχο με αιφνιδίασε με καλό τρόπο. Για όποιον χρειάζεται απλή, αξιόπιστη αφήγηση, φαίνεται σαν μια αρκετά καλή επιλογή.
Έτρεξα μερικά τμήματα το ένα μετά το άλλο για να δω αν η φωνή θα παρέμενε συνεπής σε όλη τη διάρκεια. Ο ρυθμός κράτησε αρκετά καλά, αλλά όσο περισσότερο περνούσε, τόσο περισσότερο άρχιζε να μοιάζει λίγο επαναλαμβανόμενος. Μερικές μικρές τροποποιήσεις εδώ κι εκεί βοήθησαν να εξομαλυνθούν τα πράγματα. Κατά τη γνώμη μου, αυτό το Listnr είναι μια εξαιρετική γεννήτρια φωνής με τεχνητή νοημοσύνη για απλό, ενημερωτικό περιεχόμενο.
Για να δοκιμάσω τη φωνή τεχνητής νοημοσύνης του Freepik , χρησιμοποίησα το σχεδιαστικό μου έργο. Τα σύντομα σενάρια ακούγονται αξιοπρεπή και εύκολα στην παρακολούθηση, αλλά τα μεγαλύτερα με απογοήτευσαν. Είναι χρήσιμο όταν χρειάζεστε απλώς μια γρήγορη αφήγηση για τα γραφικά σας. Δοκίμασα διαφορετικές φωνές και προφορές, αλλά οι διαφορές δεν είναι πολύ αισθητές. Κατά τη γνώμη μου, αυτό είναι ένα αξιοπρεπές εργαλείο για γραφικά, αλλά υστερεί σε σχέση με τις ειδικά κατασκευασμένες γεννήτριες φωνής τεχνητής νοημοσύνης με ανθρώπινο ήχο.
Το χρησιμοποίησα επίσης για να αφηγηθώ πολλές παραγράφους. Δούλεψε καλά, αλλά τα μεγαλύτερα σενάρια έκαναν σαφές ότι η φωνή δυσκολεύεται με την έκφραση και τον ρυθμό. Εφάρμοσα κάποιες χειροκίνητες διορθώσεις, αλλά εξακολουθούσε να ακουγόταν ρομποτική σε μεγαλύτερα τμήματα. Συνολικά, η φωνή AI του Freepik λειτουργεί καλύτερα ως ένα γρήγορο, εύχρηστο πρόσθετο για απλή αφήγηση όταν τη χρησιμοποιείτε ήδη για γραφικά - όχι ως κύριο εργαλείο αφήγησης.
Η ομάδα δοκιμών μας είχε τρία μέλη Η ομάδα FixThePhoto: την Kate Debela, τον Vadym Antypenko και την Eva Williams. Η Kate έλεγξε πόσο σαφής και ακριβής ήταν η προφορά. Ο Vadym εξέτασε την ταχύτητα και τη συνέπεια της ομιλίας. Η Eva αξιολόγησε πόσο καλά εξέφραζαν οι φωνές συναισθήματα.
Για να δοκιμάσουμε δίκαια κάθε γεννήτρια φωνής τεχνητής νοημοσύνης, χρησιμοποιήσαμε τα ίδια σενάρια σε όλα τα εργαλεία. Αυτά περιελάμβαναν σύντομες αναρτήσεις στα μέσα κοινωνικής δικτύωσης, εκπαιδευτικά βίντεο, διαφημιστικό περιεχόμενο και εκτενέστερο εκπαιδευτικό υλικό.
Η Κέιτ επεσήμανε τυχόν ρομποτικές ή λανθασμένες λέξεις. Ο Βαντίμ έλεγξε αν ο ρυθμός παρέμενε σταθερός, ειδικά σε μεγαλύτερα τμήματα. Η Εύα έλεγξε την συναισθηματική απόδοση – αν η φωνή ακουγόταν ενθουσιασμένη, ήρεμη ή επαγγελματική με βάση το περιεχόμενο. Ένα τεστ χρησιμοποίησε μια ανακοίνωση επωνυμίας. Ένα άλλο χρησιμοποίησε ένα πεντάλεπτο τεχνικό σεμινάριο.
Στη συνέχεια, αξιολογήσαμε πόσο ρεαλιστικό και πρακτικό ακουγόταν κάθε εργαλείο. LOVO λειτούργησε καλά για περιστασιακά σενάρια, αλλά δεν είχε συναισθηματικό βάθος σε μεγαλύτερο περιεχόμενο. Revoicer ήταν τολμηρό και ενεργητικό, καθιστώντας το ιδανικό για σύντομες διαφημίσεις, αν και τα μεγαλύτερα σενάρια χρειάζονταν επιπλέον προσαρμογές.
Murf AI είχε την καλύτερη απόδοση για εκπαιδευτικά βίντεο και εταιρικό περιεχόμενο χάρη στον σαφή, δομημένο τόνο της. ElevenLabs μας εντυπωσίασε με την αφήγηση που ακούγεται φυσική και τις ομαλές συναισθηματικές μετατοπίσεις. Adobe Firefly ήταν σταθερό και αξιόπιστο για υλικό επωνυμίας και εκπαιδευτικού υλικού.
Εξετάσαμε επίσης την ταχύτητα, την προσαρμογή και την ευκολία χρήσης. Η Κέιτ εξέτασε πόσο γρήγορα κάθε εργαλείο παρήγαγε ήχο και πόσο απλό ήταν να ρυθμίσει τον τόνο, την ταχύτητα και την έμφαση. Ο Βαντίμ έλεγξε τις επιλογές εξαγωγής, την υποστήριξη γλώσσας και την ενσωμάτωση βίντεο. Η Εύα αξιολόγησε κάθε εργαλείο με βάση την εκφραστικότητα και το πόσο ανθρώπινο ακουγόταν.
Συνολικά, LOVO και Fliki ήταν κατάλληλα για σύντομο περιεχόμενο στα μέσα κοινωνικής δικτύωσης, ενώ Murf AI , WellSaid Labs και ElevenLabs ήταν καλύτερα για μεγαλύτερη, επαγγελματική αφήγηση.
Η ομάδα μας δοκιμασμένο κάθε εργαλείο δημιουργίας φωνής με τεχνητή νοημοσύνη σε πραγματικές καταστάσεις, αξιολογώντας τη σαφήνεια, το συναίσθημα, τη συνέπεια και τη χρηστικότητα. Συνδυάζοντας τα ευρήματα της Kate, του Vadym και της Eva, δημιουργήσαμε μια ειλικρινή, ολοκληρωμένη αξιολόγηση για να σας βοηθήσουμε να επιλέξετε το κατάλληλο εργαλείο για το έργο σας.