ΑρχικήΕπιστήμη & ΤεχνολογίαΤο VALL-E της Microsoft μπορεί να μιμηθεί ανθρώπινες φωνές

Το VALL-E της Microsoft μπορεί να μιμηθεί ανθρώπινες φωνές

Τώρα η Microsoft διευρύνει τα όρια ακόμη περισσότερο με τη νέα τεχνολογία τεχνητής νοημοσύνης της, VALL-E.

Η Microsoft αποκάλυψε το VALL-E, το πρωτοποριακό της μοντέλο μετατροπής κειμένου σε ομιλία με τεχνητή νοημοσύνη. Αυτή η αξιοσημείωτη τεχνολογία είναι σε θέση να μιμηθεί με ακρίβεια τη φωνή ενός ομιλητή από ηχογράφηση μόλις τριών δευτερολέπτων και να αναπαράγει όχι μόνο τη χροιά του, αλλά και τον συναισθηματικό τόνο και την ακουστική του δωματίου! Αν και θα μπορούσε να είναι επωφελής για εξειδικευμένες ή εξελιγμένες εφαρμογές, η καινοτομία αυτή ενέχει κινδύνους που πρέπει να αντιμετωπιστούν.

Η Microsoft δημιούργησε ένα επαναστατικό νέο γλωσσικό μοντέλο, γνωστό ως VALL-E. Αυτή η τεχνολογία βασίζεται στο νευρωνικό δίκτυο compression Encodec της Meta με βάση την τεχνητή νοημοσύνη, το οποίο μπορεί να δημιουργήσει ήχο από την εισαγωγή κειμένου και μικρά δείγματα ήχου του ομιλητή.

Το VALL-E της Microsoft μπορεί να μιμηθεί ανθρώπινες φωνές
Το VALL-E της Microsoft μπορεί να μιμηθεί ανθρώπινες φωνές

Δείτε επίσης: Η Microsoft διορθώνει το Windows 11 bug πίσω από τα 0x800700b7 errors

Σε ένα πρωτοποριακό έγγραφο, οι ερευνητές περιγράφουν λεπτομερώς την αξιοσημείωτη διαδικασία διδασκαλίας του VALL-E χρησιμοποιώντας 60.000 ώρες αγγλικής ομιλίας από περισσότερους από 7.000 διαφορετικούς ομιλητές στην ηχητική βιβλιοθήκη LibriLight της Meta. Για να μπορέσει να μιμηθεί με επιτυχία την επιθυμητή φωνή που εισάγεται σε αυτό, η φωνή αυτή πρέπει να είναι παρόμοια με μια φωνή από το σύνολο δεδομένων εκπαίδευσής του. Αν είναι έτσι, τότε ο αλγόριθμος είναι σε θέση να αποκρυπτογραφήσει και να αναπαραγάγει πώς θα ακουγόταν κάποιος με τα εν λόγω φωνητικά χαρακτηριστικά όταν διάβαζε το συγκεκριμένο κείμενο.

Στη σελίδα VALL-E GitHub, η ομάδα παρέχει μια υποδειγματική επίδειξη του τρόπου λειτουργίας αυτού του συστήματος. Για κάθε φράση που θέλουν να εκφωνήσει η τεχνητή νοημοσύνη, υπάρχει μια προτροπή τριών δευτερολέπτων από έναν συγκεκριμένο ομιλητή, καθώς και ήχος “ground truth” για σύγκριση ηχογραφημένος από τον εν λόγω ομιλητή, μια συμβατική σύνθεση κειμένου σε ομιλία και, τέλος, το δείγμα VALL-E στο τέλος.

Τα αποτελέσματα ποικίλλουν, ορισμένα είναι μηχανικά και άλλα εντυπωσιακά φυσικά. Αυτό που κάνει τα επιτυχημένα πειράματα να πουλάνε είναι ότι διατηρούν το συναισθηματικό ύφος των αρχικών τους δειγμάτων.

Το VALL-E όχι μόνο διατηρεί τη χροιά της φωνής και τον συναισθηματικό τόνο του ομιλητή, αλλά μπορεί επίσης να αναπαράγει το “ακουστικό περιβάλλον” του δείγματος ήχου. Για να το θέσουμε απλά, αν κάποιος αναπαράγει μια απομίμηση μιας τηλεφωνικής κλήσης που παράγεται από αυτή την τεχνολογία, θα ορκιστείτε ότι ακούτε μια πραγματική τηλεφωνική συνομιλία. Επιπλέον, με μικρές αλλαγές στη διαδικασία δημιουργίας τυχαίων seeds, το VALL-E είναι σε θέση να δημιουργεί διαφορετικούς τόνους φωνής για πιο φυσική παραγωγή.

Το VALL-E της Microsoft μπορεί να μιμηθεί ανθρώπινες φωνές
Το VALL-E της Microsoft μπορεί να μιμηθεί ανθρώπινες φωνές

Δείτε επίσης: Windows 7: Η Microsoft λήγει την υποστήριξη την Τρίτη

Για τη δημιουργία ενός πιο ακριβούς μοντέλου, η Microsoft αυξάνει τα δεδομένα εκπαίδευσης για να βελτιώσει την ικανότητα του μοντέλου όσον αφορά το ύφος ομιλίας, την προσωδία και την ομοιότητα των ομιλητών. Επιπλέον, ερευνά επίσης τρόπους για να μειώσει τις λέξεις που δεν αναγνωρίζονται ή δεν αποκρυπτογραφούνται.

Η Microsoft αποφάσισε να κρατήσει τον κώδικα μυστικό, πιθανότατα λόγω των κινδύνων που συνεπάγεται η τεχνολογία AI και η ικανότητά της να κατασκευάζει λέξεις. Η Microsoft δήλωσε επίσης ότι θα διατηρήσει τα “Microsoft AI Principals” για οποιαδήποτε μελλοντική εξέλιξη. Είναι συγκλονιστικό ότι το VALL-E έχει την ικανότητα να μιμείται φωνές- αυτό θα μπορούσε ενδεχομένως να γίνει αντικείμενο κατάχρησης για παρανομίες, όπως η προσποίηση της φωνής κάποιου άλλου ή η πλαστή αναγνώριση ταυτότητας. Αυτή η επικίνδυνη κατάσταση επισημάνθηκε στο συμπέρασμα της εταιρείας στην ενότητα “Broader impacts”.

Πηγή: engadget.com

SecNews
SecNewshttps://secnews.gr
In a world without fences and walls, who need Gates and Windows
spot_img

Εγγραφή στο Newsletter

* indicates required

FOLLOW US

LIVE NEWS