Lyrebird e Mivoq, la voce digitale che imita quella di vip e persone comuni

10/07/2017

Lyrebird e Mivoq, la voce digitale che imita quella di vip e persone comuni


Le tecnologie di sintesi vocale si sono evolute molto negli ultimi anni e nonostante le voci sintetiche non abbiano ancora il calore di quelle umane presto potrebbero essere del tutto irriconoscibili rispetto a quelle delle persone in carne e ossa.

Esistono da tempo audiolibri che sfruttano la sintesi vocale, in alcuni casi con buoni risultati, soprattutto per i privi di vista. Questo strumento è poi molto utile per trasformare in modo semplice un ebook in un audiobook.

 Tra le novità più interessanti c’è da segnalare lo sviluppo di un algoritmo, ad opera di una startup canadese, in grado di replicare timbri umani specifici con una grande accuratezza. Però non solo oltre oceano la ricerca ha fatto passi avanti sulla voce sintetica. Anche in Italia da tempo i ricercatori sono all’opera in questo settore.

Segnaliamo infatti MIVOQ, startup italiana, (Mimic Voice Quest)  vincitrice del premio ‘Nati per (Axa) 2016’, nata a Padova nel 2013 con una mission ambiziosa e appassionante: vivere in un mondo dove tutti possano mantenere la propria identità vocale, soprattutto in caso di patologie invalidanti. MIVOQ vuol dar voce a chi rischia di perderla, come i malati di SLA. Un'idea innovativa che pone le basi per lo sviluppo delle tecnologie vocali e la loro applicazione fattiva in ambiti diversi della vita delle persone.
La  tecnologia sviluppata da entrambe le startup ha moltissimi utilizzi possibili, compresi alcuni decisamente poco leciti, visto che consentirebbe, ad esempio, di replicare la voce di personaggi famosi, come importanti politici, per far dire loro, magari al telefono, qualsiasi cosa sfruttando un software.

Il menura è un uccello in grado di riprodurre ogni suono che sente con un grado di accuratezza veramente sorprendente. Sarebbe stato proprio questo animale ad ispirare la startup canadese Lyrebird, che ne ha preso anche il nome.

Grazie a vari algoritmi l’azienda è in grado di riprodurre fedelmente ogni voce umana, modificando intonazione e velocità. Il tutto avviene partendo da un frammento audio della fonte originaria, ovvero quella da riprodurre. Anche con l’italiana Mivoq funziona allo stesso modo.

Utilizzando l'intelligenza artificiale il software di Lyrebird crea in sostanza un clone sonoro della voce presa in esame. Semplicemente scrivendo su una tastiera ciò che vogliamo, possiamo farlo dire al software con la nostra voce o quella di chiunque altro. Gli utilizzi sono pressoché infiniti. Sarà possibile far leggere audiolibri ad attori non più in vita, prendendo dei campioni della loro voce da vecchie registrazioni, o sarà possibile far parlare nuovamente persone comuni che a causa di un incidente o una malattia non possono più farlo.

Visto che si potrà far dire qualsiasi cosa a qualsiasi voce, comprese quelle molto note, le implicazioni sono enormi. Nell'epoca delle fake news si potrebbero ad esempio creare delle finte dichiarazioni di personaggi famosi o finte intercettazioni telefoniche.

Trump che dichiara guerra alla Corea del Nord o a qualcun altro, potrebbe diventare uno scherzo virale sul web, ma in mani sbagliate e con un imprevedibile diffusione mediatica potrebbe causare danni difficili anche solo da immaginare.

Aziende con pochi scrupoli potrebbero creare un assenso verbale via telefono ad una loro proposta commerciale. 

Molti sono però anche i possibili usi leciti, come lo sviluppo di assistenti digitali sempre più sofisticati e speech aid per disabili.

C’è chi si spinge ad affermare che la voce sintetica un giorno potrebbe anche sostituire del tutto quella umana. 

Di certo un’invenzione come questa richiede una riflessione su opportunità e rischi. Al momento l'algoritmo di Lyrebird attraverso l’intelligenza artificiale esamina un campione di voce e la replica in circa un minuto. I risultati non sono ancora in grado di confondere un orecchio allenato, ma l’evoluzione tecnologica del settore è così rapida che necessita urgentemente di regolamenti.

Oltre alla tecnologia di Lyrebird esistono altre sofisticate sintesi vocali, come il VoCo di Adobe, una sorta di Photoshop delle voci, che però ha bisogno di una ventina di minuti di materiale audio per fornire un'elaborazione.

Lyrebird e altri software simili potrebbero un giorno non lontano rendere le voci sintetiche indistinguibili da quelle degli umani imitati, magari a loro insaputa. Se questo avverrà le registrazioni vocali come prove nei processi potrebbero non essere più accettate.

La risposta dei tre studenti che hanno creato Lyrebird ad un possibile uso illegale della loro idea passa per la definizione di un preciso codice etico. La cosa più importante è capire che, quello che oggi si fa ritoccando o creando dal nulla un’immagine, presto si potrà fare con le voci, bisognerà imparare a distinguere cos’è reale anche in questo campo e intelligenze artificiali sempre più evolute potrebbero rendercelo piuttosto difficile.

E i narratori in carne e ossa? Gli attori e i professionisti della voce? Spariranno per sempre?

Voi che ne pensate?

 

Fonti: 

https://goo.gl/EPqg2S   

https://www.mivoq.it/it/

https://lyrebird.ai/