Google+WaveNet%3A+il+computer+avr%C3%A0+una+voce+vera
computerideait
/google-wavenet/amp/
Computer

Google WaveNet: il computer avrà una voce vera

L’azienda di Mountain View ha dato vita a Google WaveNet, la nuova tecnologia Voice che sarebbe in grado di riprodurre, tramite computer, una voce virtuale molto simile a quella umana e non più metallica e robotica. Gli sviluppatori hanno definito la suddetta tecnologia come fully convolutional neural network, ovvero capace di modificare l’onda grezza un sample alla volta, con dei risultati strabilianti. Il campione mondiale di Go è stato battuto e il futuro dei PC si avvia verso funzionalità sempre più realistiche e “umane”.

Google WaveNet: l’intelligenza artificiale con la voce umana

Nel colosso statunitense, lo sviluppo delle intelligenze artificiali è affidato al reparto DeepMind che è stato in grado di realizzare le voci artificiali più realistiche in assoluto. Tutto ciò, detto in termini semplici, è stato possibile modellando i suoni su campioni di voci umane.

La nuova tecnologia è stata testata attraverso il sistema di text-to-speech, ovvero il computer che legge, e i risultati ottenuti sono davvero convincenti e i migliori al mondo.

Di base, lo sviluppo è molto simile a quanto avvenuto per gli assistenti vocali più famosi, che sono Siri e Cortana. La tecnologia delle due funzionalità è, però, quella della concatenative text to speech, che offre sicuramente ottimi risultati, ma con un limite.

Di base, viene registrata una reale voce umana poi ricombinata isolando i suoni. Tuttavia, ne esce fuori comunque una voce con dei connotati innaturali. L’alternativa proposta da Google non prevede, invece, alcun tipo di campionamento. In pratica, grazie al sistema machine learning, l’intelligenza artificiale è in grado di apprendere da sola come modulare il suono, proponendo un risultato molto più naturale.

Text to speech di DeepMind: note e caratteristiche

Scendendo nei dettagli di ciò che Google WaveNet può fare e non fare, è interessante segnalare alcuni aspetti. Il primo, che è piuttosto una curiosità, è che la nuova tecnologia si basa sul suono della voce senza però (ovviamente) comprenderne il significato. Ciò significa che può generare frasi completamente senza senso, ma con una modulazione e pause quasi perfette.

L’altra curiosità da segnalare è che il sistema elaborato da DeepMind è in grado anche di suonare il piano, producendo note musicali con lo stesso meccanismo con cui viene riprodotta la voce, ovvero completamente automatizzato nella modulazione.

Il test vocale è stato eseguito in inglese e in cinese mandarino, con risultati che, su una scala da 1 a 5, si avvicinano al massimo, più di ogni altro sistema. Presto, quindi, i computer avranno una voce!

Redazione

Recent Posts

Videogame, parola alla scienza: come e perché giocarci può fare la differenza

Sebbene ci siano degli svantaggi nel giocare troppo ai videogame, alcuni esperti hanno rivelato anche…

4 ore ago

Huawei Pura 70 delude nelle prestazioni: i risultati del benchmark

Il nuovo smartphone di Huawei ha purtroppo deluso le aspettative: le sue prestazioni sono decisamente…

5 ore ago

Se hai acquistato questo SSD fai attenzione: potresti aver comprato un falso

Fake in aumento online in tutti i settori di mercato, anche nelle SSD: se hai…

7 ore ago

Windows 11, rimozione immediata: decisione ufficiale

Questi cambiamenti, pur essendo una sfida per alcuni, rappresentano passi essenziali verso un sistema operativo…

8 ore ago

Google inarrestabile, non solo Pixel 8a e Chromecast: altra imperdibile novità per gli utenti

Con l'imminente Google I/O, l'azienda è pronta a rivelare i dettagli sui diversi progetti a…

10 ore ago

Come cercare testo in tanti PDF contemporaneamente: il trucco dei vari esperti

I vari esperti hanno svelato il trucco per cercare testo in tanti PDF contemporaneamente: sarà…

11 ore ago