Google+WaveNet%3A+il+computer+avr%C3%A0+una+voce+vera
computerideait
/google-wavenet/amp/
Computer

Google WaveNet: il computer avrà una voce vera

L’azienda di Mountain View ha dato vita a Google WaveNet, la nuova tecnologia Voice che sarebbe in grado di riprodurre, tramite computer, una voce virtuale molto simile a quella umana e non più metallica e robotica. Gli sviluppatori hanno definito la suddetta tecnologia come fully convolutional neural network, ovvero capace di modificare l’onda grezza un sample alla volta, con dei risultati strabilianti. Il campione mondiale di Go è stato battuto e il futuro dei PC si avvia verso funzionalità sempre più realistiche e “umane”.

Google WaveNet: l’intelligenza artificiale con la voce umana

Nel colosso statunitense, lo sviluppo delle intelligenze artificiali è affidato al reparto DeepMind che è stato in grado di realizzare le voci artificiali più realistiche in assoluto. Tutto ciò, detto in termini semplici, è stato possibile modellando i suoni su campioni di voci umane.

La nuova tecnologia è stata testata attraverso il sistema di text-to-speech, ovvero il computer che legge, e i risultati ottenuti sono davvero convincenti e i migliori al mondo.

Di base, lo sviluppo è molto simile a quanto avvenuto per gli assistenti vocali più famosi, che sono Siri e Cortana. La tecnologia delle due funzionalità è, però, quella della concatenative text to speech, che offre sicuramente ottimi risultati, ma con un limite.

Di base, viene registrata una reale voce umana poi ricombinata isolando i suoni. Tuttavia, ne esce fuori comunque una voce con dei connotati innaturali. L’alternativa proposta da Google non prevede, invece, alcun tipo di campionamento. In pratica, grazie al sistema machine learning, l’intelligenza artificiale è in grado di apprendere da sola come modulare il suono, proponendo un risultato molto più naturale.

Text to speech di DeepMind: note e caratteristiche

Scendendo nei dettagli di ciò che Google WaveNet può fare e non fare, è interessante segnalare alcuni aspetti. Il primo, che è piuttosto una curiosità, è che la nuova tecnologia si basa sul suono della voce senza però (ovviamente) comprenderne il significato. Ciò significa che può generare frasi completamente senza senso, ma con una modulazione e pause quasi perfette.

L’altra curiosità da segnalare è che il sistema elaborato da DeepMind è in grado anche di suonare il piano, producendo note musicali con lo stesso meccanismo con cui viene riprodotta la voce, ovvero completamente automatizzato nella modulazione.

Il test vocale è stato eseguito in inglese e in cinese mandarino, con risultati che, su una scala da 1 a 5, si avvicinano al massimo, più di ogni altro sistema. Presto, quindi, i computer avranno una voce!

Redazione

Recent Posts

Recuperare le foto perse sullo smartphone: la guida definitiva

Una foto sparita genera panico. Prima di scaricare app a caso, ecco cosa funziona davvero…

2 settimane ago

Google ha speso 135 milioni di euro per risolvere una class action

Un gesto netto per fermare una disputa che bruciava da anni: dietro lo schermo dei…

3 settimane ago

L’intelligenza artificiale supera anche i medici: rivoluzione nelle diagnosi cliniche

Quel 20% contro 85,5% cambia il modo di guardare le diagnosi. La domanda non è…

4 settimane ago

iPhone 16 e iPhone 16 Pro sono qui! Tutte le novità svelate alla presentazione del 9 settembre

L'annuncio degli ultimi modelli di iPhone ha sempre il potere di catturare l'attenzione del mondo…

4 settimane ago

Nuovi Apple Watch, Air Pods e iPhone: Gli annunci più esaltanti del 2024

L'evento di settembre di Apple ha sempre rappresentato un momento chiave per gli appassionati della…

4 settimane ago

WordPress nel 2025: SOS WP apre tre giornate gratuite con strategie, errori da evitare e best practice tecniche

Puoi partecipare gratuitamente a un evento imperdibile organizzato dagli esperti di SOS WP in cui…

4 settimane ago