Immagini e audio "saltano" durante le videocall? Ecco la soluzione - CorCom

MACHINE LEARNING

Immagini e audio “saltano” durante le videocall? Ecco la soluzione

Il motore di intelligenza artificiale WaveNetEQ di Google è in grado di tappare i “buchi” di connettività sostituendosi perfettamente all’interlocutore: parole e volti vengono “replicati” perfettamente sostituendosi a quelli reali. Ma la privacy è rispettata?

09 Apr 2020

Antonio Dini

Un motore di intelligenza artificiale capace di imitare in tempo reale la voce di chi sta parlando nelle videocall e riempire i vuoti improvvisi causati da problemi di connessione. Google sta utilizzando il sistema di intelligenza artificiale WaveNetEQ nella sua app per le videoconferenze Duo riesce a riempire i frammenti di vuoto che la saturazione della rete o altri problemi possono accadere.

In un momento in cui sempre più persone sono bloccate a casa e stanno utilizzando i sistemi di videoconferenza come sostituti delle interazioni faccia a faccia, ma lo fanno utilizzando connessioni “casalinghe” spesso disturbate o con poca banda passante, i problemi non sono pochi e spesso portano a un forte un senso di frustrazione.Tutto ciò è in parte superabile grazie all’utilizzo di iniezioni di intelligenza artificiale. Come sta facendo ad esempio Google con la sua app per le videochiamate Duo.

Il problema che si presenta in molti casi è un problema di compressione e perdita di segnale nelle trasmissioni digitali. Durante le chiamate audio il flusso dei pacchetti che attraversa Internet deve essere ordinato e avvenire in tempo reale per consentire una trasmissione fedele, di buona qualità e senza ritardi. Invece, dalle interferenze sul wifi di casa sino ai problemi di saturazione di alcuni nodi Internet, senza contare i problemi di accesso alla rete nelle aree servite meno, i problemi che stanno mettendo a dura prova i sistemi di streaming bidirezionale delle videoconferenze sono innumerevoli. Spesso gruppi di pacchetti arrivano in ritardo, o nell’ordine sbagliato. E questo crea interruzioni sia nel video e soprattutto nella qualità dell’audio. Il quale può all’improvviso diminuire o addirittura avere dei “buchi” in cui si perdono sillabe o frammenti di parole.

Secondo Google circa il 99% delle chiamate fatte attraverso Duo ha problemi di perdita di pacchetti, e un decimo perde fino all’8% dell’audio che viene trasmesso.

WEBCAST
Come sviluppare una sicurezza personalizzata per le esigenze di ogni settore di attività?
Sicurezza

Il modo per risolvere il problema, secondo gli ingegneri di Google, è semplice: ricorrere a un sistema di machine learning con un tipo di addestramento molto particolare. Si tratta di WaveNetEQ, la nuova rete neurale dell’azienda, che è stata addestrata con centinaia di voci umane che parlano 48 lingue diverse a interpretare e completare in modo automatico brevi e brevissime sezioni di parlato. L’algoritmo ha appreso il modo con il quale si formano in generale le parole in una determinata lingua, e ha imparato quindi anche a imitare le operazioni umane per riempire i micro-buchi nella voce se per un attimo una frazione dell’audio non viene ricevuto.

Per fare questo, spiegano gli ingegneri, il sistema di machine learning WaveNetEQ, deve ovviamente “ascoltare” la conversazione. Ma non lo fa dal cloud: introdurrebbe oltre ad ovvi problemi di privacy anche un ritardo eccessivo. Invece, dato che gli algoritmi di machine learning richiedono molta potenza di calcolo in fase di addestramento quando hanno la forma di una rete neurale ma relativamente poca potenza di calcolo per eseguire le loro funzioni, la funzione è in realtà svolta completamente in locale, all’interno dell’app stessa. E dato che la comunicazione tra le due persone che usano Duo è, secondo Google, crittata in modo end-to-end, viene garantita la massima riservatezza e rispetto della privacy.

WaveNetEQ entra in funzione solo quando qualche pacchetto internet contenente i bit di informazione necessari a far sentire un pezzetto della conversazione si perde. E riempie il buco imitando e prevedendo cosa sarebbe stato detto, cioè completando i suoni. Ovviamente si tratta di poco meno di sillabe, suoni parziali, frammenti, non certo intere parole o frasi. Una specie di Photoshop dell’audio che, anziché ricostruire una immagine sbiadita, riesce a interpolare e riempire i vuoti di un suono. Ma gli esempi mostrati da Google sul sito del servizio sono comunque impressionanti: nell’esempio in inglese WaveNetEQ riesce a riempire il vuoto di una sillaba “persa” con assoluta naturalezza.

@RIPRODUZIONE RISERVATA

Articolo 1 di 3