Cosa sono i video Deepfake e scoprirli in un batter d'occhio

Una nuova forma di disinformazione è pronta a diffondersi attraverso le comunità online mentre le campagne elettorali di midterm di 2018 si surriscaldano. Chiamato "deepfakes" dopo il account online pseudonimo che ha reso popolare la tecnica - che potrebbe aver scelto il suo nome perché il processo utilizza un metodo tecnico chiamato "deep learning" - questi video finti sono molto realistici.

Finora, le persone hanno utilizzato video deepfake in pornografia ed satira per far sembrare che le persone famose stiano facendo cose che normalmente non farebbero.

Ma è quasi certo i deepfakes appariranno durante la stagione della campagna, che pretende di rappresentare i candidati dire cose o luoghi in cui il vero candidato non lo farebbe.

È Barack Obama - o è?

{youtube}cQ54GDm1eL0{/youtube}

Poiché queste tecniche sono così nuove, le persone hanno difficoltà a capire la differenza tra video reali e video deepfake. Il mio lavorocon il mio collega Ming-Ching Chang e il nostro dottorato di ricerca studente Yuezun Li, ha trovato un modo per raccontare in modo affidabile video reali da video deepfake. Non è una soluzione permanente, perché la tecnologia migliorerà. Ma è un inizio, e offre la speranza che i computer saranno in grado di aiutare le persone a dire la verità dalla finzione.


innerself iscriviti alla grafica


Che cos'è un "deepfake", comunque?

Fare un video deepfake è molto simile alla traduzione tra le lingue. Servizi come Google Traduttore usa l'apprendimento automatico - analisi computerizzata di decine di migliaia di testi in più lingue - a rilevare i modelli di uso delle parole che usano per creare la traduzione.

Gli algoritmi di Deepfake funzionano allo stesso modo: usano un tipo di sistema di apprendimento automatico chiamato a rete neurale profonda per esaminare i movimenti facciali di una persona. Quindi sintetizzano le immagini del viso di un'altra persona facendo movimenti analoghi. Facendo così efficacemente crea un video della persona bersaglio che sembra fare o dire le cose che ha fatto la persona di origine.

Come vengono realizzati i video deepfake.

{youtube}8LhI-e2B8Lg{/youtube}

Prima che possano funzionare correttamente, le reti neurali profonde necessitano di molte informazioni sulla fonte, come le foto delle persone che sono la fonte o il bersaglio della rappresentazione. Maggiore è il numero di immagini utilizzate per addestrare un algoritmo di deepfake, più realistica sarà la rappresentazione digitale.

Rilevazione lampeggiante

Ci sono ancora difetti in questo nuovo tipo di algoritmo. Uno di questi ha a che fare con il modo in cui i volti simulati lampeggiano o no. Gli umani adulti in buona salute lampeggiano da qualche parte tra ogni 2 e 10 secondie un singolo battito di ciglia tra un decimo e quattro decimi di secondo. Questo è ciò che sarebbe normale vedere in un video di una persona che parla. Ma non è quello che succede in molti video deepfake.

Una persona reale lampeggia mentre parla.

{youtube}https://www.youtube.com/watch?v=-MMXXEA3UaM{/youtube}

Una faccia simulata non lampeggia come fa una persona reale.

{youtube}EttSA9-YIuI{/youtube}

Quando un algoritmo di deepfake viene addestrato sulle immagini dei volti di una persona, dipende dalle foto disponibili su Internet che possono essere utilizzate come dati di allenamento. Anche per le persone che vengono fotografate spesso, sono disponibili poche immagini online che mostrano gli occhi chiusi. Non solo le foto sono rare - perché gli occhi delle persone sono sempre aperti - ma i fotografi di solito non pubblicano immagini in cui gli occhi dei soggetti principali sono chiusi.

Senza l'allenamento di immagini di persone che lampeggiano, gli algoritmi di Deepfake hanno meno probabilità di creare volti che lampeggiano normalmente. Quando calcoliamo il tasso complessivo di lampeggio e lo confrontiamo con l'intervallo naturale, abbiamo scoperto che i personaggi nei video deepfake lampeggiano molto meno frequentemente rispetto alle persone reali. La nostra ricerca utilizza l'apprendimento automatico esaminare l'apertura e la chiusura degli occhi nei video.

Questo ci dà l'ispirazione per rilevare video deepfake. Successivamente, sviluppiamo un metodo per rilevare quando la persona nel video lampeggia. Per essere più specifici, esegue la scansione di ciascun fotogramma di un video in questione, rileva i volti in esso e quindi individua automaticamente gli occhi. Quindi utilizza un'altra rete neurale profonda per determinare se l'occhio rilevato è aperto o chiuso, utilizzando l'aspetto dell'occhio, le caratteristiche geometriche e il movimento.

Sappiamo che il nostro lavoro sta sfruttando un difetto nel tipo di dati disponibili per addestrare algoritmi di deepfake. Per evitare di cadere preda di un difetto simile, abbiamo addestrato il nostro sistema su una vasta libreria di immagini di entrambi gli occhi aperti e chiusi. Questo metodo sembra funzionare bene e, di conseguenza, abbiamo raggiunto un tasso di rilevamento percentuale superiore a 95.

Questa non è l'ultima parola sul rilevamento dei deepfake, ovviamente. La tecnologia è migliorare rapidamentee la competizione tra la generazione e la rilevazione di video falsi è analoga a un gioco di scacchi. In particolare, il blinking può essere aggiunto ai video deepfake includendo le immagini dei volti con gli occhi chiusi o utilizzando sequenze video per l'allenamento. Le persone che vogliono confondere il pubblico miglioreranno nel realizzare video falsi - e noi e gli altri membri della comunità tecnologica dovremo continuare a trovare i modi per rilevarli.The Conversation

Circa l'autore

Siwei Lyu, professore associato di informatica; Direttore, Computer Vision e Machine Learning Lab, Università di Albany, State University di New York

Questo articolo è stato pubblicato in origine The Conversation. Leggi il articolo originale.

libri correlati

at InnerSelf Market e Amazon