Il modello di targeting per Facebook di Cambridge Analytica ha funzionato davveroQuanto accuratamente puoi essere profilato online? Andrew Krasovitckii / Shutterstock.com

Il ricercatore il cui lavoro è al centro del Analisi dei dati Facebook-Cambridge Analytica e tumulto della pubblicità politica ha rivelato che il suo metodo ha funzionato in modo molto simile a quello Netflix usa per raccomandare i film.

In una e-mail, lo studioso dell'Università di Cambridge Aleksandr Kogan ha spiegato come il suo modello statistico ha elaborato i dati di Facebook per Cambridge Analytica. L'accuratezza che afferma suggerisce che funziona così come metodi di targeting eletti stabiliti basato su dati demografici come razza, età e sesso.

Se confermato, l'account di Kogan significherebbe che era la modellazione digitale utilizzata da Cambridge Analytica appena la sfera di cristallo virtuale alcuni hanno sostenuto. Eppure i numeri forniti da Kogan anche mostrare cosa è - e non è - effettivamente possibile by combinando i dati personali con l'apprendimento automatico per fini politici.

Per quanto riguarda una preoccupazione pubblica chiave, tuttavia, i numeri di Kogan suggeriscono che le informazioni sulle personalità degli utenti o "psicografici"Era solo una parte modesta di come il modello prendesse di mira i cittadini. Non era un modello di personalità in senso stretto, ma piuttosto uno che riduceva la demografia, le influenze sociali, la personalità e tutto il resto in un grande nodulo correlato. Questo approccio "assorbi-tutta-la-correlazione-e-chiamalo-personalità" sembra aver creato un prezioso strumento per la campagna, anche se il prodotto venduto non era esattamente come era stato fatturato.


innerself iscriviti alla grafica


La promessa del targeting di personalità

Sulla scia delle rivelazioni utilizzate dai consulenti della campagna di Trump, Cambridge Analytica dati da 50 milioni di utenti di Facebook Facebook si rivolge alla pubblicità politica digitale durante le elezioni presidenziali degli Stati Uniti 2016 perso miliardi nel valore del mercato azionario, i governi su entrambi i lati dell'Atlantico avere indagini apertee un nascente movimento Sociale sta invitando gli utenti a #DeleteFacebook.

Ma una domanda chiave è rimasta senza risposta: Cambridge Analytica è stata davvero in grado di indirizzare efficacemente i messaggi della campagna ai cittadini in base alle loro caratteristiche di personalità - o persino al loro "demoni interiori", Come asseriva un informatore della compagnia?

Se qualcuno sapesse cosa ha fatto Cambridge Analytica con i suoi enormi dati di Facebook, sarebbe Aleksandr Kogan e Joseph Chancellor. Era la loro startup Global Science Research che ha raccolto informazioni sul profilo da Utenti di 270,000 Facebook e decine di milioni di loro amici utilizzando un'app di test della personalità chiamata "thisisyourdigitallife".

Parte di la mia ricerca si concentra sulla comprensione machine learning metodi e il mio prossimo libro discute di come le aziende digitali utilizzano i modelli di raccomandazione per costruire il pubblico. Ho avuto un'idea di come funzionassero il modello di Kogan e del Cancelliere.

Quindi ho mandato un'email a Kogan per chiedere. Kogan è ancora un ricercatore presso l'Università di Cambridge; il suo collaboratore Il cancelliere ora lavora su Facebook. In una straordinaria dimostrazione di cortesia accademica, rispose Kogan.

La sua risposta richiede un disimballaggio e un po 'di background.

Dal premio Netflix alla "psicometria"

Indietro in 2006, quando era ancora una compagnia di DVD per posta, Netflix ha offerto un ricompensa di $ 1 milioni a chiunque abbia sviluppato un modo migliore per fare previsioni sulle classifiche dei film degli utenti di quanto la società avesse già fatto. Un grande concorrente a sorpresa era un sviluppatore software indipendente che utilizza lo pseudonimo di Simon Funk, il cui approccio di base è stato infine incorporato in tutte le voci delle squadre migliori. Funk adattò una tecnica chiamata "Scomposizione di un valore singolo, "Condensando le valutazioni degli utenti dei film in a serie di fattori o componenti - essenzialmente un insieme di categorie dedotte, classificate per importanza. Come Funk spiegato in un post sul blog,

"Quindi, ad esempio, una categoria potrebbe rappresentare film d'azione, con film con molta azione in alto e film lenti in basso, e di conseguenza gli utenti a cui piacciono i film d'azione in alto e quelli che preferiscono film lenti in parte inferiore."

I fattori sono categorie artificiali, che non sono sempre come il tipo di categorie che gli uomini inventerebbero. Il fattore più importante nel primo modello Netflix di Funk è stato definito da utenti che amavano i film come "Pearl Harbor" e "The Wedding Planner" mentre odiavano anche film come "Lost in Translation" o "Eternal Sunshine of the Spotless Mind". Il suo modello ha mostrato come l'apprendimento automatico può trovare correlazioni tra gruppi di persone e gruppi di film che gli umani stessi non avrebbero mai individuato.

L'approccio generale di Funk ha utilizzato i fattori più importanti di 50 o 100 sia per gli utenti che per i film per fare un'ipotesi decente su come ogni utente valuterebbe ogni film. Questo metodo, spesso chiamato riduzione della dimensionalità o fattorizzazione a matrice, non era nuova. I ricercatori di scienze politiche lo avevano dimostrato tecniche simili utilizzando i dati dei voti per appello nominale potrebbe prevedere i voti dei membri del Congresso con una precisione del 90 percentuale. In psicologia il "Big Five"Il modello era stato anche usato per predire il comportamento raggruppando le domande sulla personalità a cui si tendeva a rispondere in modo simile.

Tuttavia, il modello di Funk è stato un grande progresso: ha permesso alla tecnica di funzionare bene con enormi set di dati, anche quelli con molti dati mancanti - come il set di dati Netflix, dove un tipico utente ha valutato solo poche dozzine di film su migliaia nelle società biblioteca. Più di un decennio dopo la fine del concorso a premi Netflix, Metodi basati su SVD, o modelli correlati per dati impliciti, sono ancora lo strumento preferito da molti siti Web per prevedere ciò che gli utenti leggeranno, guarderanno o acquisteranno.

Questi modelli possono prevedere anche altre cose.

Facebook sa se sei un repubblicano

In 2013, i ricercatori dell'Università di Cambridge Michal Kosinski, David Stillwell e Thore Graepel hanno pubblicato un articolo sul potere predittivo dei dati di Facebook, utilizzando le informazioni raccolte attraverso un test di personalità online. La loro analisi iniziale era quasi identica a quella utilizzata per il Premio Netflix, usando SVD per classificare sia gli utenti che le cose che "piacevano" tra i principali fattori 100.

Il documento ha dimostrato che lo era un modello basato sui "Mi piace" di Facebook degli utenti 95 percentuale di precisione nel distinguere tra gli intervistati in bianco e nero, 93 percento accurato nel distinguere gli uomini dalle donne e 88 percento accurato nel distinguere le persone che si sono identificate come uomini gay da uomini identificati come eterosessuali. Potrebbe persino distinguere correttamente i repubblicani dal democratico 85 per cento delle volte. Era anche utile, anche se non altrettanto accurato, per prevedere i punteggi degli utenti sul test di personalità "Big Five".

C'era protesta pubblica in risposta; in poche settimane Facebook ha avuto reso privato il like degli utenti per impostazione predefinita.

Kogan e il cancelliere, all'epoca anche ricercatori dell'Università di Cambridge, stavano iniziando a utilizzare i dati di Facebook per il targeting elettorale nell'ambito di una collaborazione con la società madre SCL, la casa madre di Cambridge Analytica. Kogan ha invitato Kosinski e Stillwell a unirsi al suo progetto, ma esso non ha funzionato. Secondo quanto riferito, Kosinski avrebbe sospettato che Kogan e il cancelliere avrebbero potuto retroingegnerizzato il modello "Mi piace" di Facebook per Cambridge Analytica. Kogan ha negato questo, dicendo che il suo progetto "costruito tutti i nostri modelli utilizzando i nostri dati, raccolti utilizzando il nostro software. "

Che cosa hanno effettivamente fatto Kogan e il cancelliere?

Mentre seguivo gli sviluppi della storia, è diventato chiaro che Kogan e il Cancelliere avevano effettivamente raccolto molti dei loro dati attraverso questa app per la vita digitale. Avrebbero sicuramente potuto costruire un modello SVD predittivo come quello descritto nella ricerca pubblicata da Kosinski e Stillwell.

Quindi ho mandato un'e-mail a Kogan per chiedere se era quello che aveva fatto. Con mia grande sorpresa, rispose.

"Non abbiamo usato esattamente SVD", ha scritto, osservando che SVD può avere difficoltà quando alcuni utenti hanno molti più "mi piace" di altri. Invece, Kogan ha spiegato, "La tecnica era qualcosa che in realtà abbiamo sviluppato noi stessi ... Non è qualcosa che è di dominio pubblico". Senza entrare nei dettagli, Kogan ha descritto il loro metodo come "un multi-step co-occorrenza approccio."

Tuttavia, il suo messaggio ha continuato a confermare che il suo approccio era effettivamente simile a SVD o ad altri metodi di fattorizzazione a matrice, come nel concorso per il premio Netflix e al modello Facebook di Kosinki-Stillwell-Graepel. La riduzione dimensionale dei dati di Facebook è stata il fulcro del suo modello.

Quanto è stato accurato?

Kogan ha suggerito che il modello esatto utilizzato non ha molta importanza, ciò che conta è l'accuratezza delle sue previsioni. Secondo Kogan, la "correlazione tra i punteggi previsti e effettivi ... era di circa il [30 percento] per tutte le dimensioni della personalità". In confronto, i precedenti punteggi dei Big Five di una persona sono circa Precisione da 70 a 80 percentuale nel prevedere i loro punteggi quando riprendono il test.

Le affermazioni sulla precisione di Kogan non possono essere verificate indipendentemente, ovviamente. E chiunque nel mezzo di uno scandalo di così alto profilo potrebbe essere incentivato a sottovalutare il proprio contributo. Nel suo apparizione alla CNN, Kogan ha spiegato ad un Anderson Cooper sempre più incredulo che, in realtà, i modelli non avevano effettivamente funzionato molto bene.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan risponde alle domande sulla CNN.

In effetti, l'accuratezza dichiarata da Kogan sembra un po 'bassa, ma plausibile. Kosinski, Stillwell e Graepel hanno riportato risultati comparabili o leggermente migliori, così come molti altri studi accademici usare impronte digitali per predire la personalità (anche se alcuni di quegli studi avevano più dati dei "mi piace" di Facebook). È sorprendente che Kogan e il cancelliere si preoccuperebbero di progettare il proprio modello proprietario se le soluzioni standardizzate sembrassero altrettanto accurate.

È importante sottolineare, tuttavia, che l'accuratezza del modello sui punteggi di personalità consente di confrontare i risultati di Kogan con altre ricerche. I modelli pubblicati con un'accuratezza equivalente nella previsione della personalità sono tutti molto più accurati nell'indovinare dati demografici e variabili politiche.

Ad esempio, il simile modello SVD Kosinski-Stillwell-Graepel era accurato del 85 percento nell'indovinare l'affiliazione al partito, anche senza usare informazioni sul profilo diverse dai Mi piace. Il modello di Kogan aveva una precisione simile o migliore. L'aggiunta di una piccola quantità di informazioni sugli amici o sui dati demografici degli utenti aumenterebbe probabilmente questa precisione al di sopra del 90 percento. Le ipotesi su genere, razza, orientamento sessuale e altre caratteristiche sarebbero probabilmente anche più accurate di 90 percento.

Criticamente, queste ipotesi sarebbero particolarmente utili per gli utenti di Facebook più attivi: le persone a cui il modello è stato principalmente utilizzato come target. Gli utenti con meno attività da analizzare probabilmente non saranno comunque molto su Facebook.

Quando la psicografia è principalmente demografia

Sapere come è costruito il modello aiuta a spiegare le dichiarazioni apparentemente contraddittorie di Cambridge Analytica il ruolo - o mancanza di ciò - che la profilazione della personalità e la psicografia hanno giocato nel suo modello. Sono tutti tecnicamente coerenti con ciò che descrive Kogan.

Un modello come quello di Kogan fornirebbe stime per ogni variabile disponibile su qualsiasi gruppo di utenti. Ciò significa che lo farebbe automaticamente stimare i punteggi della personalità dei Big Five per ogni elettore. Ma questi punteggi di personalità sono l'output del modello, non l'input. Tutto ciò che il modello sa è che alcuni Mi piace di Facebook e alcuni utenti tendono a essere raggruppati.

Con questo modello, Cambridge Analytica poteva dire che stava identificando le persone con scarsa apertura all'esperienza e alto nevroticismo. Ma lo stesso modello, con le stesse identiche previsioni per ogni utente, potrebbe altrettanto affermare con precisione di identificare uomini repubblicani più anziani meno istruiti.

Le informazioni di Kogan aiutano anche a chiarire la confusione sul fatto che Cambridge Analytica effettivamente cancellato il suo problema dei dati di Facebook, quando i modelli si basano sui dati sembra essere ancora in circolazione, e persino sviluppato ulteriormente.

The ConversationL'intero punto di un modello di riduzione dimensionale è rappresentare matematicamente i dati in forma più semplice. È come se Cambridge Analytica scattasse una fotografia ad altissima risoluzione, la ridimensionasse per essere più piccola e quindi cancellasse l'originale. La foto esiste ancora - e finché esistono i modelli di Cambridge Analytica, anche i dati lo fanno effettivamente.

Circa l'autore

Matthew Hindman, Professore associato di Media e affari pubblici, George Washington University

Questo articolo è stato pubblicato in origine The Conversation. Leggi il articolo originale.

libri correlati

at InnerSelf Market e Amazon