Come i tuoi amici su Twitter possono darti il ​​tuo anonimato

Mentre navighi su Internet, gli inserzionisti online monitorano quasi ogni sito che visiti, accumulando un sacco di informazioni sulle tue abitudini e preferenze. Quando visiti un sito di notizie, potrebbero vedere che sei un fan dei romanzi di basket, di opera e di mistero, e di conseguenza seleziona annunci personalizzati in base ai tuoi gusti.

Gli inserzionisti utilizzano queste informazioni per creare esperienze altamente personalizzate, ma in genere non sanno esattamente chi sei. Osservano solo la tua traccia digitale, non la tua stessa identità, e così potresti sentire di avere conservato un certo grado di anonimato.

Ma, in un documento che ho coautore con Ansh Shukla, Sharad Goel e Arvind Narayanan, mostriamo che questi anonimi record di navigazione web possono infatti essere spesso legati alle identità del mondo reale.

Per testare il nostro approccio, abbiamo costruito un sito web dove le persone potrebbero donare la loro cronologia di navigazione per gli scopi di questo studio. Abbiamo quindi provato a vedere se potevamo collegare le loro storie ai loro profili Twitter utilizzando solo dati disponibili pubblicamente. Il settantadue percento delle persone che abbiamo provato a deanonymize sono state identificate correttamente come i candidati migliori nei risultati di ricerca e il percent 81 era tra i migliori candidati 15.

privacy2 2 8Schermate del sito Web di dianonymization.

Questa è, a nostra conoscenza, la più grande dimostrazione di deanonimizzazione fino ad oggi, dal momento che preleva l'utente corretto da centinaia di milioni di possibili utenti di Twitter. Inoltre, il nostro metodo richiede solo che una persona faccia clic sui collegamenti che compaiono nei loro feed di social media, non che pubblichino alcun contenuto - quindi anche le persone che stanno attente a ciò che condividono su Internet sono ancora vulnerabili a questo attacco.


innerself iscriviti alla grafica


Come funziona

Ad un livello elevato, il nostro approccio si basa su una semplice osservazione. Ogni persona ha un social network molto particolare, composto da familiari e amici di scuola, lavoro e varie fasi della loro vita. Di conseguenza, la serie di link nei tuoi feed Facebook e Twitter è altamente distintiva. Cliccando su questi link lascia un segno nella tua cronologia di navigazione.

Guardando il set di pagine Web visitate da un individuo, siamo stati in grado di individuare feed di social media simili, producendo un elenco di candidati che probabilmente hanno generato la cronologia di navigazione web. In questo modo, possiamo legare l'identità del mondo reale di una persona al set quasi completo di collegamenti che hanno visitato, inclusi i collegamenti che non sono mai stati pubblicati su nessun sito di social media.

L'attuazione di questa strategia comporta due sfide chiave. Il primo è teorico: come si quantifica quanto un feed di social media sia simile a una data cronologia di navigazione web? Un modo semplice è misurare la frazione di collegamenti nella cronologia di navigazione che appaiono anche nel feed. Questo funziona abbastanza bene nella pratica, ma sopravvaluta la somiglianza per i feed di grandi dimensioni, dal momento che questi contengono semplicemente più collegamenti. Abbiamo invece un approccio alternativo. Poniamo un modello stilizzato e probabilistico del comportamento di navigazione web e calcoliamo quindi la probabilità che un utente con quel feed di social media abbia generato la cronologia di navigazione osservata. Quindi scegliamo il feed dei social media che è più probabile.

La seconda sfida riguarda l'identificazione dei feed più simili in tempo reale. Qui ci rivolgiamo a Twitter, dal momento che i feed di Twitter (a differenza di Facebook) sono in gran parte pubblici. Tuttavia, anche se i feed sono pubblici, non possiamo semplicemente creare una copia locale di Twitter sulla quale possiamo eseguire le nostre query. Invece applichiamo una serie di tecniche per ridurre drasticamente lo spazio di ricerca. Combiniamo quindi le tecniche di caching con le ricerche per rete su richiesta per costruire i feed dei candidati più promettenti. Su questo set ridotto di candidati, applichiamo la nostra misura di similarità per produrre i risultati finali. Data una cronologia di navigazione, in genere possiamo eseguire l'intero processo in meno di 60 secondi.

Il nostro metodo è più accurato per le persone che navigano su Twitter più attivamente. Il novanta percento dei partecipanti che hanno fatto clic su 100 o su più link su Twitter potrebbero essere abbinati alla loro identità.

Molte aziende hanno le risorse di tracciamento per effettuare un attacco come questo, anche senza il consenso del partecipante. Abbiamo tentato di deanonymize ciascuno dei nostri partecipanti all'esperimento utilizzando solo le parti delle loro cronologie di navigazione che erano visibili a società di monitoraggio specifiche (perché le società hanno tracker su quelle pagine). Abbiamo scoperto che diverse aziende avevano le risorse per identificare con precisione i partecipanti.

privacy 2 8Altri studi di deanonimizzazione

Diversi altri studi hanno utilizzato impronte pubblicamente disponibili per deanonizzare i dati sensibili.

Forse lo studio più famoso lungo queste linee è stato eseguito da Latanya Sweeney all'Università di Harvard in 2002. Lo ha scoperto La percentuale di 87 degli americani era identificabile in modo univoco basato su una combinazione del loro codice postale, sesso e data di nascita. Questi tre attributi erano disponibili sia nei dati di registrazione degli elettori pubblici (che ha acquistato per $ 20) che in quelli anonimi (che erano ampiamente distribuiti, perché la gente riteneva che i dati fossero anonimi). Collegando queste fonti di dati, ha trovato le cartelle cliniche del governatore del Massachusetts.

Nel 2006, Netflix ha tenuto un concorso migliorare la qualità delle sue raccomandazioni sui film. Hanno pubblicato un set di dati anonimo delle valutazioni dei film delle persone e offerto $ 1 milioni al team che potrebbe migliorare il loro algoritmo di raccomandazione in percentuale 10. Scienziati informatici Arvind Narayanan ed Vitaly Shmatikov ho notato che i film guardati dalla gente erano molto distintivi e la maggior parte delle persone nel set di dati erano identificabili in modo univoco basandosi su un piccolo sottoinsieme dei loro film. In altre parole, basandosi sulle scelte dei film di Netflix e sulle recensioni di IMDB, i ricercatori sono stati in grado di determinare chi erano realmente gli utenti di Netflix.

Con l'avvento dei social media, sempre più persone condividono informazioni che sembrano innocue, ma in realtà rivelano molte informazioni personali. Uno studio guidato da Michal Kosinski all'Università di Cambridge, a Facebook è piaciuto predire le persone orientamento sessuale, opinioni politiche e tratti di personalità.

Un'altra squadra, guidata da Gilbert Wondracek alla Vienna University of Technology, ha costruito una "macchina per la decanonimizzazione" che ha individuato i gruppi di persone che facevano parte del social network Xing, e l'hanno usata per capire chi erano - dal momento che i gruppi di cui fai parte sono spesso sufficienti per identificarsi in modo univoco tu.

Cosa puoi fare

La maggior parte di questi attacchi è difficile da difendere, a meno che tu non smetta di usare internet o di partecipare alla vita pubblica.

Anche se smetti di usare Internet, le aziende possono comunque raccogliere dati su di te. Se molti dei tuoi amici caricano i loro contatti telefonici su Facebook e il tuo numero è in tutti i loro elenchi di contatti, Facebook può fare previsioni su di te, anche se non usi il loro servizio.

Il modo migliore per difendersi dagli algoritmi di deanonimizzazione come il nostro è limitare l'insieme di persone che hanno accesso ai dati di navigazione anonimi. Estensioni del browser come Ghostery blocca tracker di terze parti. Ciò significa che, anche se la società di cui stai visitando il sito web saprà che le stai visitando, le società pubblicitarie che pubblicano annunci sulla loro pagina non saranno in grado di raccogliere i dati di navigazione e aggregarli su più siti.

Se sei un webmaster, puoi proteggere i tuoi utenti consentendo loro di esplorare il tuo sito utilizzando HTTPS. La navigazione tramite HTTP consente agli aggressori di ottenere la cronologia di navigazione sniffando il traffico di rete, che consente loro di eseguire questo attacco. Molti siti Web sono già passati a HTTPS; quando abbiamo ripetuto il nostro esperimento di dianonymization dal punto di vista di uno sniffer del traffico di rete, solo la percentuale 31 dei partecipanti potrebbe essere deanonimizzata.

Tuttavia, c'è ben poco da fare per proteggersi dagli attacchi di deanonimizzazione in generale, e forse il miglior modo di agire è quello di adeguare le proprie aspettative. Niente è privato in questa era digitale.

Circa l'autore

Jessica Su, Ph.D. Studente a Stanford, Università di Stanford

Questo articolo è stato pubblicato in origine The Conversation. Leggi il articolo originale.

libri correlati

at InnerSelf Market e Amazon