Come i computer aiutano i biologi a spezzare i segreti della vita

Una volta sequenziato il genoma umano lungo tre miliardi di lettere, ci siamo precipitati in un nuovo "omiche"Era della ricerca biologica. Gli scienziati ora stanno correndo per sequenziare i genomi (tutti i geni) oi proteomi (tutte le proteine) di vari organismi - e nel processo stanno compilando enormi quantità di dati.

Ad esempio, uno scienziato può utilizzare strumenti "omici" come il sequenziamento del DNA per scoprire quali geni umani sono coinvolti in un'infezione virale. Ma poiché il genoma umano ha almeno i geni 25,000 in totale, il numero di geni alterati anche in uno scenario così semplice potrebbe potenzialmente ammontare a migliaia.

Sebbene il sequenziamento e l'identificazione di geni e proteine ​​dia loro un nome e un posto, non ci dice cosa fanno. Dobbiamo capire come questi geni, proteine ​​e tutte le cose in mezzo interagire in diversi processi biologici.

Oggi, anche gli esperimenti di base generano grandi dati e una delle maggiori sfide consiste nel districare i risultati rilevanti dal rumore di fondo. I computer ci stanno aiutando a superare questa montagna di dati; ma possono anche andare oltre, aiutandoci a formulare ipotesi scientifiche e spiegare nuovi processi biologici. La scienza dei dati, in sostanza, consente una ricerca biologica all'avanguardia.

Computer per il salvataggio

I computer sono qualificati in modo univoco per gestire enormi serie di dati poiché possono tenere traccia simultaneamente di tutte le condizioni importanti necessarie per l'analisi.


innerself iscriviti alla grafica


Sebbene loro potrebbe riflettere errori umani sono programmati con, i computer possono gestire grandi quantità di dati in modo efficiente e non sono inclinati verso il familiare, come potrebbero essere gli investigatori umani.

I computer possono anche insegnare a cercare modelli specifici in serie di dati sperimentali - un concetto definito apprendimento automatico, proposto per la prima volta negli 1950, in particolare dal matematico Alan Turing. Un algoritmo che ha imparato i modelli dai set di dati può quindi essere chiesto di fare previsioni basate su nuovi dati che non ha mai incontrato prima.

L'apprendimento automatico ha rivoluzionato la ricerca biologica poiché ora possiamo utilizzare grandi set di dati e chiedere ai computer di aiutare a comprendere la biologia di base.

Allenare i computer a pensare simulando processi cerebrali

Abbiamo usato un tipo interessante di apprendimento automatico, chiamato rete neurale artificiale (ANN), nel nostro laboratorio. I cervelli sono reti di neuroni altamente interconnesse, che comunicano inviando impulsi elettrici attraverso il cablaggio neurale. Allo stesso modo, una ANN simula nel computer una rete di neuroni quando si accendono e si spengono in risposta ai segnali di altri neuroni.

Applicando algoritmi che imitano i processi dei neuroni reali, possiamo fare in modo che la rete impari a risolvere molti tipi di problemi. Google utilizza una potente RNA per la sua ormai famosa Progetto Deep Dream dove i computer possono classificare e persino creare immagini.

Il nostro gruppo studia il sistema immunitario, con l'obiettivo di capire nuove terapie per il cancro. Abbiamo usato i modelli di calcolo ANN per studiare i codici di proteine ​​di superficie corte che le nostre cellule immunitarie usano per determinare se qualcosa è estraneo al nostro corpo e quindi dovrebbero essere attaccati. Se comprendiamo di più su come le nostre cellule immunitarie (come le cellule T) distinguono tra cellule normali / auto-anormali / estranee, possiamo progettare vaccini e terapie migliori.

Abbiamo setacciato cataloghi disponibili al pubblico di migliaia di codici proteici identificati dai ricercatori nel corso degli anni. Abbiamo diviso questo grande insieme di dati in due: i normali codici di auto-proteina derivati ​​da cellule umane sane e codici proteici anormali derivati ​​da virus, tumori e batteri. Quindi ci siamo rivolti a una rete neurale artificiale sviluppata nel nostro laboratorio.

Una volta che abbiamo inserito i codici delle proteine ​​nell'ANN, l'algoritmo è stato in grado di identificare differenze fondamentali tra i codici di proteine ​​normali e anormali. Sarebbe difficile per le persone tenere traccia di questi tipi di fenomeni biologici - ci sono letteralmente migliaia di questi codici di proteine ​​da analizzare nel grande set di dati. Ci vuole una macchina per risolvere questi problemi complessi e definire una nuova biologia.

Previsioni tramite Machine Learning

L'applicazione più importante dell'apprendimento automatico in biologia è la sua utilità nel fare previsioni basate su big data. Le previsioni basate sul computer possono dare un senso ai big data, testare ipotesi e risparmiare tempo e risorse preziose.

Per esempio, nel nostro campo della biologia delle cellule T, sapere quali codici di proteine ​​virali sono mirati è fondamentale nello sviluppo di vaccini e trattamenti. Ma ci sono così tanti codici proteici individuali da ogni dato virus che è molto costoso e difficile testarli sperimentalmente.

Invece, abbiamo addestrato la rete neurale artificiale per aiutare la macchina ad apprendere tutte le importanti caratteristiche biochimiche dei due tipi di codici di proteine: normale o anormale. Quindi abbiamo chiesto al modello di "prevedere" quali nuovi codici di proteine ​​virali assomigliano alla categoria "anormale" e potrebbero essere visti dalle cellule T e quindi dal sistema immunitario. Abbiamo testato il modello ANN su diverse proteine ​​virali che non sono mai state studiate prima.

Abbastanza sicuro, come uno studente diligente desideroso di compiacere l'insegnante, la rete neurale è stata in grado di identificare con precisione la maggior parte di tali codici di proteine ​​attivanti le cellule T all'interno di questo virus. Abbiamo anche testato sperimentalmente i codici delle proteine ​​contrassegnati per convalidare l'accuratezza delle previsioni di ANN. Usando questo modello di rete neurale, uno scienziato può così predire rapidamente tutti gli importanti codici proteici brevi di un virus dannoso e testarli per sviluppare un trattamento o un vaccino, invece di indovinarli e testarli individualmente.

Implementare saggiamente l'apprendimento automatico

Grazie alla costante raffinazione, la scienza dei big data e l'apprendimento automatico stanno diventando sempre più indispensabili per qualsiasi tipo di ricerca scientifica. Le possibilità di utilizzare i computer per addestrare e prevedere in biologia sono quasi infinite. Da capire quale combinazione di biomarker è meglio per scoprire una malattia e capire perché solo alcuni pazienti beneficiano di un particolare trattamento per il cancro, l'estrazione di big data set tramite computer è diventata una preziosa strada per la ricerca.

Certo, ci sono dei limiti. Il problema più grande con la scienza dei big data sono i dati stessi. Se i dati ottenuti dagli studi -omics sono difettosi per iniziare o basati su una scienza scadente, le macchine verranno addestrate su dati errati - portando a previsioni sbagliate. Lo studente è bravo quanto l'insegnante.

Perché i computer non sono senzienti (ancora), possono nella loro ricerca di modelli venire con loro anche quando nessuno esiste, dando origine ancora, a dati cattivi e scienza non riproducibile.

E alcuni ricercatori hanno sollevato preoccupazioni sul divenire dei computer scatole nere di dati per gli scienziati che non comprendono chiaramente le manipolazioni e le macchinazioni che eseguono per loro conto.

Nonostante questi problemi, i benefici dei big data e delle macchine continueranno a renderli validi partner nella ricerca scientifica. Con gli avvertimenti in mente, siamo unicamente pronti a comprendere la biologia attraverso gli occhi di una macchina.

Circa l'autoreThe Conversation

Sri Krishna, PhD Candidate, Progettazione biologica, Scuola di ingegneria dei sistemi biologici e sanitari, Arizona State University e Diego Chowell, PhD Student in Applied Mathematics, Arizona State University

Questo articolo è stato pubblicato in origine The Conversation. Leggi il articolo originale.


Libro correlati:

at InnerSelf Market e Amazon