banner
Casa / Blog / Multiplo
Blog

Multiplo

Mar 11, 2024Mar 11, 2024

Rapporti scientifici volume 12, numero articolo: 10487 (2022) Citare questo articolo

1174 accessi

3 citazioni

2 Altmetrico

Dettagli sulle metriche

Questo articolo è stato aggiornato

Le interazioni proteina-proteina (PPI) sono cruciali per il funzionamento delle proteine, tuttavia prevedere i residui nelle interfacce PPI dalla sequenza proteica rimane un problema impegnativo. Inoltre, le annotazioni funzionali basate sulla struttura, come le annotazioni dell'interfaccia PPI, sono scarse: solo per circa un terzo di tutte le strutture proteiche sono disponibili annotazioni dell'interfaccia PPI basate sui residui. Se vogliamo utilizzare una strategia di deep learning, dobbiamo superare il problema della disponibilità limitata dei dati. Qui utilizziamo una strategia di apprendimento multi-task in grado di gestire i dati mancanti. Iniziamo con l'architettura del modello multi-task e la adattiamo per gestire con attenzione i dati mancanti nella funzione di costo. Come compiti di apprendimento correlati includiamo la previsione della struttura secondaria, dell'accessibilità ai solventi e dei residui sepolti. I nostri risultati mostrano che la strategia di apprendimento multi-task supera significativamente gli approcci a compito singolo. Inoltre, solo la strategia multi-task è in grado di apprendere efficacemente su un set di dati esteso con dati di caratteristiche strutturali, senza annotazioni PPI aggiuntive. L’impostazione multi-task diventa ancora più importante se la frazione di annotazioni PPI diventa molto piccola: lo studente multi-task formato solo su un ottavo delle annotazioni PPI – con estensione dati – raggiunge le stesse prestazioni dello studente single-task su tutte le annotazioni PPI. Pertanto, mostriamo che la strategia di apprendimento multi-task può essere utile per un piccolo set di dati di addestramento in cui le proprietà funzionali di interesse della proteina sono solo parzialmente annotate.

I database di sequenze proteiche1 continuano a crescere rapidamente e le informazioni strutturali stanno diventando sempre più facilmente disponibili2. Tuttavia, annotazioni funzionali precise basate sulla struttura proteica, come i siti di legame delle proteine3, sono ancora scarse e difficili da prevedere. Pertanto, vengono utilizzate tecniche computazionali per prevedere diverse proprietà strutturali funzionali delle proteine ​​in base alla sequenza proteica. Una di queste proprietà è l'interfaccia di interazione fisica tra proteine ​​che è cruciale per il funzionamento di una proteina4. L'interazione tra le proteine ​​è necessaria in molti processi biologici, come la replicazione del DNA, la trascrizione dell'RNA, la trasduzione del segnale, il controllo dei processi cellulari, il trasporto delle proteine ​​e il metabolismo5,6,7,8,9. Inoltre, molte malattie possono essere correlate alla deformazione dell'interfaccia di una proteina10,11. Prevedere l'insieme di residui in una proteina che interagiscono con altre proteine ​​è un compito importante, ma ancora impegnativo12. Inoltre, le informazioni strutturali sui residui che compongono l'interfaccia sono scarse. La dimensione del database annotato PPI è solo una piccola frazione della dimensione del database annotato strutturale. La dimensione del database con annotazioni strutturali, a sua volta, è una piccola frazione della dimensione del database delle sequenze proteiche (vedere Fig. 1). Inoltre, ci sono problemi come la previsione delle interfacce degli epitopi (legame tra anticorpi), per le quali sono disponibili dati ancora meno etichettati13. Per addestrare in modo efficiente le reti neurali profonde per la previsione dell'interfaccia PPI e altre attività con scarsa disponibilità di annotazioni, dobbiamo superare il problema della dimensione limitata del set di dati di addestramento.

Confronto del numero di voci disponibili nei database sulla sequenza proteica, sulla struttura proteica e su annotazioni funzionali specifiche basate sulla struttura: interfaccia di interazione proteina-proteina (PPI). Questi risultati si basano rispettivamente sulle voci delle proteine ​​disponibili nel database UniProtKB/TrEMBL, sulle voci delle proteine ​​disponibili nella Banca dati delle proteine ​​(PDB) e sulle voci delle proteine ​​con annotazioni sull'interfaccia PPI. Tieni presente che l'asse y è logaritmico.

Grazie ai successi del deep learning in campi come l’elaborazione del linguaggio naturale, gli approcci di deep learning sono sempre più utilizzati e hanno mostrato grandi successi per la previsione delle caratteristiche strutturali delle proteine14,15,16,17. Nel deep learning, più livelli connessi, insieme ai relativi parametri, prevedono l’output delle corrispondenti funzionalità di input18. Approcci e modelli come le reti neurali convoluzionali (CNN), le reti neurali residue (ResNet), le reti neurali ricorrenti (RNN), le reti di memoria a lungo termine (LSTM), i trasformatori e gli studenti multi-task compaiono nei recenti metodi di previsione della struttura15,16 ,19,20,21,22. Hanson et al.16 hanno utilizzato, tra gli altri, ResNet ultra-profondi nel modello SPOT-1D che sono stati in grado di catturare interazioni non locali tra residui che sono vicini solo nella struttura proteica e non nella sequenza proteica16. Heffernan et al.21 hanno utilizzato RNN bidirezionali LSTM e hanno dimostrato che questo metodo è utile per catturare interazioni a lungo raggio, specialmente per residui con un gran numero di contatti a lungo raggio. Recentemente abbiamo confrontato l'utilizzo di diverse architetture di reti neurali per la previsione delle interfacce proteiche23. Inoltre, i trasformatori sono stati utilizzati con successo nel linguaggio delle proteine24,25. Nei trasformatori, le informazioni apprese dai dati generali del dominio, come le sequenze proteiche, vengono trasferite a dati specifici del dominio, come la previsione della struttura secondaria. Un'altra strategia in cui vengono trasferite le informazioni è l'apprendimento multi-task.