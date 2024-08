Modelul de inteligență artificială GROVER tratează ADN-ul ca pe un limbaj, învățând regulile și contextul pentru a extrage semnificații biologice, cum ar fi promotorii genelor și locurile de legare a proteinelor.

Această abordare inovatoare ar putea revoluționa genomica și medicina, prin deblocarea straturilor ascunse de informații genetice. Descoperirile sugerează că funcțiile ADN-ului sunt codificate în secvențe, oferind noi perspective asupra predispozițiilor și tratamentelor la boli, scrie Neuroscience.

Model de limbaj AI: GROVER folosește tehnici de model de limbaj pentru a interpreta ADN-ul, tratând secvențele ca pe o structură lingvistică pentru a dezvălui funcțiile genetice.

Perspective genetice: modelul identifică promotori de gene, site-uri de legare a proteinelor și informații epigenetice, îmbunătățind înțelegerea regiunilor necodate ale ADN-ului.

Aplicații potențiale: GROVER poate avansa genomica și medicina personalizată, oferind perspective asupra biologiei și bolilor umane.

ADN-ul conține informații fundamentale necesare pentru a susține viața. Înțelegerea modului în care aceste informații sunt stocate și organizate a fost una dintre cele mai mari provocări științifice ale secolului trecut.

Cu GROVER, un nou model de limbaj mare antrenat pe ADN-ul uman, cercetătorii ar putea încerca acum să decodeze informațiile complexe ascunse în genomul nostru.

Dezvoltat de o echipă de la Centrul de Biotehnologie (BIOTEC) al Universității de Tehnologie din Dresda, GROVER tratează ADN-ul uman ca pe un text, învățând regulile și contextul acestuia pentru a trage informații funcționale despre secvențele ADN.

Acest nou instrument, publicat în ”Nature Machine Intelligence”, are potențialul de a transforma genomica și de a accelera medicina personalizată.

Oamenii de știință au căutat mereu să înțeleagă informațiile codificate în ADN. 70 de ani mai târziu, este clar că informațiile ascunse în ADN sunt multistratificate. Doar 1-2% din genom este format din gene, secvențele care codifică proteine.

„ADN-ul are multe funcții dincolo de codificarea proteinelor. Unele secvențe reglează genele, altele servesc unor scopuri structurale, majoritatea secvențelor servesc mai multe funcții simultan. În prezent, nu înțelegem semnificația ADN-ului. Când vine vorba de înțelegerea regiunilor ADN-ului, se pare că abia am început să ghicim unele lucruri. Aici AI și modelele de limbaj mari pot ajuta”, spune dr. Anna Poetsch, liderul grupului de cercetare dela BIOTEC.

Modelele mari de limbaj, cum ar fi GPT, au transformat înțelegerea unor lucruri. Antrenate exclusiv pe text, modelele mari de limbaj au dezvoltat capacitatea de a folosi limba în multe contexte.

Echipa a arătat că GROVER, pe lângă faptul că poate prezice cu exactitate următoarele secvențe de ADN, poate fi folosit și pentru a extrage informații contextuale care au semnificație biologică, de exemplu, identificarea promotorilor genelor sau a site-urilor de legare a proteinelor de pe ADN.

GROVER învață procese care sunt în general considerate a fi „epigenetice”, adică procese de reglementare care au loc pe deasupra ADN-ului.

„ADN-ul seamănă cu limbajul. Are patru litere care construiesc secvențe, iar secvențele poartă un sens. Totuși, spre deosebire de o limbă, ADN-ul nu are cuvinte definite”, spune dr. Poetsch.

ADN-ul este format din patru litere (A, T, G și C) și gene, dar nu există secvențe predefinite de lungimi diferite care se combină pentru a construi gene sau alte secvențe semnificative.

Pentru a instrui GROVER, echipa a trebuit mai întâi să creeze ”un dicționar ADN”. Au folosit un truc, de la algoritmi de compresie. „Acest pas este crucial și diferențiază modelul nostru de limbaj ADN față de încercările anterioare”, spune dr. Poetsch.

„Am analizat întregul genom și am căutat combinații de litere care apar cel mai des. Am început cu două litere și am trecut peste ADN, iar și iar, pentru a-l construi până la cele mai comune combinații de mai multe litere. În acest fel, în aproximativ 600 de cicluri, am fragmentat ADN-ul în „cuvinte” care i-au permis lui GROVER să performeze cel mai bine atunci când anticipează următoarea secvență”, a explocat dr. Sanabria.