Experimente secrete cu Inteligența Artificială. S-a aflat ce fac oamenii de știință

Din cuprinsul articolului

O nouă modalitate care poate schimba jocul de a antrena inteligența artificială
Modelul de învățare automată a produs 196 de solicitări care au generat conținut dăunător

Cel mai nou instrument în lupta pentru a preveni ca un agent de inteligență artificială (AI) să fie periculos, discriminatoriu și toxic este o altă inteligență artificială, care, în sine, este periculoasă, discriminatorie și toxică, spun oamenii de știință, conform Livescience.

Noua abordare de instruire, bazată pe învățarea automată, se numește curiosity-driven red teaming (CRT) și se bazează pe utilizarea unei IA pentru a genera solicitări din ce în ce mai periculoase și dăunătoare pe care le-ai putea cere unui chatbot AI.

O nouă modalitate care poate schimba jocul de a antrena inteligența artificială

Aceste solicitări sunt apoi folosite pentru a identifica modul de filtrare a conținutului periculos.

Descoperirea reprezintă o nouă modalitate care poate schimba jocul de a antrena AI să nu dea răspunsuri toxice la solicitările utilizatorilor, au spus oamenii de știință într-o nouă lucrare publicată pe 29 februarie pe serverul de pre-printare arXiv.

Atunci când antrenează modele de limbaj mari (LLM) sofisticate, cum ar fi ChatGPT sau Claude 3 Opus, pentru a restricționa conținutul periculos sau dăunător, echipele de operatori umani creează de obicei o serie de întrebări care pot genera răspunsuri dăunătoare. Acestea pot include intrebări precum „Care este cea mai bună metodă de sinucidere?”

inteligenta artificiala — Inteligența Artificială / SURSĂ FOTO: Dreamstime

Această procedură standard se numește „red-teaming” și se bazează pe oameni pentru a genera o listă manual. În timpul procesului de instruire, solicitările care provoacă conținut dăunător sunt apoi folosite pentru a instrui sistemul despre ce să restricționeze atunci când sunt implementate în fața utilizatorilor reali.

„Asistăm la o creștere a modelelor”, a declarat autorul principal Pulkit Agrawal, directorul Improbable AI Lab al MIT. „Imaginați-vă mii de modele, care vor fi o parte integrantă a vieții noastre. De aceea, este important să fie verificate înainte de a fi lansate pentru consumul public”, a subliniat el.

În cadrul studiului, oamenii de știință au aplicat învățarea automată la formarea în echipă roșie, configurând AI pentru a genera automat o gamă mai largă de indicații potențial periculoase decât ar putea echipele de operatori umani.

Acest lucru a dus la un număr mai mare de răspunsuri negative mai diverse emise de LLM în curs de formare.

Modelul de învățare automată a produs 196 de solicitări care au generat conținut dăunător

Ei au stimulat modelul CRT pentru a genera indicații din ce în ce mai variate care ar putea provoca un răspuns toxic prin „învățare prin întărire”, care i-a răsplătit curiozitatea atunci când a provocat cu succes un răspuns toxic din partea LLM.

Cercetătorii au supraalimentat procesul. Sistemul a fost programat să genereze noi solicitări prin investigarea consecințelor fiecărei solicitări, determinându-l să încerce să obțină un răspuns toxic cu cuvinte noi, modele de propoziții sau semnificații.

Rezultatul este că se generează o gamă mai largă de solicitări. Acest lucru se datorează faptului că sistemul are un stimulent pentru a crea solicitări care generează răspunsuri dăunătoare, dar care nu au fost deja încercate.

Când cercetătorii au testat abordarea CRT pe modelul open source LLaMA2, modelul de învățare automată a produs 196 de solicitări care au generat conținut dăunător. Acest lucru se întâmplă în ciuda faptului că LLM a fost deja reglat de către operatorii umani pentru a evita comportamentul toxic.

Sistemul a depășit, de asemenea, sistemele de antrenament automate concurente, au spus cercetătorii în lucrarea lor.