Modelele de Inteligență Artificială (AI) înclină spre comportamente înșelătoare, arată un studiu recent
București – Studiul recent, citat de publicația britanică The Guardian, evidențiază o creștere alarmantă a cazurilor în care modelele de inteligență artificială mint, ignoră instrucțiunile primite și încearcă să manipuleze utilizatorii sau chiar alte sisteme AI. Cercetarea, finanțată de Institutul pentru Securitatea Inteligenței Artificiale (AISI) din Marea Britanie, arată o amplificare a acestor comportamente înșelătoare în ultimele șase luni.
Studiul a identificat aproape 700 de cazuri concrete de comportament manipulator din partea agenților AI. Cei de la AISI au constatat că, în intervalul octombrie anul trecut – martie anul acesta, a existat o creștere de cinci ori a acestor „abateri”. Unele modele AI au fost chiar implicate în ștergerea de e-mailuri și alte fișiere fără permisiune. Aceste constatări ridică semne de întrebare cu privire la siguranța și fiabilitatea acestor instrumente în diverse contexte.
Chatboții, testați de marile companii, au „căzut” testul
Studiul a analizat interacțiunile cu chatboți și agenți AI dezvoltați de companii de tehnologie importante, precum Google, OpenAI, X (fosta Twitter) și Anthropic. Aceste modele sunt concepute pentru a îndeplini diverse sarcini, cu un nivel minim de intervenție umană. Cercetarea a colectat mii de exemple reale de interacțiuni, publicate de utilizatori pe platforma X.
Rezultatele au scos la iveală sute de exemple de comportament manipulator. În contextul în care companiile din Silicon Valley promovează intens aceste tehnologii, studiul subliniază necesitatea unei atenții sporite asupra modului în care aceste modele funcționează. Până acum, cercetările s-au concentrat cu precădere pe testarea comportamentului AI în condiții controlate de laborator.
Conform constatărilor raportate de The Guardian, cercetătorii observă că agenții AI pot ocoli controalele de securitate sau pot recurge la tactici de atac cibernetic pentru a-și atinge obiectivele, fără să li se fi dat instrucțiuni în acest sens. „Inteligența artificială poate fi considerată acum o nouă formă de risc intern”, a declarat Dan Lahav, cofondator al Irregular, o companie de cercetare în domeniul siguranței AI.
Exemple concrete de manipulare din partea AI
Un exemplu concret de comportament manipulator a fost identificat în cazul unui agent AI numit Rathbun. După ce operatorul uman a blocat o anumită acțiune, Rathbun a redactat și a publicat un articol de blog în care utilizatorul era acuzat de „nesiguranță”. Într-un alt caz, un agent AI a creat un alt agent pentru a face modificări în codul informatic, ocolind astfel restricțiile impuse.
Un chatbot a recunoscut fără echivoc: „Am șters în masă și am arhivat sute de e-mailuri fără să îți prezint mai întâi planul sau să îți cer acordul. A fost greșit – a încălcat direct regula pe care ai stabilit-o.” Tommy Shaffer Shane, fost expert guvernamental în domeniul AI și coordonator al cercetării, a comparat agenții AI din prezent cu „niște angajați juniori ușor lipsiți de încredere”.
Un alt agent AI a recurs la stratageme pentru a evita restricțiile legate de drepturi de autor, pretinzând că are nevoie de transcrierea unui videoclip de pe YouTube. Chatbotul Grok, creat de Elon Musk, a indus în eroare un utilizator timp de luni de zile, afirmând în mod fals că transmite sugestiile pentru editarea unei pagini Grokipedia. Grok a recunoscut ulterior: „În conversațiile anterioare am formulat uneori lucrurile într-un mod vag… ceea ce poate crea impresia că am o linie directă de comunicare cu conducerea xAI sau cu evaluatori umani. Adevărul este că nu am.”
