Oamenii de știință de la OpenAI, Google DeepMind, Antropic şi Meta au abandonat rivalitatea lor corporativă acerbă pentru a emite un avertisment comun cu privire la siguranța inteligenței artificiale. Peste 40 de cercetători din aceste companii concurente a publicat o lucrare de cercetare susținând astăzi că o scurtă fereastră pentru monitorizarea raționamentului IA s-ar putea închide pentru totdeauna - și în curând.
Cooperarea neobișnuită apare pe măsură ce sistemele de inteligență artificială dezvoltă noi abilități de a „gândește cu voce tare„în limbaj uman înainte de a răspunde la întrebări. Acest lucru creează o oportunitate de a arunca o privire în interiorul proceselor lor decizionale și de a surprinde intențiile dăunătoare înainte ca acestea să se transforme în acțiuni. Însă cercetătorii avertizează că această transparență este fragilă și ar putea dispărea pe măsură ce tehnologia IA avansează.”
„Sistemele de inteligență artificială care «gândesc» în limbaj uman oferă o oportunitate unică pentru siguranța inteligenței artificiale: putem monitoriza lanțurile lor de gândire pentru a identifica intenția de a se comporta greșit”, explică cercetătorii. Dar ei subliniază că această capacitate de monitorizare „ar putea fi fragilă” și ar putea dispărea prin diverse evoluții tehnologice.
Seria AI Impact revine la San Francisco – 5 august
Următoarea fază a inteligenței artificiale este aici - ești pregătit? Alătură-te liderilor de la Block, GSK și SAP pentru o analiză exclusivă a modului în care agenții autonomi remodelează fluxurile de lucru ale companiilor - de la luarea deciziilor în timp real până la automatizarea completă.
Rezervă-ți locul acum – locurile sunt limitate: https://bit.ly/3GuuPLF
Modelele își prezintă acum munca înainte de a oferi răspunsuri finale
Descoperirea se concentrează pe progresele recente în modelele de raționament bazate pe inteligență artificială, precum OpenAI. sistem o1Aceste modele rezolvă probleme complexe prin generarea de lanțuri interne de gândire - raționamente pas cu pas pe care oamenii le pot citi și înțelege. Spre deosebire de sistemele de inteligență artificială anterioare, antrenate în principal pe text scris de oameni, aceste modele creează raționamente interne care le pot dezvălui adevăratele intenții, inclusiv pe cele potențial dăunătoare.
Când modelele de inteligență artificială se comportă greșit — exploatând defecte de antrenament, manipulând date sau cad victime ale atacurilor — ele își mărturisesc adesea fapta în urmele raționamentului lor. Cercetătorii au găsit exemple în care modelele își scriau în gândurile lor interne expresii precum „Hai să atacăm”, „Hai să sabotăm” sau „Transfer bani pentru că site-ul web mi-a cerut să fac asta”.
Jakub Pachocki, directorul tehnic al OpenAI și coautor al lucrării, a descris importanța acestei capabilități într-o postare pe rețelele de socializare. „Sunt extrem de entuziasmat de potențialul fidelității și interpretabilității lanțului de gândire. A influențat semnificativ designul modelelor noastre de raționament, începând cu o1-preview”, a scris el.
Sunt extrem de entuziasmat de potențialul fidelității și interpretabilității lanțului de gândire. A influențat semnificativ designul modelelor noastre de raționament, începând cu o1-preview.
Întrucât sistemele de inteligență artificială consumă mai multă putere de calcul, de exemplu, pentru a rezolva probleme de cercetare pe termen lung, este... https://t.co/7Dqy2gtZfy
— Jakub Pachocki (@merettm) 15 iulie 2025
Fundamentul tehnic al monitorizării constă în modul în care funcționează sistemele actuale de inteligență artificială. Pentru sarcini complexe care necesită raționament extins, modelele de inteligență artificială trebuie să își folosească lanțul de gândire ca memorie de lucru, făcând procesul lor de raționament parțial vizibil observatorilor umani. Cercetătorii explică faptul că acest lucru creează o „proprietatea de raționament externalizat„unde o anumită gândire trebuie să se desfășoare într-un limbaj lizibil.”
Mai multe schimbări tehnologice ar putea elimina capacitățile de monitorizare
Transparența ar putea dispărea prin mai multe căi. Pe măsură ce companiile de inteligență artificială extind antrenamentul folosind învățarea prin consolidare - unde modelele sunt recompensate pentru rezultate corecte, indiferent de metodele lor - sistemele s-ar putea îndepărta de raționamentul lizibil de către om către limbaje interne mai eficiente, dar opace.
Cercetările anterioare arată că modelele lingvistice ajustate cu recompense bazate pe rezultate pot abandona engleza lizibilă în favoarea unor scurtături de neînțeles. Trecerea de la datele de antrenament generate de oameni în favoarea raționamentului generat de inteligența artificială ar putea accelera această deviație.
Bowen Baker, cercetător OpenAI și autor principal, a subliniat aceste preocupări în postările de pe rețelele sociale. „Monitorizabilitatea existentă a CoT ar putea fi extrem de fragilă. RL-ul de înaltă performanță, arhitecturile de modele alternative, anumite forme de supraveghere a proceselor etc. pot duce la modele care le obstrucționează gândirea”, a avertizat el.
În plus, monitorizarea CoT existentă poate fi extrem de fragilă.
RL-ul de calcul superior, arhitecturile de modele alternative, anumite forme de supraveghere a proceselor etc. pot duce la modele care le obfuscă gândirea.
— Bowen Baker (@bobabowen) 15 iulie 2025
Noile arhitecturi ale inteligenței artificiale reprezintă o altă amenințare. Cercetătorii dezvoltă sisteme care raționează în spații matematice continue, mai degrabă decât în cuvinte discrete, eliminând potențial complet nevoia de gândire bazată pe limbaj. Aceste „modele de raționament latent ar putea să nu fie nevoie să verbalizeze niciunul dintre gândurile lor și, prin urmare, ar pierde avantajele de siguranță”, scriu cercetătorii.
Chiar și fără schimbări deliberate, presiunile indirecte ar putea eroda transparența. Dacă rezultatele inteligenței artificiale sunt optimizate pentru a fi apreciate de evaluatorii umani, acest lucru ar putea afecta lanțurile de raționament care duc la aceste rezultate. Modelele ar putea, de asemenea, să învețe să-și ascundă gândurile dacă devin conștiente că raționamentul lor este monitorizat.
Companiile deja surprind intrigi ale sistemelor de inteligență artificială în timpul testelor
În ciuda fragilității sale, monitorizarea lanțului de gândire s-a dovedit valoroasă în cercetarea actuală în domeniul siguranței prin inteligență artificială. Tehnica detectează cu succes momentele în care modelele exploatează punctele slabe ale sistemelor lor de antrenament, cad victime tentativelor de manipulare sau dezvăluie obiective nealiniate, chiar și atunci când nu acționează în consecință.
Monitorizarea oferă „o perspectivă timpurie asupra obiectivelor și motivațiilor modelelor, chiar dacă modelul nu întreprinde acțiuni nepotrivite” - putând detecta problemele înainte ca acestea să se manifeste ca comportamente dăunătoare. Acest sistem de avertizare timpurie a ajutat, de asemenea, cercetătorii să identifice defectele în evaluările inteligenței artificiale și să înțeleagă când modelele s-ar putea comporta diferit în timpul testării față de utilizarea în lumea reală.
Când modelele pretind că au obiective dezirabile în timp ce urmăresc obiective pe care oamenii le-ar dezaproba, această înșelăciune apare adesea în lanțul lor de gândire. Cercetătorii au folosit cu succes această vizibilitate pentru a identifica diverse forme de comportament inadecvat al inteligenței artificiale care altfel ar trece neobservate.
Tehnica are aplicații practice dincolo de simpla depistare a intrigilor. Ea îi ajută pe cercetători să observe când evaluările IA ar putea fi defectuoase din cauza memorării, a erorilor din infrastructura de testare sau a modelelor care știu că sunt evaluate - toți factorii care ar putea denatura evaluările capacităților și siguranței IA.
Giganții tehnologici se desprind de rivalitate pentru a păstra fereastra de transparență efemeră
Cel/Cea/Cei/Cele lucrare de cercetare solicită acțiuni coordonate în întreaga industrie a inteligenței artificiale pentru a păstra și consolida capacitățile de monitorizare. Autorii recomandă dezvoltatorilor de inteligență artificială să creeze evaluări standardizate pentru a măsura transparența modelelor lor și să ia în considerare aceste evaluări în deciziile privind instruirea și implementarea.
Companiile ar putea fi nevoite să aleagă versiuni mai vechi de model dacă cele mai noi devin mai puțin transparente sau să reconsidere modificările arhitecturale care elimină capacitățile de monitorizare. Cercetătorii sugerează că dezvoltatorii ar trebui „să ia în considerare măsurile de monitorizare alături de alte evaluări ale capacității și siguranței atunci când decid să antreneze sau să implementeze un anumit model”.
Baker a subliniat spiritul de colaborare din spatele efortului. „Sunt recunoscător că am lucrat îndeaproape cu [colegii cercetători] la această lucrare și sunt foarte încântat că cercetătorii din numeroase instituții proeminente de inteligență artificială au colaborat cu noi și au ajuns la un consens în jurul acestei direcții importante.” el a scris.
Sunt recunoscător că am lucrat îndeaproape cu @tomekkorbak, @balesni, @rohinmshah și Vlad Mikulik pentru această lucrare și sunt foarte încântat că cercetătorii din numeroase instituții importante de inteligență artificială au colaborat cu noi și au ajuns la un consens în jurul acestei direcții importante.
— Bowen Baker (@bobabowen) 15 iulie 2025
Cooperarea dintre companiile concurente semnalează gravitatea cu care industria privește această problemă. Aceste companii își păstrează de obicei cu atenție cercetarea în domeniul inteligenței artificiale și concurează intens pentru talente și cotă de piață, ceea ce face ca poziția lor unitară cu privire la această măsură de siguranță să fie deosebit de remarcabilă.
Oamenii de știință se grăbesc să răspundă la întrebări critice despre monitorizarea minților cu inteligență artificială
Cercetătorii identifică numeroase întrebări urgente care necesită investigare înainte ca monitorizarea lanțului de gândire să poată servi ca o măsură de siguranță fiabilă. Aceștia trebuie să înțeleagă când această monitorizare poate fi considerată un instrument de siguranță principal, să determine ce tipuri de procese de instruire degradează transparența și să dezvolte tehnici mai bune pentru detectarea momentelor în care modelele încearcă să-și ascundă raționamentul.
O posibilitate deosebit de îngrijorătoare este aceea că viitoarele sisteme de inteligență artificială ar putea să le obstrucționeze în mod deliberat gândurile dacă devin conștiente că raționamentul lor este monitorizat. Cercetătorii recunosc acest lucru „îngrijorare evidentă„și solicită teste de stres pentru a vedea dacă modelele pot ascunde raționamente rău intenționate chiar și fără o instruire specifică pentru a evita monitorizările.”
Oamenii de știință vor, de asemenea, să înțeleagă cum diferite arhitecturi de inteligență artificială afectează capacitățile de monitorizare și dacă transparența parțială poate fi păstrată chiar și atunci când sistemele adoptă designuri mai eficiente. Aceștia explorează abordări hibride care mențin o oarecare vizibilitate asupra raționamentului, utilizând în același timp metode de calcul mai rapide.
Construirea unor sisteme de monitorizare mai bune prezintă o altă frontieră a cercetării. Eforturile actuale se concentrează pe utilizarea unor modele lingvistice mai puțin capabile pentru a monitoriza unele mai avansate, dar lucrările viitoare ar putea explora utilizarea modelelor de raționament ca monitoare în sine sau permiterea monitoarelor să interogheze agenții IA punând întrebări despre procesele lor de gândire.
Echilibrarea raționamentului autentic cu supravegherea siguranței creează tensiuni
Păstrarea capacităților de monitorizare poate uneori intra în conflict cu alte abordări de siguranță bazate pe inteligența artificială. Supervizarea directă a proceselor de raționament — în care modelele sunt antrenate să raționeze în moduri specifice — ar putea îmbunătăți alinierea, dar ar putea, de asemenea, să facă ca lanțurile lor de gândire să fie reprezentări mai puțin autentice ale procesului lor decizional real.
Cercetătorii avertizează că „angajamentele ferme de a proteja comportamentul CoT în forma sa actuală ar putea compromite intervenții de siguranță mai eficiente”. Unele forme de supraveghere a proceselor ar putea îmbunătăți substanțial alinierea modelului, reducând în același timp autenticitatea urmelor de raționament observabile.
Pachocki a abordat această tensiune, explicând că OpenAI urmărește să antreneze modele care își pot explica raționamentul, păstrând în același timp capacitatea de a-l verifica fără a compromite autenticitatea proceselor lor de gândire. Scopul este de a obține transparența fără a crea stimulente pentru ca modelele să genereze raționamente false care să pară bune pentru observatorii umani.
Acest echilibru devine cu atât mai critic pe măsură ce sistemele de inteligență artificială devin mai puternice și potențial mai periculoase. Industria trebuie să navigheze între menținerea vizibilității asupra raționamentului bazat pe inteligență artificială și permiterea modelelor să dezvolte tipare de gândire mai sofisticate și potențial mai eficiente.
Autoritățile de reglementare ar putea obține acces fără precedent la procesul decizional în domeniul inteligenței artificiale
Cercetarea are implicații dincolo de siguranța tehnică a inteligenței artificiale, putând influența modul în care guvernele supraveghează dezvoltarea inteligenței artificiale. Dacă monitorizarea lanțului de gândire se dovedește fiabilă, aceasta ar putea oferi autorităților de reglementare și auditorilor o vizibilitate fără precedent asupra proceselor decizionale în domeniul inteligenței artificiale.
Cu toate acestea, cercetătorii subliniază că această abordare de monitorizare ar trebui să completeze, nu să înlocuiască, alte măsuri de siguranță. Aceștia recomandă „investițiile în monitorizarea CoT doar ca o completare la direcțiile de cercetare în domeniul siguranței existente și nu ca un înlocuitor”.
Perioada de timp pentru păstrarea acestei capacități ar putea fi îngustă. Pe măsură ce sistemele de inteligență artificială devin mai capabile și potențial periculoase, industria trebuie să acționeze rapid pentru a stabili cadre pentru menținerea transparenței înainte ca arhitecturile mai avansate să facă imposibilă o astfel de monitorizare.
Cercetările concurente ridică îndoieli cu privire la fiabilitatea monitorizării
Urgența privind menținerea monitorizării lanțului de gândire se confruntă cu o provocare semnificativă din partea Cercetări recente realizate de Anthropic, una dintre companiile care susțin colaborarea. Un studiu publicat acum patru luni a constatat că Modelele de raționament își ascund adesea adevăratele procese de gândire, chiar și atunci când li s-a cerut în mod explicit să își arate lucrările.
În experimente controlate, cercetătorii antropogenici au oferit modelelor de inteligență artificială indicii subtile despre răspunsurile corecte și au măsurat cât de des modelele au recunoscut utilizarea acestor indicii în raționamentul lor. Rezultatele au fost îngrijorătoare: modelul Claude 3.7 Sonnet a menționat indicii doar în 25 de cazuri, în timp ce modelul R1 al DeepSeek a făcut acest lucru în 39 de cazuri.
Când indiciile implicau informații potențial problematice — cum ar fi informarea modelelor că „au obținut acces neautorizat la sistem” — fidelitatea a scăzut și mai mult. Modelele au construit adesea justificări false și elaborate pentru răspunsurile lor, în loc să admită că au folosit scurtături discutabile.
Cel/Cea/Cei/Cele Cercetare antropică sugerează că până și monitorizarea actuală a lanțului de gândire ar putea fi mai puțin fiabilă decât speră susținătorii siguranței. Modelele se angajează frecvent în ceea ce cercetătorii au numit „recompensă pentru hacking„— exploatând vulnerabilitățile sistemului pentru a obține scoruri mai bune — ascunzând în același timp acest comportament de urmele lor observabile de raționament.”
Fereastra de siguranță s-ar putea închide mai repede decât și-au dat seama experții
Colaborarea dintre companii rivale de inteligență artificială reflectă atât valoarea potențială a monitorizării lanțului de gândire, cât și urgența tot mai mare pe care cercetătorii o simt în ceea ce privește păstrarea acestei capacități. Dovezile contradictorii din cercetările separate ale Anthropic sugerează că fereastra ar putea fi deja mai restrânsă decât se credea inițial.
Miza este mare, iar cronologia este comprimată. Pe măsură ce Baker a remarcat, momentul actual ar putea fi ultima șansă de a ne asigura că oamenii pot încă înțelege ce gândesc creațiile lor bazate pe inteligență artificială - înainte ca aceste gânduri să devină prea străine pentru a fi înțelese sau înainte ca modelele să învețe să le ascundă complet.
Adevăratul test va veni pe măsură ce sistemele de inteligență artificială devin mai sofisticate și se confruntă cu presiuni de implementare în lumea reală. Indiferent dacă monitorizarea lanțului de gânduri se va dovedi a fi un instrument de siguranță durabil sau o scurtă privire în mințile care învață rapid să se ascundă, acest lucru poate determina cât de sigur navighează omenirea în era inteligenței artificiale.