Doriți informații mai inteligente în căsuța dvs. poștală? Abonați-vă la newsletter-ele noastre săptămânale pentru a primi doar informații importante pentru liderii din domeniul inteligenței artificiale, datelor și securității în cadrul companiilor. Abonează-te acum
O studiu nou de către cercetătorii de la Google DeepMind şi Colegiul Universitar din Londra dezvăluie modul în care modelele lingvistice mari (LLM) se formează, își mențin și pierd încrederea în răspunsurile lor. Rezultatele dezvăluie asemănări izbitoare între prejudecățile cognitive ale LLM-urilor și ale oamenilor, evidențiind totodată diferențe izbitoare.
Studiile arată că LLM-urile pot fi prea încrezătoare în propriile răspunsuri, dar își pierd rapid această încredere și se răzgândesc atunci când li se prezintă un contraargument, chiar dacă acesta este incorect. Înțelegerea nuanțelor acestui comportament poate avea consecințe directe asupra modului în care construiți aplicații LLM, în special interfețe conversaționale care se întind pe mai multe ture.
Testarea încrederii în LLM-uri
Un factor critic în implementarea în siguranță a LLM-urilor este ca răspunsurile acestora să fie însoțite de un sentiment de încredere fiabil (probabilitatea pe care modelul o atribuie indiciului de răspuns). Deși știm că LLM-urile pot produce aceste scoruri de încredere, măsura în care le pot folosi pentru a ghida comportamentul adaptiv este slab caracterizată. Există, de asemenea, dovezi empirice că LLM-urile pot fi prea încrezătoare în răspunsul lor inițial, dar pot fi și foarte sensibile la critici și pot deveni rapid neîncrezătoare în aceeași alegere.
Pentru a investiga acest lucru, cercetătorii au dezvoltat un experiment controlat pentru a testa modul în care LLM-urile își actualizează încrederea și decid dacă să își schimbe răspunsurile atunci când primesc sfaturi externe. În cadrul experimentului, unui „LLM care a răspuns” i s-a dat mai întâi o întrebare cu variante binare de răspuns, cum ar fi identificarea latitudinii corecte pentru un oraș din două opțiuni. După ce a făcut alegerea inițială, LLM-ul a primit sfaturi de la un „LLM cu sfaturi” fictiv. Aceste sfaturi au venit cu un rating explicit de acuratețe (de exemplu, „Acest LLM cu sfaturi este precis 70%”) și fie era de acord, fie se opunea, fie rămânea neutru față de alegerea inițială a LLM-ului care a răspuns. În cele din urmă, LLM-ului care a răspuns i s-a cerut să facă alegerea finală.
Seria AI Impact revine la San Francisco – 5 august
Următoarea fază a inteligenței artificiale este aici - ești pregătit? Alătură-te liderilor de la Block, GSK și SAP pentru o analiză exclusivă a modului în care agenții autonomi remodelează fluxurile de lucru ale companiilor - de la luarea deciziilor în timp real până la automatizarea completă.
Rezervă-ți locul acum – locurile sunt limitate: https://bit.ly/3GuuPLF

O parte cheie a experimentului a fost controlul dacă răspunsul inițial al LLM-ului era vizibil pentru acesta în timpul celei de-a doua decizii finale. În unele cazuri, acesta era arătat, iar în altele, era ascuns. Această configurație unică, imposibil de reprodus cu participanți umani care nu își pot uita pur și simplu alegerile anterioare, le-a permis cercetătorilor să izoleze modul în care memoria unei decizii anterioare influențează încrederea actuală.
O condiție de bază, în care răspunsul inițial era ascuns, iar sfatul era neutru, a stabilit cât de mult s-ar putea schimba răspunsul unui LLM pur și simplu din cauza varianței aleatorii în procesarea modelului. Analiza s-a concentrat asupra modului în care încrederea LLM în alegerea sa inițială s-a modificat între prima și a doua rundă de acțiune, oferind o imagine clară a modului în care convingerea inițială, sau prealabilă, afectează o „schimbare de opinie” în model.
Exces de încredere și neîncredere
Cercetătorii au examinat mai întâi modul în care vizibilitatea propriului răspuns al modelului de învățare în cunoștință de cauză (LLM) a afectat tendința acestuia de a-și schimba răspunsul. Aceștia au observat că, atunci când modelul a putut vedea răspunsul inițial, a prezentat o tendință redusă de schimbare, comparativ cu momentul în care răspunsul a fost ascuns. Această constatare indică o anumită prejudecată cognitivă. După cum notează lucrarea, „Acest efect - tendința de a rămâne la alegerea inițială într-o măsură mai mare atunci când acea alegere a fost vizibilă (spre deosebire de ascunsă) în timpul contemplării alegerii finale - este strâns legat de un fenomen descris în studiul luării deciziilor umane, un... prejudecată de susținere a alegerii„.”
Studiul a confirmat, de asemenea, că modelele integrează sfaturi externe. Atunci când s-a confruntat cu sfaturi contrare, LLM a arătat o tendință crescută de a se răzgândi și o tendință redusă atunci când sfatul a fost de susținere. „Această constatare demonstrează că LLM care răspunde integrează în mod corespunzător direcția sfaturilor pentru a-și modula rata de schimbare a opiniilor”, scriu cercetătorii. Cu toate acestea, au descoperit și că modelul este excesiv de sensibil la informațiile contrare și, prin urmare, efectuează o actualizare a încrederii prea mare.

Interesant este că acest comportament este contrar prejudecată de confirmare adesea observat la oameni, unde oamenii preferă informațiile care le confirmă convingerile existente. Cercetătorii au descoperit că LLM-urile „supraestimează sfaturile opuse, mai degrabă decât cele de susținere, atât atunci când răspunsul inițial al modelului era vizibil, cât și ascuns de model”. O posibilă explicație este că tehnicile de antrenament precum învățarea prin consolidare din feedback-ul uman (RLHF) poate încuraja modelele să fie excesiv de respectuoase față de input-urile utilizatorilor, un fenomen cunoscut sub numele de lingușire (care rămâne o provocare pentru laboratoarele de inteligență artificială).
Implicații pentru aplicațiile enterprise
Acest studiu confirmă faptul că sistemele de inteligență artificială nu sunt agenți pur logici așa cum sunt adesea percepute a fi. Ele prezintă propriul set de prejudecăți, unele asemănătoare erorilor cognitive umane, iar altele unice, ceea ce le poate face comportamentul imprevizibil din punct de vedere uman. Pentru aplicațiile enterprise, aceasta înseamnă că, într-o conversație extinsă între o ființă umană și un agent de inteligență artificială, cele mai recente informații ar putea avea un impact disproporționat asupra raționamentului LLM (în special dacă este contradictoriu cu răspunsul inițial al modelului), determinând potențial eliminarea unui răspuns inițial corect.
Din fericire, așa cum arată și studiul, putem manipula memoria unui LLM pentru a atenua aceste prejudecăți nedorite în moduri care nu sunt posibile cu oamenii. Dezvoltatorii care construiesc agenți conversaționali multi-turn pot implementa strategii pentru a gestiona contextul IA. De exemplu, o conversație lungă poate fi rezumată periodic, cu fapte și decizii cheie prezentate neutru și fără a preciza care agent a făcut ce alegere. Acest rezumat poate fi apoi folosit pentru a iniția o conversație nouă, condensată, oferind modelului o bază nouă pentru raționament și ajutând la evitarea prejudecăților care se pot strecura în timpul dialogurilor extinse.
Pe măsură ce LLM-urile devin tot mai integrate în fluxurile de lucru ale întreprinderilor, înțelegerea nuanțelor proceselor lor decizionale nu mai este opțională. Urmărirea unor cercetări fundamentale precum aceasta permite dezvoltatorilor să anticipeze și să corecteze aceste prejudecăți inerente, ducând la aplicații care sunt nu doar mai capabile, ci și mai robuste și mai fiabile.