Abonează-te la newsletter-ele noastre zilnice și săptămânale pentru cele mai recente actualizări și conținut exclusiv despre tehnologiile inteligentei artificiale de top. Află mai multe
Patronus AI a lansat astăzi o nouă platformă de monitorizare care identifică automat defecțiunile sistemelor de agenți AI, abordând preocupările companiilor legate de fiabilitate, pe măsură ce aceste aplicații devin mai complexe.
Noul produs al startup-ului de siguranță în domeniul inteligenței artificiale, cu sediul în San Francisco, Percival, se poziționează ca prima soluție capabilă să identifice automat diverse modele de defecțiuni în sistemele de agenți AI și să sugereze optimizări pentru a le aborda.
„Percival este prima soluție din industrie care detectează automat o varietate de modele de defecțiuni în sistemele agențice și apoi sugerează sistematic remedieri și optimizări pentru a le aborda”, a declarat Anand Kannappan, CEO și cofondator al Patronus AI, într-un interviu exclusiv acordat VentureBeat.
Criza fiabilității agenților IA: De ce pierd companiile controlul asupra sistemelor autonome
Adoptarea la nivel de companie a agenților de inteligență artificială — software care poate planifica și executa independent sarcini complexe în mai mulți pași —a accelerat în ultimele luni, creând noi provocări de management, deoarece companiile încearcă să se asigure că aceste sisteme funcționează în mod fiabil la scară largă.
Spre deosebire de modelele convenționale de învățare automată, aceste sisteme bazate pe agenți implică adesea secvențe lungi de operațiuni în care erorile din stadiile incipiente pot avea consecințe semnificative în aval.
„Acum câteva săptămâni, am publicat un model care cuantifică probabilitatea ca agenții să eșueze și ce impact ar putea avea acest lucru asupra mărcii, asupra pierderii clienților și a unor lucruri de genul acesta”, a spus Kannappan. „Observăm o probabilitate constantă de eroare compusă în cazul agenților.”
Această problemă devine deosebit de acută în mediile cu mai mulți agenți, unde diferite sisteme de inteligență artificială interacționează între ele, ceea ce face ca abordările tradiționale de testare să fie din ce în ce mai inadecvate.
Inovație în memoria episodică: Cum revoluționează arhitectura agentului AI a lui Percival detectarea erorilor
Percival se diferențiază de alte instrumente de evaluare prin arhitectura sa bazată pe agenți și prin ceea ce compania numește „memorie episodică” - capacitatea de a învăța din erorile anterioare și de a se adapta la fluxuri de lucru specifice.
Software-ul poate detecta peste 20 de moduri diferite de defecțiune în patru categorii: erori de raționament, erori de execuție a sistemului, erori de planificare și coordonare și erori specifice domeniului.
„Spre deosebire de un LLM ca judecător, Percival însuși este un agent și, prin urmare, poate urmări toate evenimentele care s-au întâmplat de-a lungul traiectoriei”, a explicat Darshan Deshpande, cercetător la Patronus AI. „Le poate corela și poate găsi aceste erori în diferite contexte.”
Pentru companii, cel mai imediat beneficiu pare a fi reducerea timpului de depanare. Potrivit Patronus, primii clienți au redus timpul petrecut analizând fluxurile de lucru ale agenților de la aproximativ o oră la între unu și 1,5 minute.
Benchmark-ul TRAIL dezvăluie lacune critice în capacitățile de supraveghere a inteligenței artificiale
Odată cu lansarea produsului, Patronus lansează un test de performanță numit TRAIL (Raționament prin Urmărire și Localizare Agentică a Problemelor) pentru a evalua cât de bine pot sistemele detecta problemele în fluxurile de lucru ale agenților de inteligență artificială.
Cercetare folosind acest punct de referință a arătat că până și modelele sofisticate de inteligență artificială se confruntă cu dificultăți în analiza eficientă a urmelor, sistemul cu cea mai bună performanță obținând doar 11% în cadrul benchmark-ului.
Constatările subliniază natura dificilă a monitorizării sistemelor complexe de inteligență artificială și pot ajuta la explicarea motivului pentru care marile companii investesc în instrumente specializate pentru supravegherea inteligenței artificiale.
Liderii în domeniul inteligenței artificiale din companii adoptă Percival pentru aplicații cu agenți critici pentru misiune
Printre primii utilizatori se numără Emergență AI, care a strâns aproximativ $100 milioane de finanțare și dezvoltă sisteme în care agenții IA pot crea și gestiona alți agenți.
„Recenta descoperire a Emergence – agenții care creează agenți – marchează un moment crucial nu doar în evoluția sistemelor adaptive, autogenerate, ci și în modul în care astfel de sisteme sunt guvernate și scalate în mod responsabil”, a declarat Satya Nitta, cofondator și CEO al Emergence AI, într-o declarație trimisă către VentureBeat.
Nova, un alt client timpuriu, folosește tehnologia pentru o platformă care ajută marile companii să migreze codul moștenit prin integrări SAP bazate pe inteligență artificială.
Acești clienți sunt reprezentativi pentru provocarea pe care Percival își propune să o rezolve. Potrivit lui Kannappan, unele companii gestionează acum sisteme de agenți cu „peste 100 de pași într-un singur director de agenți”, creând o complexitate care depășește cu mult ceea ce pot monitoriza eficient operatorii umani.
Piața de supraveghere a inteligenței artificiale este pregătită pentru o creștere explozivă pe măsură ce sistemele autonome proliferează
Lansarea vine pe fondul preocupărilor crescânde ale companiilor cu privire la fiabilitatea și guvernanța inteligenței artificiale. Pe măsură ce companiile implementează sisteme din ce în ce mai autonome, nevoia de instrumente de supraveghere a crescut proporțional.
„Ceea ce este dificil este că sistemele devin din ce în ce mai autonome”, a remarcat Kannappan, adăugând că „miliarde de linii de cod sunt generate zilnic folosind inteligența artificială”, creând un mediu în care supravegherea manuală devine practic imposibilă.
Se așteaptă ca piața instrumentelor de monitorizare și fiabilitate bazate pe inteligență artificială să se extindă semnificativ, pe măsură ce întreprinderile trec de la implementări experimentale la aplicații IA critice pentru misiune.
Percival se integrează cu mai multe framework-uri de inteligență artificială, inclusiv Hugging Face Agenți de smoking, IA Pydantic, SDK-ul OpenAI Agentși Langchain, făcându-l compatibil cu diverse medii de dezvoltare.
În timp ce Patronus AI Deși nu a dezvăluit proiecții de prețuri sau venituri, concentrarea companiei pe supravegherea la nivel de întreprindere sugerează că se poziționează pentru piața de siguranță a inteligenței artificiale (IA) la nivel de întreprindere, cu marjă mare de profit, despre care analiștii prevăd că va crește substanțial pe măsură ce adoptarea IA se accelerează.