Abonează-te la newsletter-ele noastre zilnice și săptămânale pentru cele mai recente actualizări și conținut exclusiv despre tehnologiile inteligentei artificiale de top. Află mai multe
GoogleNoul joc AlphaEvolve de la Game of Thrones arată ce se întâmplă când un agent de inteligență artificială trece de la demonstrații în laborator la muncă în producție, iar acesta este condus de una dintre cele mai talentate companii de tehnologie.
Construit de DeepMind de la Google, sistemul rescrie autonom codul critic și se amortizează deja în cadrul Google. a doborât un record vechi de 56 de ani în multiplicarea matricelor (nucleul multor sarcini de lucru de învățare automată) şi a recuperat 0,7% de capacitate de calcul în centrele de date globale ale companiei.
Aceste realizări importante contează, dar lecția mai profundă pentru liderii din domeniul tehnologiei întreprinderilor este Cum AlphaEvolve reușește să le aplice. Arhitectura sa – controler, modele cu schiță rapidă, modele de gândire profundă, evaluatori automatizați și memorie versionată – ilustrează tipul de instalații sanitare de nivel de producție care fac ca agenții autonomi să fie siguri pentru implementarea la scară largă.
Tehnologia AI a Google este probabil de neegalatDeci, secretul este să ne dăm seama cum să învățăm din el sau chiar să-l folosim direct. Google spune că un Program de Acces Timpuriu este partenerii academici și că „o disponibilitate mai larg㔄Se explorează, dar detaliile sunt puține. Până atunci, AlphaEvolve este un șablon de bune practici: dacă doriți agenți care să gestioneze sarcini de lucru de mare valoare, veți avea nevoie de o orchestrare, testare și măsuri de protecție comparabile.”
Luați în considerare doar câștig de centru de date. Google nu va pune un preț pe 0,7% recuperat, dar cheltuielile sale anuale de capital se înregistrează zeci de miliarde de dolariChiar și o estimare aproximativă estimează economiile la sute de milioane anual—suficient, așa cum a remarcat dezvoltatorul independent Sam Witteveen în recenta noastră podcast, pentru a plăti instruirea unuia dintre modelele emblematice Gemini, estimat la un cost de peste $191 milioane pentru o versiune precum Gemini Ultra.
VentureBeat a fost primul care a raport despre știrile AlphaEvolve la începutul acestei săptămâni. Acum vom intra în mai multe detalii: cum funcționează sistemul, unde se situează cu adevărat ștacheta inginerească și pașii concreți pe care întreprinderile îi pot face pentru a construi (sau cumpăra) ceva comparabil.
1. Dincolo de scripturile simple: Ascensiunea „sistemului de operare cu agent”
AlphaEvolve rulează pe ceea ce poate fi descris cel mai bine ca un sistem de operare cu agent – o conductă distribuită, asincronă, construită pentru îmbunătățirea continuă la scară largă. Componentele sale principale sunt un controler, o pereche de modele lingvistice mari (Gemini Flash pentru amploare; Gemini Pro pentru profunzime), o bază de date cu memorie de program versionată și o flotă de evaluatori, toate optimizate pentru un randament ridicat, nu doar pentru o latență redusă.

Această arhitectură nu este nouă din punct de vedere conceptual, dar execuția este. „Este pur și simplu o execuție incredibil de bună”, spune Witteveen.
AlphaEvolve hârtie descrie orchestratorul ca fiind un „algoritm evolutiv care dezvoltă treptat programe ce îmbunătățesc scorul obținut la indicatorii de evaluare automată” (p. 3); pe scurt, un „conductă autonomă de LLM-uri a căror sarcină este de a îmbunătăți un algoritm prin efectuarea de modificări directe la cod” (p. 1).
Concluzie pentru întreprinderi: Dacă planurile agentului dvs. includ rulări nesupravegheate ale sarcinilor cu valoare ridicată, planificați o infrastructură similară: cozi de joburi, un depozit de memorie versionat, urmărirea service-mesh și sandboxing securizat pentru orice cod produs de agent.
2. Motorul evaluatorului: impulsionarea progresului cu feedback automat și obiectiv
Un element cheie al AlphaEvolve este cadrul său riguros de evaluare. Fiecare iterație propusă de perechea de LLM-uri este acceptată sau respinsă pe baza unei funcții „evaluate” furnizate de utilizator, care returnează metrici evaluabile de mașină. Acest sistem de evaluare începe cu verificări ultrarapide ale testelor unitare pentru fiecare modificare de cod propusă - teste simple, automate (similare cu cele pe care dezvoltatorii le scriu deja) care verifică dacă fragmentul de cod se compilează în continuare și produce răspunsurile corecte la o serie de micro-intrări - înainte de a trece supraviețuitorii către teste de referință mai complexe și recenzii generate de LLM. Acest lucru se desfășoară în paralel, astfel încât căutarea rămâne rapidă și sigură.
Pe scurt: Lăsați modelele să sugereze soluții, apoi verificați fiecare în funcție de testele în care aveți încredere. AlphaEvolve acceptă, de asemenea, optimizarea multi-obiectiv (optimizarea latenței şi (precizie simultană), programe în evoluție care ating mai multe valori simultan. În mod contraintuitiv, echilibrarea mai multor obiective poate îmbunătăți o singură valoare țintă prin încurajarea unor soluții mai diverse.
Concluzie pentru întreprinderi: Agenții de producție au nevoie de evaluatori determiniști. Fie că este vorba de teste unitare, simulatoare complete sau analize de trafic Canary. Evaluatorii automati sunt atât plasa de siguranță, cât și motorul creșterii. Înainte de a lansa un proiect agentic, întrebați-vă: „Avem o metrică în funcție de care agentul se poate evalua singur?”
3. Utilizarea inteligentă a modelului, rafinarea iterativă a codului
AlphaEvolve abordează fiecare problemă de codare într-un ritm bazat pe două modele. Mai întâi, Gemini Flash lansează schițe rapide, oferind sistemului un set larg de idei de explorat. Apoi, Gemini Pro studiază aceste schițe mai în profunzime și returnează un set mai mic de candidați mai puternici. Ambele modele sunt alimentate de un „constructor de prompturi” ușor, un script auxiliar care asamblează întrebarea pe care o vede fiecare model. Acesta combină trei tipuri de context: încercări de cod anterioare salvate într-o bază de date a proiectului, orice bariere sau reguli scrise de echipa de ingineri și materiale externe relevante, cum ar fi lucrări de cercetare sau notițe de dezvoltare. Cu acest fundal mai bogat, Gemini Flash poate explora pe scară largă, în timp ce Gemini Pro se concentrează pe calitate.
Spre deosebire de multe demonstrații de agenți care modifică câte o funcție pe rând, AlphaEvolve editează repozitorii întregi. Descrie fiecare modificare ca un bloc standard de diferențe – același format de patch pe care inginerii îl trimit pe GitHub – astfel încât poate atinge zeci de fișiere fără a pierde din vedere. Ulterior, testele automate decid dacă patch-ul rămâne valabil. De-a lungul ciclurilor repetate, memoria de succes și eșec a agentului crește, astfel încât propune patch-uri mai bune și irosește mai puțină energie de calcul pe fundături.
Concluzie pentru întreprinderi: Permiteți modelelor mai ieftine și mai rapide să se ocupe de brainstorming, apoi apelați la un model mai capabil pentru a rafina cele mai bune idei. Păstrați fiecare încercare într-un istoric cu funcție de căutare, deoarece acea memorie accelerează munca ulterioară și poate fi reutilizată în mai multe echipe. În consecință, furnizorii se grăbesc să ofere dezvoltatorilor noi instrumente pentru lucruri precum memoria. Produse precum OpenMemory MCP, care oferă o memorie portabilă și noi API-uri pentru memorie pe termen lung și scurt în LlamaIndex fac ca acest tip de context persistent să fie aproape la fel de ușor de conectat ca și înregistrarea în jurnal.
Agentul de inginerie software Codex-1 de la OpenAI, lansat tot astăzi, subliniază același model. Acesta declanșează sarcini paralele într-un sandbox securizat, rulează teste unitare și returnează versiuni preliminare de tip pull-request - practic un ecou specific codului al buclei mai largi de căutare și evaluare a AlphaEvolve.
4. Măsuri de gestionat: direcționarea inteligenței artificiale agențice pentru un ROI demonstrabil
Câștigurile tangibile ale AlphaEvolve – recuperarea a 0,7% din capacitatea centrului de date, reducerea timpului de execuție al kernelului de antrenament Gemini 23%, accelerarea FlashAttention 32% și simplificarea designului TPU – au o trăsătură comună: vizează domeniile cu metrici precise.
Pentru programarea centrelor de date, AlphaEvolve a dezvoltat o euristică care a fost evaluată folosind un simulator al centrelor de date Google, bazat pe sarcini de lucru istorice. Pentru optimizarea kernelului, obiectivul a fost de a minimiza timpul de execuție real pe acceleratoarele TPU pe un set de date cu forme de intrare realiste ale kernelului.
Concluzie pentru întreprinderi: Când începeți călătoria către inteligența artificială agentială, analizați mai întâi fluxurile de lucru în care „mai bun” este un număr cuantificabil pe care sistemul dvs. îl poate calcula - fie că este vorba de latență, cost, rată de eroare sau randament. Această concentrare permite căutarea automată și reduce riscurile implementării, deoarece rezultatul agentului (adesea cod lizibil de om, ca în cazul AlphaEvolve) poate fi integrat în canalele de revizuire și validare existente.
Această claritate permite agentului să se autoperfecționeze și să demonstreze o valoare lipsită de ambiguitate.
5. Punerea bazelor: premise esențiale pentru succesul agenției întreprinderii
Deși realizările AlphaEvolve sunt inspiratoare, documentul Google este clar și în ceea ce privește domeniul de aplicare și cerințele sale.
Principala limitare este necesitatea unui evaluator automat; problemele care necesită experimentare manuală sau feedback „de laborator umed” nu sunt în prezent accesibile acestei abordări specifice. Sistemul poate consuma o cantitate semnificativă de calcul – „de ordinul a 100 de ore de calcul pentru a evalua orice soluție nouă” (lucrare AlphaEvolve, pagina 8), necesitând paralelizare și o planificare atentă a capacității.
Înainte de a aloca un buget semnificativ sistemelor agențice complexe, liderii tehnici trebuie să pună întrebări critice:
- Problemă gradabilă la mașină? Avem o metrică clară, automatizabilă, în funcție de care agentul își poate evalua propria performanță?
- Capacitate de calcul? Ne putem permite bucla internă de generare, evaluare și rafinare, potențial complexă din punct de vedere al calculelor, în special în timpul fazei de dezvoltare și antrenament?
- Pregătire pentru baza de cod și memorie? Baza ta de cod este structurată pentru modificări iterative, posibil bazate pe diferențe? Și poți implementa sistemele de memorie instrumentate vitale pentru ca un agent să învețe din istoria sa evolutivă?
Concluzie pentru întreprinderi: Accentul tot mai mare pus pe gestionarea robustă a identității și accesului agenților, așa cum se observă în cazul platformelor precum Frontegg, Auth0 și altele, indică, de asemenea, maturizarea infrastructurii necesare pentru implementarea agenților care interacționează în siguranță cu mai multe sisteme ale întreprinderii.
Viitorul agențic este proiectat, nu doar invocat
Mesajul AlphaEvolve pentru echipele din companii este multiplu. În primul rând, sistemul de operare din jurul agenților este acum mult mai important decât inteligența modelului. Planul Google arată trei piloni care nu pot fi omiși:
- Evaluatori determiniști care acordă agentului un scor neechivoc de fiecare dată când acesta face o modificare.
- Orchestrare de lungă durată care poate jonglea între modele rapide „de schiță” precum Gemini Flash și modele mai lente și mai riguroase – fie că este vorba de stiva Google sau de un framework precum LangGraph de la LangChain.
- Memorie persistentă, astfel încât fiecare iterație se bazează pe ultima, în loc să se învețe din nou de la zero.
Întreprinderile care au deja sisteme de înregistrare a datelor (logging), de testare și depozite de cod versionat sunt mai aproape decât cred. Următorul pas este conectarea acestor active la o buclă de evaluare self-service, astfel încât mai multe soluții generate de agenți să poată concura și doar cele mai bune patch-uri să fie livrate.
Așa cum a declarat Anurag Dhingra de la Cisco, vicepreședinte și director general al diviziei Enterprise Connectivity and Collaboration, pentru VentureBeat într-un interviu acordat săptămâna aceasta: „Se întâmplă, este foarte, foarte real”, a spus el despre întreprinderile care utilizează agenți de inteligență artificială în producție, depozite, centre de contact cu clienții. „Nu este ceva din viitor. Se întâmplă acolo, astăzi.” El a avertizat că, pe măsură ce acești agenți devin mai omniprezenti, efectuând „muncă asemănătoare cu cea umană”, presiunea asupra sistemelor existente va fi imensă: „Traficul de rețea va crește vertiginos”, a spus Dhingra. Rețeaua, bugetul și avantajul competitiv vor resimți probabil această presiune înainte ca ciclul de popularitate să se stabilizeze. Începeți să demonstrați un caz de utilizare conținut, bazat pe metrici, în acest trimestru - apoi scalați ceea ce funcționează.
Urmăriți podcastul video pe care l-am realizat cu dezvoltatorul Sam Witteveen, în care analizăm în detaliu agenții de producție și cum AlphaEvolve arată calea:
[conținut încorporat]