Imediat ce Google a lansat cel mai recent model de inteligență artificială pentru generarea de videoclipuri la sfârșitul lunii mai, creatorii s-au grăbit să-l testeze. Lansat la doar câteva luni după predecesorul său, Veo 3 permite utilizatorilor să genereze sunete și dialoguri pentru prima dată, declanșând o serie de clipuri hiperrealiste de opt secunde, îmbinate în reclame, videoclipuri ASMR, trailere de filme imaginare și interviuri stradale umoristice. Regizorul nominalizat la Premiul Oscar, Darren Aronofsky, a folosit instrumentul pentru a crea un scurtmetraj numit StrămoșiÎn timpul unei conferință de presăDemis Hassabis, directorul general al Google DeepMind, a comparat acest salt înainte cu „ieșirea din era mută a generației video”.
Dar alții repede găsit că, în anumite privințe unealta nu se comporta conform așteptărilor. Când generează clipuri care includ dialoguri, Veo 3 adaugă adesea subtitrări fără sens și denaturate, chiar și atunci când solicitările care i-au fost date cer în mod explicit să nu fie adăugate subtitrări.
Eliminarea lor nu este simplă - sau ieftină. Utilizatorii au fost nevoiți să recurgă la regenerarea clipurilor (ceea ce îi costă mai mulți bani), la utilizarea unor instrumente externe de eliminare a subtitrărilor sau la decuparea videoclipurilor pentru a scăpa complet de subtitrări.
Josh Woodward, vicepreședinte al Google Labs și Gemini, postat pe X, pe 9 iunie, că Google a dezvoltat soluții pentru a reduce textul fără sens. Dar, peste o lună mai târziu, utilizatorii sunt încă exploatare forestieră probleme cu asta în Google Labs Canalul Discord, demonstrând cât de dificilă poate fi corectarea problemelor din modelele majore de inteligență artificială.
La fel ca predecesoarele sale, Veo 3 este disponibil pentru membrii plătitori din nivelurile de abonament Google, care încep de la $249.99 pe lună. Pentru a genera un clip de opt secunde, utilizatorii introduc un mesaj text care descrie scena pe care doresc să o creeze în Flow, instrumentul de producție de filme bazat pe inteligență artificială al Google, Gemini sau alte platforme Google. Fiecare generație Veo 3 costă minimum 20 de credite AI, iar contul poate fi încărcat la un cost de $25 pentru fiecare 2.500 de credite.
Mona Weiss, directoare de creație în domeniul publicității, spune că regenerarea scenelor sale în încercarea de a scăpa de subtitrările aleatorii devine costisitoare. „Dacă creezi o scenă cu dialoguri, până la 40% din rezultatul acesteia are subtitrări fără sens care o fac inutilizabilă”, spune ea. „Cheltuiești bani încercând să obții o scenă care îți place, dar apoi nici măcar nu o poți folosi.”
Când Weiss a raportat problema către Google Labs prin canalul său Discord, în speranța de a obține o rambursare pentru creditele irosite, echipa lor a îndrumat-o către echipa oficială de asistență a companiei. Aceștia i-au oferit o rambursare pentru costul Veo 3, dar nu și pentru credite. Weiss a refuzat, deoarece acceptarea ar fi însemnat pierderea completă a accesului la model. Echipa de asistență Discord a Google Labs le-a spus utilizatorilor că subtitrările pot fi declanșate de vorbire, spunând că sunt conștienți de problemă și că lucrează la remedierea acesteia.
Așadar, de ce insistă Veo 3 să adauge aceste subtitrări și de ce pare atât de dificil de rezolvat problema? Probabil că totul se reduce la ceea ce a fost antrenat modelul.
Deși Google nu a făcut publice aceste informații, datele de antrenament includ probabil videoclipuri YouTube, clipuri din vloguri și canale de jocuri, precum și editări TikTok, multe dintre ele având subtitrări. Aceste subtitrări încorporate fac parte din cadrele video și nu sunt piste de text separate suprapuse, ceea ce înseamnă că este dificil să le elimini înainte de a fi utilizate pentru antrenament, spune Shuo Niu, profesor asistent la Universitatea Clark din Massachusetts, care studiază platformele de partajare video și inteligența artificială.
„Modelul text-video este antrenat folosind învățarea prin consolidare pentru a produce conținut care imită videoclipurile create de oameni, iar dacă astfel de videoclipuri includ subtitrări, modelul poate «învăța» că încorporarea subtitrărilor sporește similaritatea cu conținutul generat de oameni”, spune el.
„Lucrăm continuu pentru a îmbunătăți crearea de videoclipuri, în special în ceea ce privește textul, vorbirea care sună natural și sunetul care se sincronizează perfect”, spune un purtător de cuvânt al Google. „Îi încurajăm pe utilizatori să încerce din nou solicitarea dacă observă o inconsecvență și să ne ofere feedback folosind opțiunea de apreciere/renunțare.”
Cât despre motivul pentru care modelul ignoră instrucțiuni precum „Fără subtitrări”, solicitări negative (spunând unui model de inteligență artificială generativă nu „de a face ceva) sunt de obicei mai puțin eficiente decât cele pozitive”, spune Tuhin Chakrabarty, profesor asistent la Universitatea Stony Brook, care studiază sistemele de inteligență artificială.
Pentru a rezolva problema, Google ar trebui să verifice fiecare cadru din fiecare videoclip cu care a fost antrenat Veo 3 și fie să scape de el, fie să le redenumească cu subtitrări înainte de a reantrena modelul - o activitate care ar dura săptămâni, spune el.
Katerina Cizek, realizatoare de documentare și directoare artistică la MIT Open Documentary Lab, consideră că problema exemplifică disponibilitatea Google de a lansa produse înainte ca acestea să fie complet gata.
„Google avea nevoie de o victorie”, spune ea. „Trebuiau să fie primii care lansează un instrument care generează sunet sincronizat cu buzele. Și asta era mai important decât rezolvarea problemei cu subtitrările.”