Companiile de inteligență artificială ar putea întâmpina dificultăți în accesarea întregului web pentru a-și antrena modelele lingvistice mari, după ce furnizorul de infrastructură de internet Cloudflare a anunțat săptămâna aceasta că... ar bloca crawlerele de date cu inteligență artificială în mod implicit.
Este cel mai recent front deschis într-o luptă continuă între creatorii de conținut și dezvoltatorii de inteligență artificială care folosesc acel conținut pentru a se antrena. modele generative de inteligență artificialăÎn instanță, autorii și creatorii de conținut dau în judecată companii importante de inteligență artificială pentru despăgubiri, susținând că conținutul protejat de drepturi de autor a fost utilizat fără permisiune. (Dezvăluire: Ziff Davis, compania-mamă a CNET, a intentat în aprilie un proces împotriva OpenAI, susținând că aceasta a încălcat drepturile de autor ale Ziff Davis în ceea ce privește instruirea și operarea sistemelor sale de inteligență artificială.)
În timp ce furnizorii de conținut solicită compensații pentru informațiile folosite în trecut pentru antrenarea modelelor, mișcarea Cloudflare marchează o nouă măsură defensivă împotriva viitoarelor eforturi de antrenare a modelelor.
Dar nu este vorba doar despre blocarea crawlerelor: Cloudflare spune că vrea să... creați o piață unde companiile de inteligență artificială pot plăti pentru a accesa cu crawlere și extrage informații de pe un site, ceea ce înseamnă că furnizorul acestor informații este plătit, iar dezvoltatorul de inteligență artificială primește permisiunea.
„Acest conținut este combustibilul care alimentează motoarele de inteligență artificială, așa că este corect ca creatorii de conținut să fie compensați direct pentru acesta”, a declarat Matthew Prince, CEO-ul Cloudflare, într-un comunicat. postare pe blog.
De ce site-urile web vor să blocheze crawlerele cu inteligență artificială
Crawlerele — roboți care vizitează și copiază informațiile de pe un site web — sunt o componentă vitală a internetului conectat. Acesta este modul în care motoarele de căutare precum Google știu ce se află pe diferite site-uri web și cum vă pot oferi cele mai recente informații din surse precum CNET.
Crawlerele cu inteligență artificială prezintă provocări distincte pentru site-urile web. În primul rând, acestea pot fi agresive, generând niveluri nesustenabile de trafic pentru site-uri mai mici. De asemenea, oferă o recompensă redusă pentru extragerea datelor: dacă Google accesează cu crawlere un site pentru rezultatele motorului de căutare, este probabil să trimită trafic înapoi către acel site, incluzându-l în rezultatele căutării. Accesul cu crawlere pentru date de antrenament ar putea însemna că nu există trafic suplimentar sau chiar mai puțin, dacă oamenii nu mai vizitează site-ul și se bazează doar pe modelul de inteligență artificială.
Citeşte mai mult: Elemente esențiale ale inteligenței artificiale: 29 de moduri de a face ca inteligența artificială generală să funcționeze pentru tine, potrivit experților noștri
De aceea, directorii unor site-uri web importante precum Pinterest, Reddit și ai mai multor companii editoriale importante (inclusiv Ziff Davis, care deține CNET) au salutat vestea Cloudflare în declarații.
„Întregul ecosistem de creatori, platforme, utilizatori web și roboți de căutare va fi mai bun atunci când accesul la fișiere va fi mai transparent și controlat, iar eforturile Cloudflare reprezintă un pas în direcția corectă pentru toată lumea”, a declarat Steve Huffman, CEO al Reddit, într-un comunicat.
Întrebată despre anunțul Cloudflare, OpenAI a declarat că modelul său ChatGPT este destinat să ajute utilizatorii săi să se conecteze la conținut de pe web, similar motoarelor de căutare, și că a integrat căutarea în funcțiile sale de chat. Compania a mai spus că folosește un model separat de cel propus de Cloudflare pentru a permite editorilor să indice cum ar trebui să se comporte crawlerele AI, cunoscut sub numele de robots.txt. OpenAI a spus că modelul robots.txt funcționează deja și că modificările aduse de Cloudflare sunt inutile.
Conflictul dintre datele de antrenament
Modelele de inteligență artificială necesită o tonă de date pentru a fi antrenate. Acesta este modul în care acestea pot oferi răspunsuri detaliate la întrebări și fac o treabă decentă (chiar dacă imperfectă) în furnizarea unei game largi de informații. Aceste modele primesc cantități incredibile de informații și fac conexiuni între cuvinte și concepte pe baza a ceea ce văd în datele de antrenament.
Problema este cum au obținut dezvoltatorii aceste date. Acum există zeci de procese între creatorii de conținut și companiile de inteligență artificială. Două dintre acestea au fost supuse unor decizii majore chiar săptămâna trecută.
În un caz, un judecător federal a decis că Anthropic a respectat legea atunci când a folosit cărți protejate prin drepturi de autor pentru a-și instrui modelul Claude - prin intermediul unui concept numit utilizare loială. În același timp, judecătorul a declarat că crearea de către companie a unei biblioteci permanente a cărților nu a fost o utilizare loială și a dispus un nou proces pe baza acuzațiilor de piraterie.
Într-un caz separat, un judecător a decis în favoarea Meta într-o dispută între companie și un grup de 13 autori. Însă judecătorul Vince Chhabria a declarat că decizia din acest caz nu înseamnă că viitoarele procese împotriva Meta sau a altor companii de inteligență artificială vor merge în aceeași direcție, în esență că „acești reclamanți au prezentat argumente greșite și nu au reușit să dezvolte un dosar care să susțină argumentele corecte”.
Ideea de a percepe taxe crawlerelor pentru a vizita un site nu este complet nouă. Alte companii, precum Tollbit, oferă servicii care permit proprietarilor de site-uri web să perceapă taxe companiilor de inteligență artificială pentru crawling. Will Allen, șeful departamentului de control al inteligenței artificiale, confidențialitate și produse media de la Tollbit, a declarat că mediul din jurul acestei tehnologii este încă în curs de dezvoltare. „Credem că este foarte devreme pentru formarea unei piețe de conținut și abia începem să experimentăm aici”, a declarat el pentru CNET. „Suntem încântați să vedem cum multe modele diferite prosperă.”
Imad Khan de la CNET a contribuit la acest reportaj.