Microsoft Research je predstavio debug-gym, novo okruženje koje uči veštačku inteligenciju jednoj od najkompleksnijih veština u programiranju - samostalnom pronalaženju i otklanjanju grešaka u kodu. Ova inovacija predstavlja značajan korak ka potpuno autonomnim AI programerima.
Dok AI alati poput GitHub Copilot-a već sada pišu značajan deo koda, stvarni izazov leži u tome što programeri i dalje troše ogromno vreme na ispravljanje grešaka. Izvršni direktor GitHub-a, Tomas Donke, prethodne godine je najavio da će "vrlo brzo 80% koda pisati Copilot", ali pitanje otklanjanja grešaka ostaje nerešeno.
Microsoft Research tim postavlja ključno pitanje: "Šta ako bi AI alat mogao da predloži ispravke za stotine otvorenih problema, a na nama bi bilo samo da ih odobrimo?"
AI agenti uče interaktivno debagovanje kao pravi programeri
Debug-gym omogućava AI agentima da koriste iste alate i tehnike koje koriste iskusni programeri. Umesto nagađanja na osnovu trening podataka, AI agenti sada mogu da postavljaju breakpointe, kreću se kroz kod korak po korak, pregledaju vrednosti promenljivih koristeći alate poput pdb za Python, i ponavljaju ovaj ciklus dok ne reše problem.
Platforma radi na principu celog repozitorijuma, što znači da agenti imaju pristup svim fajlovima i mogu ih menjati. Kod se izvršava u bezbednim Docker kontejnerima, što sprečava potencijalno opasne radnje tokom testiranja.
Istraživači mogu testirati debug-gym sa različitim test okruženjima, uključujući Aider za jednostavne funkcije, Mini-nightmare za problematične kodove i SWE-bench za stvarne probleme koji zahtevaju duboko razumevanje koda.
Impresivni rezultati povećavaju uspešnost do 182%
Prva testiranja sa različitim AI modelima pokazala su dramatična poboljšanja. Uspešnost rešavanja zadataka iz SWE-bench Lite porasla je za 30% kod Claude 3.7, za 182% kod OpenAI o1 i za 160% kod OpenAI o3-mini.
Alati poput eval, view, pdb, rewrite i listdir značajno poboljšavaju učinak AI agenata u odnosu na standardne pristupe. Međutim, Microsoft priznaje da su rešenja još uvek ograničena jer trenutni modeli nisu trenirani na sekvencama koje oponašaju stvarni tok debagovanja.
Microsoft planira razvoj specijalizovanih modela fokusiranih isključivo na interaktivno debagovanje. To podrazumeva izradu skupova podataka koji beleže celokupan tok razmišljanja i akcija AI agenta tokom otklanjanja grešaka. Za razliku od statičkog rezonovanja, debagovanje zahteva ciklus akcija, povratne informacije iz okruženja i donošenje novih odluka.
Plan takođe uključuje razvoj manjih, efikasnijih modela za "traženje informacija" koji će pomagati većim modelima zaduženim za generisanje koda - koncept sličan naprednoj verziji RAG sistema, što može smanjiti troškove rada AI sistema.
0 komentara