Per pastaruosius kelerius metus programinės įrangos kūrimo pasaulyje AI agentų naudojimas smarkiai išaugo, žadėdamas padidinti produktyvumą, automatizuoti sudėtingas užduotis ir palengvinti kūrėjų gyvenimą. Tačiau viena išliekanti problema yra didelis atotrūkis tarp šių perspektyvių AI agentų ir jų gebėjimo veiksmingai spręsti realaus pasaulio problemas. Daugumai dirbtinio intelekto agentų sunku suprasti programinės įrangos kūrimo iššūkių sudėtingumą ir kontekstinius niuansus, ypač kai reikia spręsti tikras „GitHub“ problemas, su kuriomis kūrėjai susiduria kiekvieną dieną. Šie dirbtinio intelekto agentai dažnai neveikia, todėl kūrėjai reikalauja išsamios priežiūros arba rankinio pataisymo, o tai praranda jų paskirtį. Norint išspręsti šį iššūkį, reikalingas sprendimas, kuris būtų ne tik išmanesnis, bet ir gebantis neatsilikti nuo dinamiškų programinės įrangos inžinerijos reikalavimų – erdvės, kupinos unikalių iššūkių ir greitai besikeičiančių projektų.
All Hands AI Open Sources OpenHands CodeAct 2.1: naujas programinės įrangos kūrimo agentas, pirmasis, išsprendęs daugiau nei 50 % realių „GitHub“ problemų naudojant SWE-Bench, standartinį AI padedamų programinės įrangos inžinerijos įrankių vertinimo etaloną. „OpenHands CodeAct 2.1“ reiškia didelį šuolį į priekį, nes „SWE-Bench“ raiška yra 53%, o „SWE-Bench Lite“ – 41,7%. „OpenHands CodeAct 2.1“ ypač revoliucingas yra tai, kad jis neapsiribojo eksperimentavimu kontroliuojamoje aplinkoje ir dabar daro didelę įtaką tikriems projektams, savarankiškai spręsdamas tikras „GitHub“ problemas. Skirtingai nuo kitų įrankių, kurie yra per daug uždari, kad galėtų prisidėti, arba per daug nišos, kad būtų naudingi platesnei bendruomenei, „OpenHands“ yra atvirojo kodo agentas, kurį kūrėjai gali laisvai naudoti, tobulinti ir pritaikyti. Puikus atvirumo ir konkurencingumo derinys tapo geriausiu pasirinkimu kūrėjams, ieškantiems veiksmingo dirbtinio intelekto sprendimo.
„OpenHands CodeAct 2.1“ našumo patobulinimai pirmiausia grindžiami trimis pagrindiniais atnaujinimais. Pirma, jis perėjo prie naujojo Anthropic Claude-3.5 modelio, kuris žymiai pagerina natūralios kalbos supratimą, leidžiantį CodeAct geriau interpretuoti kūrėjų iškeltas problemas. Antra, agento veiksmai buvo modifikuoti, kad būtų naudojamas funkcijų iškvietimas, o tai suteikia daugiau tikslumo vykdant užduotis. Tai užtikrina, kad agentas gali iškviesti konkrečias kodo dalis be klaidingo aiškinimo ir efektyviai sprendžia kūrėjo problemas tiksliau. Galiausiai, „CodeAct 2.1“ kūrėjai padarė reikšmingų patobulinimų, susijusių su aplankų perėjimu, sumažindami agento įstrigimo pasikartojančiose arba žiedinėse užduotyse atvejų – tai dažna problema, kuri kankino ankstesnes iteracijas. Patobulinus agento galimybes protingai naršyti kataloguose, sklandžiai išsprendžiamos didesnės ir sudėtingesnės problemos, o efektyvumas žymiai padidėja.
Šių atnaujinimų svarbos negalima pervertinti. 53 % SWE-Bench sprendimo lygis reiškia, kad daugiau nei pusė šio etalono problemų buvo išspręsta be žmogaus įsikišimo. Atsižvelgiant į tai, kad „SWE-Bench“ yra specialiai sukurtas taip, kad atspindėtų realaus pasaulio „GitHub“ problemas, su kuriomis susiduria programinės įrangos kūrėjai, šis etapas parodo, kad „OpenHands CodeAct 2.1“ gali tiesiogiai paveikti programinės įrangos inžinerijos darbo eigą, savarankiškai sprendžiant daugybę problemų. Kalbant apie platesnę automatizuotos kūrimo pagalbos apimtį, tai svarbu, nes taip sutaupo kūrėjų laiko ir leidžia susitelkti ties aukštesnio lygio iššūkiais, o ne įklimpti į varginantį problemų sprendimą. Be to, atvirojo kodo „OpenHands“ prigimtis kviečia kūrėjus iš viso pasaulio prisidėti ir toliau tobulinti agentą – tai funkcija, kurią kūrėjų bendruomenė labai vertina. Duomenys iš „SWE-Bench Lite“, kur „OpenHands CodeAct 2.1“ pasiekė 41,7 % išsprendimo rodiklį, taip pat patvirtina jos universalumą ir gebėjimą spręsti ne tokias sudėtingas problemas, kurios gali būti vienodai trikdančios, jei jos nepaisoma kūrimo proceso metu.
Apibendrinant galima pasakyti, kad „OpenHands CodeAct 2.1“ yra proveržis dirbtiniu intelektu pagrįstos programinės įrangos kūrimo srityje, priartinantis mus prie visiškai autonominių kodavimo asistentų, kurie tikrai padidina produktyvumą. Jo gebėjimas išspręsti daugiau nei 50 % tikrų GitHub problemų SWE-Bench rodo ne tik technologinę pažangą, bet ir praktinį naudojimą, kuriuo kūrėjai gali pasikliauti kasdien. „OpenHands“ atvirojo kodo pobūdis užtikrina, kad tai išliks bendruomenės skatinama pastanga ir žadama nuolat tobulėti. Nesvarbu, ar kūrėjai nori paleisti „OpenHands“ vietoje, integruoti ją naudodami „GitHub“ veiksmus, ar prisiregistruoti greitai išleisti internetinę versiją, ji siūlo lankstumą ir atvirą kvietimą visiems kūrėjams prisijungti prie jos evoliucijos. Iš esmės patobulinus agento galimybes, pavyzdžiui, priėmus Anthropic's Claude-3.5, įdiegus funkcijų iškvietimą ir patobulinus katalogų perėjimą, OpenHands CodeAct 2.1 nustato standartą, koks turi būti AI kūrimo agentas: efektyvus, prieinamas ir nuolat tobulinamas.
Patikrinkite Išsami informacija ir GitHub čia. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
(Tendencijos) „LLMWare“ pristato „Model Depot“: platų mažų kalbų modelių (SLM) kolekciją „Intel“ kompiuteriams
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
Klausykite mūsų naujausių AI podcast'ų ir AI tyrimų vaizdo įrašų čia ➡️