Dirbtinis intelektas (AI) padarė didelę pažangą kurdamas kalbos modelius, galinčius išspręsti sudėtingas problemas. Tačiau vis dar sunku pritaikyti šiuos modelius realaus pasaulio moksliniams iššūkiams. Daugelis AI agentų kovoja su užduotimis, reikalaujančiomis kelių stebėjimo, samprotavimo ir veiksmų ciklų. Be to, esamiems modeliams dažnai trūksta galimybės veiksmingai integruoti įrankius arba išlaikyti daugiapakopio samprotavimo nuoseklumą. Šios problemos ypač aktualios mokslo srityse, kur užduotys reikalauja tikslumo, pritaikomumo ir skaičiavimo efektyvumo. Norint išspręsti šias problemas, reikia lanksčios ir praktiškos kalbos agentų mokymo ir dislokavimo sistemos.
Pristatome „Aviary: An Extensible Open-Source Gymnasium“.
„FutureHouse Inc.“, Ročesterio universiteto ir Franciso Cricko instituto mokslininkų komanda pristatė „Aviary“, atvirojo kodo kalbų agentų gimnaziją. „Aviary“ sprendžia esamų sistemų apribojimus, įdiegdama kalbos sprendimų procesus (LDP), kurie modeliuoja užduotis kaip iš dalies stebimus Markovo sprendimų procesus, pagrįstus natūralia kalba. Šis metodas leidžia kalbos agentams efektyviai atlikti sudėtingas daugiapakopes samprotavimo užduotis.

Aviary apima penkias aplinkas, iš kurių trys yra skirtos pažangioms mokslinėms užduotims:
- Molekulinis klonavimas: Manipuliavimas DNR konstrukcijomis naudojant sekos anotavimo ir protokolo planavimo įrankius.
- Mokslinės literatūros kokybės užtikrinimas: Mokslinės literatūros paieška ir analizė, siekiant atsakyti į išsamius tyrimo klausimus.
- Baltymų stabilumo inžinerija: baltymų mutacijų siūlymas, siekiant pagerinti stabilumą, naudojant skaičiavimo ir biocheminius įrankius.
Dėl šių užduočių „Aviary“ yra vertinga platforma mokant ir vertinant kalbos agentus realaus pasaulio scenarijuose, kuriems reikia samprotavimo, įrankių integravimo ir kartotinio mokymosi.
„Aviary“ techninės įžvalgos ir privalumai
„Aviary“ naudoja stochastinio skaičiavimo grafiko sistemą, kad modeliuotų kalbos agentus, kad būtų galima lanksčiai ir efektyviai optimizuoti. Pagrindinės funkcijos:
- Ekspertų iteracija (EI): mokymo metodas, kuris pakartotinai tobulina agentus naudojant aukštos kokybės trajektorijas.
- Daugumos balsavimas: metodas, skirtas pagerinti tikslumą, derinant kelias išvados išvestis be pernelyg didelių skaičiavimo išlaidų.
- Įrankių integravimas: Integruotas įrankių, tokių kaip sekų anotatoriai ir literatūros paieškos sistemos, palaikymas, pagerinantis pritaikymą realiame pasaulyje.

Tyrėjai rodo, kad tokiose aplinkose neribojami atvirojo kodo modeliai, tokie kaip Llama-3.1-8B-Instruct, gali pasiekti našumą, panašų į pasienio modelių (pvz., Claude 3.5 Sonnet) arba geresnį už juos. Be to, šie modeliai veikia žymiai mažesnėmis išvadų sąnaudomis, todėl jie yra prieinami didelio masto moksliniams tikslams.
Rezultatai ir įžvalgos
Aviary apmokyti agentai demonstruoja įspūdingus rezultatus:
- Atliekant molekulinio klonavimo užduotis, agentas Llama-3.1-8B-Instruct parodė pastebimus tikslumo patobulinimus dėl EI ir elgesio klonavimo, pranokdamas žmonių ekspertus pagal SeqQA etalonus.
- Mokslinės literatūros kokybės užtikrinimo užduotyse tuo pačiu modeliu buvo pasiektas lygiavertis arba geresnis nei žmonių veikimo lygis, išlaikant efektyvumą.
- Daugumos balsavimas dar labiau padidino tikslumą, o SeqQA rezultatai pasiekė 89 % po kelių trajektorijų atrankos ir viršija žmogaus ir pasienio modelio etalonus.

Išvada
„Aviary“ yra apgalvota pažanga kuriant kalbos AI agentus. Parodydama, kad atvirojo kodo, be sienų modeliai gali tobulėti atliekant mokslines užduotis, „Aviary“ atveria naujas prieinamų ir ekonomiškų dirbtinio intelekto tyrimų galimybes. Jo atvirojo kodo dizainas skatina bendradarbiavimą, leidžiantį tyrėjams ir kūrėjams tobulinti ir toliau plėsti programas.
Naudodama įrankius ir mokymo metodus, pritaikytus realiems iššūkiams, „Aviary“ nustato etaloną, kaip kalbos agentai gali atlikti sudėtingas užduotis. Tai suteikia įtikinamą AI pagrįsto mokslinio tyrinėjimo ir praktinio problemų sprendimo pagrindą.
Patikrinkite Popierius, Techninės detalėsir GitHub Puslapis. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Nepamirškite prisijungti prie mūsų 60k+ ML SubReddit.
🚨 NEMOKAMAS BŪTINAS AI internetinis seminaras (2025 M. SAUSIO 15 d.): padidinkite LLM tikslumą naudodami sintetinius duomenis ir įvertinimo informaciją–Prisijunkite prie šio internetinio seminaro, kad gautumėte veiksmingų įžvalgų, kaip padidinti LLM modelio našumą ir tikslumą, kartu išsaugant duomenų privatumą.
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
🧵🧵 Sekite mus X (Twitter), kad gautumėte reguliarius AI tyrimų ir kūrėjų atnaujinimus čia…


