Kelių šuolių užklausos visada trukdė LLM agentams priimti sprendimus, todėl reikėjo atlikti kelis samprotavimo veiksmus ir informaciją iš skirtingų šaltinių. Jie yra labai svarbūs analizuojant modelio supratimo, samprotavimo ir funkcijų iškvietimo galimybes. Šiuo metu, kai kas antrą dieną klesti nauji dideli modeliai su pretenzijomis apie neprilygstamas galimybes, kelių šuolių įrankiai realiai juos įvertina pateikdami sudėtingą užklausą, kurią modelis turi išskaidyti į atomines dalis ir pakartotinai išspręsti iškviesdamas ir naudojant atitinkamus įrankius. . Be to, daugelio šuolių įrankių vertinimas tapo pagrindiniu veiksniu tobulinant modelius siekiant apibendrinto intelekto.
Esami darbai šioje srityje nepasiūlo patikimo vertinimo metodo. Iki šiol pasiūlyti metodai buvo pagrįsti įrankiais pagrįstais duomenų kūrimo metodais, kai užklausos imituojamos tam tikram įrankių rinkiniui. Šis trūkumas parodo spragą užtikrinant surinktų priemonių tarpusavio priklausomybę ir įvertinant kelių šuolių samprotavimus. Be to, patikrinamų atsakymų nebuvimas sukelia modelio paklaidą ir vertinimo klaidas. Šiame straipsnyje aptariami naujausi tyrimai, kuriuose pateikiamas patikimas metodas sąžiningai įvertinti didelio kalbos modelio kelių šuolių galimybes.
Fudano universiteto ir „ByteDance“ mokslininkai pristatė „ToolHop“ – duomenų rinkinį, specialiai sukurtą kelių žingsnių įrankiams įvertinti su 995 griežtai suplanuotomis vartotojo užklausomis ir 3912 susijusių įrankių. „Toolhop“ teigia, kad išspręs visas pirmiau minėtas problemas naudodamas įvairias užklausas, lokaliai vykdomus įrankius, reikšmingas tarpusavio priklausomybes, išsamius atsiliepimus ir patikrinamus atsakymus. Autoriai siūlo naują užklausa pagrįstą duomenų kūrimo metodą, kuris galėtų išplėsti vieną kelių šuolių užklausą į išsamų kelių šuolių įrankio naudojimo testą.
Siūloma nauja schema susideda iš trijų pagrindinių etapų: įrankių kūrimo, dokumentų tobulinimo ir kodo generavimo.
Įrankio kūrimas: Pagal vartotojo pateiktą kelių šuolių užklausą sukuriamas preliminarus įrankių dokumentų rinkinys. Dokumentas sukurtas taip, kad jis būtų priklausomas vienas nuo kito ir būtų aktualus, nes užklausos suskirstytos į atomines dalis ir kiekviena atskirai tvarkoma. Tokiu būdu dokumentas užfiksuoja užklausos esmę ir pats susistemina panašias užklausas, užtikrindamas moduliškumą ir darną.
Dokumento patikslinimas: Parengtas įrankio dokumentas yra visapusiškai filtruojamas, kad būtų lengviau įvertinti modelius sudėtinguose kelių šuolių scenarijuose. Čia pristatomos naujos funkcijos, pvz., rezultatų filtravimas ir tinkinami formatai, siekiant išplėsti funkcionalumą ir išlaikyti originalumą. Kartu didinamas parametrų skaičius, optimizuojami jų tipai.
Kodo generavimas: Šiame etape paruoštas įrankis generuoja lokaliai vykdomas funkcijas. Naudojant šias funkcijas, įrankiai iškviečiami iš išorės, leidžiantys sklandžiai kelių posūkių sąveiką tarp modelio ir įrankių.
Tyrimo grupė įgyvendino metodą su užklausomis, paimtomis iš MoreHopQA duomenų rinkinio. Be to, siekiant užtikrinti įvertinimą naudojant ToolHop, buvo atlikta griežta penkių matmenų analizė. Tada „ToolHop“ buvo įvertinta keturiolikos LLM iš penkių šeimų, įskaitant atvirojo ir uždarojo šaltinio modelius. Vertinimo metodas buvo sukurtas taip, kad būtų užtikrintas atsakymo teisingumas ir sumažintas iškvietimo klaidų skaičius. Autoriai pastebėjo, kad įrankių naudojimas padidino modelių našumą vidutiniškai iki 12 %, o GPT modelių – iki 23 %. Geriausiai veikiantis modelis net padidinus atsakymų teisingumą galėtų pasiekti 49,04 %. Be to, nepaisant to, kad jie naudojo įrankius atsakydami į kelių šuolių užklausas, modeliai haliucinuodavo maždaug 10 % laiko.
Išvada:
Šiame darbe pateikiamas išsamus duomenų rinkinys, skirtas kelių šuolių užklausoms spręsti naudojant specialiai sukurtas užklausas ir įrankius. Pagrindinė eksperimentų išvada buvo ta, kad nors LLM žymiai pagerino savo gebėjimą spręsti sudėtingas kelių parduotuvių užklausas naudodami įrankius, jų kelių parduotuvių įrankių naudojimo galimybės vis dar palieka daug galimybių tobulėti.
Patikrinkite Popierius. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Nepamirškite prisijungti prie mūsų 60k+ ML SubReddit.
🚨 NEMOKAMAS BŪTINAS AI internetinis seminaras (2025 M. SAUSIO 15 d.): padidinkite LLM tikslumą naudodami sintetinius duomenis ir įvertinimo informaciją–Prisijunkite prie šio internetinio seminaro, kad gautumėte veiksmingų įžvalgų, kaip padidinti LLM modelio našumą ir tikslumą, kartu išsaugant duomenų privatumą.
Adeeba Alam Ansari šiuo metu siekia dvigubo laipsnio Indijos technologijos institute (IIT) Kharagpur ir įgijo pramonės inžinerijos bakalauro laipsnį ir finansų inžinerijos magistro laipsnį. Labai domisi mašininiu mokymusi ir dirbtiniu intelektu, ji yra aistringa skaitytoja ir smalsi asmenybė. Adeeba tvirtai tiki technologijų galia įgalinti visuomenę ir skatinti gerovę per novatoriškus sprendimus, kuriuos skatina empatija ir gilus realaus pasaulio iššūkių supratimas.
✅ (Rekomenduojama skaityti) „Nebius AI Studio“ plečiasi regėjimo modeliais, naujais kalbos modeliais, įterpimais ir LoRA (reklamuojama)