Naujausi natūralios kalbos apdorojimo (NLP) pažanga pristatė naujus modelius ir mokymo duomenų rinkinius, skirtus patenkinti didėjančius veiksmingų ir tikslių kalbos modelių poreikius. Tačiau šios pažangos kelia ir didelių iššūkių. Daugeliui didelių kalbų modelių (LLM) sunku suderinti našumą ir efektyvumą, dažnai pasikliaujant didžiuliais duomenų rinkiniais ir infrastruktūra, todėl daugeliui vartotojų jie tampa nepraktiški. Tiksliai suderintų, patikimų modelių kūrimas realioms užduotims išlaikant mastelio keitimą ir įperkamumą išlieka neatidėliotina kūrėjų ir organizacijų problema. Ši situacija reikalauja naujoviškų būdų, kaip sukurti galingus ir prieinamus kalbos modelius.
„SmolTalk“ – naujas sintetinis duomenų rinkinys – buvo sukurtas siekiant išspręsti daugelį iššūkių, su kuriais šiuo metu susiduriama NLP aplinkoje. „SmolTalk“ yra vieno milijono pavyzdžių sintetiškai sugeneruotas duomenų rinkinys, kuris sudaro „SmolLM2“ modelio pagrindą. Išleistas pagal Apache 2.0 licenciją ir priglobtas Hugging Face, SmolTalk sujungia naujai sugeneruotus duomenų rinkinius su viešai prieinamais, kad sukurtų nuoseklų rinkinį, kuris aptarnauja įvairius kalbos modeliavimo aspektus. Šis duomenų rinkinys žymi reikšmingą išleidimą atviro teksto duomenų rinkinių erdvėje, demonstruodamas sintetinių ir viešųjų duomenų rinkinių integravimą, siekiant optimizuoti mokymąsi ir modelių mokymą.
„SmolTalk“ susideda iš įvairių duomenų rinkinių, skirtų instrukcijoms derinti, tiksliai generuoti išvestį ir pagerinti apibendrinimo bei perrašymo galimybes. Konkrečiai, „SmolTalk“ apima naują „Smol-Magpie-Ultra“ (400 000 pavyzdžių), skirtų instrukcijų derinimui, Smol apribojimus (36 000), užtikrinančius tikslią išvestį, Smol perrašymą (50 000) ir Smol-summuoti (100 000), kad pagerintų perrašymo ir apibendrinimo užduotis. . Be to, „SmolTalk“ integruoja keletą gerai žinomų viešųjų duomenų rinkinių, tokių kaip OpenHermes2.5 (100K), MetaMathQA, NuminaMath-CoT, Self-Oss-Starcoder2-Instruct ir LongAlign & SystemChats2.0. Šie įvairūs duomenų rinkiniai kartu sustiprina SmolLM2 galimybes įvairiose natūralios kalbos supratimo srityse, siūlydami subalansuotą įvairovės ir tikslinio specifiškumo derinį.
Techninės detalės
„SmolLM2“ modelis, parengtas naudojant „SmolTalk“ duomenų rinkinį, pasižymi dideliu našumu per kruopščiai suprojektuotą sintetinės kartos dujotiekį. Jis pranoksta palyginamus modelius, pvz., Orca-AgenInstruct 1M, pagal kelis etalonus, kai mokomas naudojant 1.7B ir 7B parametrų versijas. Argilla Distilabel technologijos naudojimas suvaidino lemiamą vaidmenį kuriant sintetinius duomenų rinkinius, užtikrinant kokybę ir įvairovę. Šis įvairus, tačiau darnus duomenų rinkinys suteikia SmolLM2 instrukcijų sekimo, loginio samprotavimo, matematinių problemų sprendimo ir dialogo sąveikos galimybių. Modelio architektūrai naudingi šie įvairūs mokymo įvesties duomenys, todėl gaunamas patobulintas ir keičiamo dydžio kalbos modelis, kuris išlaiko tikslumą ir nuoseklumą, kartu yra efektyvus skaičiavimo požiūriu.
„SmolTalk“ reikšmė akivaizdi nagrinėjant jo poveikį našumo metrikai ir bendram naudojimui atliekant NLP užduotis. Duomenų rinkinys leidžia „SmolLM2“ pranokti modelius, parengtus tik naudojant kitus populiarius duomenų rinkinius, tokius kaip „OpenHermes“ ir „Magpie Pro“, tokiuose etalonuose kaip „IFEval“ ir „MT-Bench“. Šis patobulinimas rodo, kad sintetiniai duomenys, kai jie yra kruopščiai kuruojami ir integruojami su viešai prieinamais aukštos kokybės duomenų rinkiniais, gali žymiai pagerinti modelio našumą nereikalaujant pernelyg didelių skaičiavimo išteklių. Duomenų rinkinio moduliškumas – derinamas instrukcijų derinimas, tikslus apribojimų tvarkymas ir perrašymo / apibendrinimo užduotys – daro SmolLM2 universaliu įrankiu, galinčiu prisitaikyti prie įvairių praktinių pritaikymų atliekant dirbtinio intelekto užduotis.
Išvada
„SmolTalk“ išleidimas ir vėlesnė „SmolLM2“ sėkmė yra svarbus nuolatinės NLP technologijų raidos etapas. Naudodamas subalansuotą metodą, kuriame sintetinė generacija derinama su viešųjų duomenų rinkinio integravimo patikimumu, „SmolTalk“ parodo, ką galima pasiekti naudojant mažesnius, efektyvesnius modelius. Šis metodas ne tik pabrėžia sintetinių duomenų rinkinių potencialą, bet ir padeda demokratizuoti dirbtinį intelektą, nes pažangūs modeliai tampa labiau prieinami tyrėjams ir kūrėjams, kuriems gali trūkti išteklių dirbti su didžiuliais duomenų kiekiais ar skaičiavimo infrastruktūra. „SmolTalk“ leidimas su sintetiniais generavimo vamzdynais ir mokymo kodu yra vertingas šaltinis NLP bendruomenei ir sudaro sąlygas būsimiems efektyvaus kalbos modeliavimo tobulinimams.
Patikrinkite Duomenų rinkinys čia. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
(NEMOKAMA AI VIRTUALI KONFERENCIJA) „SmallCon“: nemokama virtuali „GenAI“ konferencija „Meta“, „Mistral“, „Salesforce“, „Harvey AI“ ir kt.. Prisijunkite prie mūsų gruodžio 11 d. šiame nemokamajame virtualiame renginyje ir sužinokite, ko reikia norint sukurti didelius mažus modelius iš AI pirmtakų, tokių kaip Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face ir kt.
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
🐝🐝 Perskaitykite šią „Kili Technology“ AI tyrimo ataskaitą „Didelių kalbos modelio pažeidžiamumo įvertinimas: lyginamoji raudonųjų komandų sudarymo metodų analizė“