Švietimo tyrimams labai svarbu besimokantiesiems ir pedagogams gauti aukštos kokybės švietimo išteklius. Matematika, dažnai suvokiama kaip vienas sudėtingiausių dalykų, reikalauja aiškių paaiškinimų ir gerai struktūrizuotų išteklių, kad mokymasis būtų veiksmingesnis. Tačiau duomenų rinkinių, orientuotų į matematinį išsilavinimą, kūrimas ir kuravimas išlieka didžiulis iššūkis. Daugelis duomenų rinkinių, skirtų mokyti mašininio mokymosi modelius, yra patentuoti, todėl mokymosi turinys atrenkamas, struktūrizuojamas ar optimizuojamas mokymuisi. Dėl prieinamų atvirojo kodo duomenų rinkinių, susijusių su matematikos sudėtingumu, trūkumas palieka spragą kuriant dirbtinio intelekto pagrįstus mokymo įrankius.
Pripažindamas aukščiau nurodytas problemas, Hugging Face pristatė FineMathnovatoriška iniciatyva, kuria siekiama demokratizuoti tiek besimokančiųjų, tiek mokslininkų prieigą prie aukštos kokybės matematinio turinio. FineMath yra išsamus ir atviras duomenų rinkinys, pritaikytas matematiniam išsilavinimui ir samprotavimui. „FineMath“ sprendžia pagrindinius iššūkius, susijusius su matematinio turinio iš įvairių internetinių saugyklų įsigijimu, kuravimu ir tobulinimu. Šis duomenų rinkinys yra kruopščiai sukurtas, kad atitiktų mašininio mokymosi modelių poreikius, kuriais siekiama tobulėti atliekant matematines problemų sprendimo ir samprotavimo užduotis.
Duomenų rinkinys yra padalintas į dvi pagrindines versijas:
- FineMath-3+: FineMath-3+ sudaro 34 milijardai žetonų, gautų iš 21,4 milijono dokumentų, suformatuotų Markdown ir LaTeX, kad būtų išlaikytas matematinis vientisumas.
- FineMath-4+: FineMath-4+, FineMath-3+ pogrupis, turi 9,6 mlrd. žetonų 6,7 mln. dokumentų, pabrėžiant aukštesnės kokybės turinį su išsamiais paaiškinimais.
Šie kuruojami pogrupiai užtikrina, kad tiek bendrieji besimokantieji, tiek pažangūs modeliai gautų naudos iš tvirtos FineMath sistemos.
Kuriant „FineMath“ reikėjo kelių etapų, kad būtų galima efektyviai išgauti ir patobulinti turinį. Jis prasidėjo nuo neapdorotų duomenų ištraukimo iš „CommonCrawl“.naudojant pažangius įrankius, pvz., Resiliparse, kad būtų galima tiksliai užfiksuoti tekstą ir formatuoti. Pradinis duomenų rinkinys buvo įvertintas naudojant pasirinktinį klasifikatorių, pagrįstą Llama-3.1-70B-Instruct. Šis klasifikatorius įvertino puslapius pagal loginį samprotavimą ir nuoseklių sprendimų aiškumą. Vėlesniuose etapuose buvo siekiama išplėsti duomenų rinkinio plotį, išlaikant jo kokybę. Buvo išspręstos tokios problemos kaip netinkamas LaTeX žymėjimo filtravimas ankstesniuose duomenų rinkiniuose, užtikrinant geresnį matematinių išraiškų išsaugojimą. Dubliavimo panaikinimas ir daugiakalbis vertinimas dar labiau padidino duomenų rinkinio tinkamumą ir patogumą.
„FineMath“ pademonstravo puikų našumą pagal nustatytus etalonus, tokius kaip GSM8k ir MATH. Modeliai, apmokyti FineMath-3+ ir FineMath-4+, parodė reikšmingus matematinius samprotavimus ir tikslumo patobulinimus. Sujungę „FineMath“ su kitais duomenų rinkiniais, tokiais kaip „InfiMM-WebMath“, mokslininkai gali pasiekti didesnį duomenų rinkinį su maždaug 50 milijardų žetonų, išlaikant išskirtinį našumą. „FineMath“ struktūra optimizuota sklandžiai integracijai į mašininio mokymosi vamzdynus. Kūrėjai gali įkelti duomenų rinkinio poaibius naudodamiesi patikima Hugging Face bibliotekos pagalba, leidžiančia lengvai eksperimentuoti ir diegti įvairias edukacines AI programas.
Apibendrinant galima pasakyti, kad Hugging Face FineMath duomenų rinkinys yra transformuojantis indėlis į matematinį išsilavinimą ir dirbtinį intelektą. Prieinamumo, kokybės ir skaidrumo spragų šalinimas nustato naują atvirų švietimo išteklių etaloną. Būsimas „FineMath“ darbas apima kalbos palaikymo išplėtimą ne tik anglų kalba, matematinių ženklų ištraukimo ir išsaugojimo tobulinimą, pažangių kokybės metrikų kūrimą ir specializuotų pogrupių, pritaikytų skirtingiems švietimo lygiams, kūrimą.
Patikrinkite į Kolekcija ir Duomenų rinkinys. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Nepamirškite prisijungti prie mūsų 60k+ ML SubReddit.
🚨 Populiarumas: LG AI tyrimų išleidimas EXAONE 3.5: trys atvirojo kodo dvikalbiai AI lygio modeliai, teikiantys neprilygstamas instrukcijas ir ilgą konteksto supratimą, kad būtų pasaulinė lyderystė kuriant AI tobulumą….

Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
🧵🧵 (Atsisiųsti) Didelių kalbų modelio pažeidžiamumo ataskaitos įvertinimas (reklamuojamas)