Sparčiai besivystančiame AI pasaulyje iššūkiai, susiję su mastelio keitimu, našumu ir prieinamumu, išlieka pagrindiniais mokslinių tyrimų bendruomenių ir atvirojo kodo šalininkų pastangomis. Tokios problemos kaip didelio masto modelių skaičiavimo poreikiai, skirtingų modelių dydžių, skirtų įvairiems naudojimo atvejams, trūkumas ir poreikis suderinti tikslumą su efektyvumu yra esminės kliūtys. Kadangi organizacijos vis labiau priklauso nuo dirbtinio intelekto, spręsdamos įvairias problemas, vis labiau reikia modelių, kurie būtų universalūs ir keičiamo dydžio.
„Open Collective“ neseniai pristatė „Magnum/v4“ seriją, kurią sudaro 9B, 12B, 22B, 27B, 72B ir 123B parametrų modeliai. Šis leidimas yra svarbus etapas atvirojo kodo bendruomenei, nes juo siekiama sukurti naują standartą dideliuose kalbų modeliuose, kurie būtų laisvai prieinami tyrėjams ir kūrėjams. „Magnum/v4“ yra daugiau nei tik laipsniškas atnaujinimas – tai visavertis įsipareigojimas kurti modelius, kuriuos galėtų panaudoti tie, kurie nori tiek platesnių, tiek gilesnių dirbtinio intelekto galimybių. Dydžių įvairovė taip pat atspindi didėjančią AI kūrimo sritį, todėl kūrėjai gali lanksčiai pasirinkti modelius pagal konkrečius reikalavimus, nesvarbu, ar jiems reikia kompaktiškų modelių, skirtų pažangiems skaičiavimams, ar didžiulių modelių pažangiems tyrimams. Šis metodas skatina įtraukties į AI kūrimą, suteikdamas galimybę net ir ribotus išteklius turintiems asmenims pasiekti efektyvius modelius.
Techniškai Magnum/v4 modeliai sukurti atsižvelgiant į lankstumą ir efektyvumą. Šie modeliai, kurių parametrų skaičius svyruoja nuo 9 iki 123 milijardų, atitinka skirtingas skaičiavimo ribas ir naudojimo atvejus. Pavyzdžiui, mažesni 9B ir 12B parametrų modeliai yra tinkami užduotims, kuriose delsa ir greitis yra itin svarbūs, pvz., interaktyviosios programos arba išvados realiuoju laiku. Kita vertus, 72B ir 123B modeliai suteikia didžiulę galią, reikalingą intensyvesnėms natūralios kalbos apdorojimo užduotims, tokioms kaip gilus turinio generavimas ar sudėtingas samprotavimas. Be to, šie modeliai buvo apmokyti naudojant įvairius duomenų rinkinius, kuriais siekiama sumažinti šališkumą ir pagerinti apibendrinimą. Jie integruoja pažangą, pvz., efektyvų mokymo optimizavimą, parametrų dalijimąsi ir patobulintus retumo metodus, kurie prisideda prie skaičiavimo efektyvumo ir aukštos kokybės rezultatų pusiausvyros.
„Magnum/v4“ modelių svarbos negalima pervertinti, ypač atsižvelgiant į dabartinį AI kraštovaizdį. Šie modeliai padeda demokratizuoti prieigą prie pažangiausių AI technologijų. Pažymėtina, kad „Open Collective“ leidimas yra sklandus sprendimas tyrėjams, entuziastams ir kūrėjams, kuriuos riboja skaičiavimo išteklių prieinamumas. Skirtingai nuo patentuotų modelių, užrakintų už išskirtinių mokamų sienų, Magnum/v4 išsiskiria savo atvirumu ir pritaikomumu, leidžiančiu eksperimentuoti be ribojančių licencijų. Ankstyvieji rezultatai rodo įspūdingą kalbos supratimo ir generavimo pagerėjimą atliekant įvairias užduotis, o etaloniniai rodikliai rodo, kad 123B modelio našumas yra panašus į pirmaujančius patentuotus modelius. Tai yra pagrindinis laimėjimas atvirojo kodo srityje, pabrėžiantis bendruomenės skatinamo modelio kūrimo potencialą mažinant atotrūkį tarp atvirų ir uždarų AI ekosistemų.
„Open Collective“ „Magnum/v4“ modeliai padaro galingus AI įrankius prieinamus platesnei bendruomenei. Siūlydami modelius nuo 9B iki 123B parametrų, jie įgalina tiek mažus, tiek didelio masto AI projektus, skatina naujoves be išteklių apribojimų. Dirbtiniam intelektui keičiant pramonės šakas, Magnum/v4 prisideda prie labiau įtraukiančios, atviresnės ir bendradarbiavimo ateities.
Patikrinkite Modelių serija čia, HuggingFace. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 50 000+ ML SubReddit.
(Būsimas tiesioginis internetinis seminaras – 2024 m. spalio 29 d.) Geriausia platforma, skirta tiksliai suderintiems modeliams aptarnauti: „Predibase Inference Engine“ (reklamuojama)
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
Klausykite mūsų naujausių AI podcast'ų ir AI tyrimų vaizdo įrašų čia ➡️