Didžiųjų kalbų modelių (LLM) pažanga suteikė galimybių įvairiose pramonės šakose – nuo turinio kūrimo automatizavimo iki mokslinių tyrimų tobulinimo. Tačiau išlieka didelių iššūkių. Didelio našumo modeliai dažnai yra patentuoti, todėl tyrėjai ir kūrėjai riboja skaidrumą ir prieigą. Atvirojo kodo alternatyvos, nors ir perspektyvios, dažnai susiduria su skaičiavimo efektyvumo ir našumo balansu. Be to, dėl ribotos kalbų įvairovės daugelyje modelių sumažėja jų platesnis naudojimas. Šios kliūtys pabrėžia atvirų, efektyvių ir universalių LLM, galinčių gerai veikti įvairiose programose be didelių išlaidų, poreikį.
JAE technologijų inovacijų institutas ką tik išleido „Falcon 3“.
Technologijų inovacijų institutas (TII) JAE išsprendė šiuos iššūkius išleisdamas Sakalas 3naujausia jų atvirojo kodo LLM serijos versija. „Falcon 3“ pristato 30 modelių patikros punktų svyruoja nuo 1B iki 10B parametrų. Tai apima baziniai ir instrukcijomis suderinti modeliaitaip pat kvantuotos versijos kaip GPTQ-Int4, GPTQ-Int8, AWQ ir naujoviškas 1,58 bitų variantas dėl efektyvumo. Svarbus papildymas yra įtraukimas Mamba modeliaikurie naudoja būsenos erdvės modelius (SSM), kad pagerintų išvadų greitį ir našumą.
Išleisdami Falcon 3 pagal TII Falcon-LLM licencija 2.0TII toliau palaiko atvirą, komercinį naudojimą, užtikrindama platų prieinamumą kūrėjams ir įmonėms. Modeliai taip pat yra suderinami su Lamų architektūratodėl kūrėjams lengviau integruoti Falcon 3 į esamas darbo eigas be papildomų išlaidų.
Techninė informacija ir pagrindiniai privalumai
„Falcon 3“ modeliai mokomi naudojant didelio masto duomenų rinkinį 14 trilijonų žetonųreikšmingas šuolis, palyginti su ankstesnėmis iteracijomis. Šis išsamus mokymas pagerina modelių gebėjimą apibendrinti ir nuosekliai atlikti užduotis. Falcon 3 palaiko a 32K konteksto ilgis (8K 1B variantui), leidžianti efektyviai apdoroti ilgesnes įvestis – tai itin svarbi užduotis, pvz., apibendrinimas, dokumentų apdorojimas ir pokalbių programa.
Modeliai išlaiko a Transformatoriumi pagrįsta architektūra su 40 dekoderių blokų ir įdarbinti grupuotos užklausos dėmesys (GQA) pasižyminti 12 užklausų galvučių. Šie dizaino pasirinkimai optimizuoja skaičiavimo efektyvumą ir sumažina delsą darant išvadas neprarandant tikslumo. Įvadas iš 1,58 bitų kvantuotos versijos leidžia modelius paleisti įrenginiuose su ribotais aparatūros ištekliais ir siūlo praktišką sprendimą ekonomiškam diegimui.
„Falcon 3“ taip pat sprendžia daugiakalbių galimybių poreikį, palaikydamas keturiomis kalbomis: anglų, prancūzų, ispanų ir portugalų. Šis patobulinimas užtikrina, kad modeliai būtų įtraukesni ir universalesni, tinkantys įvairiai pasaulinei auditorijai.
Rezultatai ir įžvalgos
„Falcon 3“ gairės atspindi gerą jos našumą vertinimo duomenų rinkiniuose:
- 83,1 % GSM8K, kuris matuoja matematinius samprotavimus ir problemų sprendimo gebėjimus.
- 78 % IFEval, parodydamas jos instrukcijų vykdymo galimybes.
- 71,6 % apie MMLU, pabrėžiant tvirtas bendrąsias žinias ir supratimą įvairiose srityse.
Šie rezultatai parodo Falcon 3 konkurencingumą su kitais pirmaujančiais LLM, o atviras prieinamumas išskiria jį. Parametrų padidinimas nuo 7B iki 10B dar labiau pagerino našumą, ypač atliekant užduotis, kurioms reikia samprotavimo ir supratimo apie kelias užduotis. Kvantuotos versijos siūlo panašias galimybes, tuo pačiu sumažindamos atminties poreikį, todėl jas puikiai tinka naudoti ribotų išteklių aplinkoje.
Falcon 3 galima įsigyti Apkabinantis Veidasleidžianti kūrėjams ir tyrėjams lengvai eksperimentuoti, derinti ir įdiegti modelius. Suderinamumas su tokiais formatais kaip GGUF ir GPTQ užtikrina sklandų integravimą į esamas įrankių grandines ir darbo eigas.
Išvada
„Falcon 3“ yra apgalvotas žingsnis į priekį sprendžiant atvirojo kodo LLM apribojimus. Turėdamas 30 modelių kontrolinių punktų, įskaitant bazinius, instrukcijomis suderintus, kvantuotus ir Mamba pagrindu sukurtus variantus, „Falcon 3“ siūlo lankstumą įvairiems naudojimo atvejams. Dėl didelio modelio našumo, palyginti su etalonais, efektyvumu ir daugiakalbystės galimybėmis, jis yra vertingas šaltinis kūrėjams ir tyrėjams.
Teikdamas pirmenybę prieinamumui ir komerciniam naudojimui, JAE Technologijų inovacijų institutas sustiprino „Falcon 3“ kaip praktiško, našaus LLM, skirto realiame pasaulyje, vaidmenį. Kadangi dirbtinio intelekto naudojimas ir toliau plečiasi, „Falcon 3“ yra puikus pavyzdys, kaip atviri, veiksmingi ir įtraukūs modeliai gali paskatinti naujoves ir sukurti platesnes galimybes įvairiose pramonės šakose.
Patikrinkite į Modeliai ant apsikabinusio veido ir Detalės. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Nepamirškite prisijungti prie mūsų 60k+ ML SubReddit.
🚨 Populiarumas: LG AI tyrimų išleidimas EXAONE 3.5: trys atvirojo kodo dvikalbiai AI lygio modeliai, teikiantys neprilygstamas instrukcijas ir ilgą konteksto supratimą, kad būtų pasaulinė lyderystė kuriant AI tobulumą….
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
🧵🧵 (Atsisiųsti) Didelių kalbų modelio pažeidžiamumo ataskaitos įvertinimas (reklamuojamas)