Kalbų modelių architektūrinių kompromisų sprendimas
Kai kalbų modelių mastas, išraiškingumo, efektyvumo ir pritaikomumo subalansavimas tampa vis sudėtingesnis. Transformatorių architektūros dominuoja dėl jų stipraus atlikimo įvairiose užduotyse, tačiau jos yra skaičiuojamos brangios, ypač dėl ilgo konteksto scenarijų-nuo kvadratinio savęs lankymo sudėtingumo. Kita vertus, struktūruotų valstybinių kosmoso modelių (SSMS) siūlo geresnį efektyvumą ir linijinį mastelio keitimą, tačiau dažnai jiems trūksta niuansų sekos modeliavimo, reikalingo sudėtingam kalbos supratimui. Reikia kombinuotos architektūros, panaudojančios abiejų metodų stipriąsias puses, norint palaikyti įvairias programas visoje aplinkoje.
Pristatymas „Falcon-H1“: hibridinė architektūra
„Falcon-H1“ serija, kurią išleido technologijos inovacijų institutas (TII), pristato hibridinę kalbų modelių šeimą, sujungiančią transformatorių dėmesio mechanizmus su MAMBA2 pagrįstais SSM komponentais. Ši architektūra yra skirta pagerinti skaičiavimo efektyvumą, išlaikant konkurencinius rezultatus atliekant užduotis, reikalaujančias gilaus kontekstinio supratimo.
„Falcon-H1“ apima plačią parametrų diapazoną nuo 0,5B iki 34B-, kai naudojama atvejų, pradedant nuo išteklių suvaržytų dislokacijų iki didelio masto paskirstytų išvadų. Dizaino tikslas – pašalinti įprastas LLM diegimo kliūtis: atminties efektyvumas, mastelio keitimas, daugiakalbė palaikymas ir galimybė tvarkyti išplėstines įvesties sekas.

Architektūrinės detalės ir dizaino tikslai
„Falcon-H1“ priima lygiagrečią struktūrą, kai dėmesio galvutės ir „Mamba2 SSMS“ veikia vienas šalia kito. Šis dizainas leidžia kiekvienam mechanizmui savarankiškai prisidėti prie sekos modeliavimo: Dėmesio galvutės specializuojasi fiksuojant prieigos lygio priklausomybes, o SSM komponentai palaiko efektyvų tolimojo informacijos išsaugojimą.
Serija palaiko iki 256 K. žetonų konteksto ilgį, o tai ypač naudinga programoms apibendrinant dokumentus, gavimo rinkliavą ir daugialypį dialogo sistemas. Modelio mokymas apima pritaikytą mikroparametrinės (μP) receptą ir optimizuotus duomenų vamzdynus, leidžiančius stabiliam ir efektyviam mokymui pagal modelio dydžius.
Modeliai yra mokomi daugiausia dėmesio skiriant daugiakalbėms galimybėms. Architektūra yra įrengta tvarkyti 18 kalbų, kuriose yra aprėptis, įskaitant anglų, kinų, arabų, hindi, prancūzų ir kitų. Sistema yra išplėsta daugiau nei 100 kalbų, palaikančių lokalizaciją ir specifinius regionų modelio pritaikymą.
Empiriniai rezultatai ir palyginamasis vertinimas
Nepaisant santykinai nedidelio parametrų skaičiaus, „Falcon-H1“ modeliai rodo stiprų empirinį našumą:
- „Falcon-H1-0.5B“ pasiekia rezultatus, palyginamus su 7B parametrų modeliais, išleistais 2024 m.
- „Falcon-H1-1.5B“ gylis veikia lygiaverčiai su pirmaujančiais 7B-10B transformatorių modeliais.
- „Falcon-H1-34B“ atitinka arba viršija tokių modelių kaip QWEN3-32B, LLAMA4-SCOUT-17B/109B ir GEMMA3-27B našumą keliuose etalonuose.
Vertinimai pabrėžia ir bendrosios paskirties kalbos supratimą, ir daugiakalbius etalonus. Pažymėtina, kad modeliai pasiekia stiprų našumą tiek didelio išteklių, tiek mažo išteklių kalbomis, nereikalaujant pernelyg didelio tobulinimo ar papildomų adaptacijos sluoksnių.

Diegimas ir išvados palaikomi integruojant su atvirojo kodo įrankiais, tokiais kaip veido transformatorių apkabinimas. „FlashatTENT-2“ suderinamumas dar labiau sumažina atminties naudojimą išvadų metu, siūlant patrauklų efektyvumo ir efektyvumo balansą įmonėms naudoti.
Išvada
„Falcon-H1“ yra metodinės pastangos patobulinti kalbos modelio architektūrą, integruojant papildomus mechanizmus-lankymąsi ir SSM-su vieninga sistema. Tai darydamas, jis atkreipia dėmesį į svarbiausius ilgo konteksto apdorojimo ir mastelio efektyvumo apribojimus. „Model Family“ teikia daugybę parinkčių praktikams, pradedant lengvais variantais, tinkančiais diegti kraštus ir baigiant didelės talpos konfigūracijomis, skirtoms serverio programoms.
Pasitelkdamas daugiakalbį aprėptį, ilgalaikio konteksto galimybes ir architektūrinį lankstumą, „Falcon-H1“ siūlo techniškai pagrįstą pagrindą tyrimų ir gamybos naudojimo atvejams, kurių reikalaujama nepakenkiant efektyvumui ar prieinamumui.
Peržiūrėkite oficialų leidimą, „Habing Face“ ir „GitHub“ puslapio modelius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Taip pat nedvejodami sekite mus „Twitter“ Ir nepamirškite prisijungti prie mūsų 95K+ ml subreddit ir užsiprenumeruokite Mūsų informacinis biuletenis.
Asif Razzaq yra „MarkTechPost Media Inc“ generalinis direktorius. Kaip vizionierius verslininkas ir inžinierius, ASIF yra įsipareigojęs išnaudoti dirbtinio intelekto potencialą socialiniam gėrybei. Naujausias jo siekis yra dirbtinio intelekto žiniasklaidos platformos „MarkTechPost“, kuri išsiskiria išsamia mašininio mokymosi ir giluminio mokymosi naujienų, kuri yra techniškai pagrįsta, ir lengvai suprantama plačiai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonai mėnesinių peržiūrų, parodydama jos populiarumą tarp auditorijos.


