Plačiai pritaikius didelių kalbų modelius (LLM) buvo pasiekta didelė pažanga tokiose srityse kaip pokalbio AI, turinio generavimas ir įrenginyje esančios programos. Tačiau, norint diegti šiuos modelius, labai priklausomi nuo didelių debesų išteklių, kyla susirūpinimas dėl delsos, sąnaudų ir aplinkos tvarumo. Trilijonų parametrų modeliams, tokiems kaip GPT-4, reikia didžiulės skaičiavimo galios, todėl debesijos pagrindu veikiančių LLM finansinės ir energijos sąnaudos tampa vis labiau nepagrįstos. Šiuos iššūkius dar labiau apsunkina mobiliosios aparatinės įrangos suvaržymai, susiję su atmintimi ir apdorojimo galia, todėl reikia kurti mažesnius, efektyvesnius modelius, tinkamus naudoti mobiliuosiuose įrenginiuose.
„Meta“ neseniai išleido „MobileLLM“ – skirtingų dydžių kalbos modelio kontrolinių taškų rinkinį: 125M, 350M, 600M ir 1B parametrai. Leidimu siekiama optimizuoti LLM diegimą mobiliuosiuose įrenginiuose, pateikiant modelius, kurių parametrų skaičius mažesnis nei milijardas, kurie užtikrina konkurencingą našumą ir taupo išteklius. Šie modeliai, prieinami Hugging Face, suteikia pažangias NLP galimybes mobiliesiems įrenginiams, labai nepasitikėdami debesies ištekliais, o tai sumažina delsą ir veiklos sąnaudas. „MobileLLM“ naudoja gilią ir ploną architektūrą, nepaisydama tradicinių mastelio keitimo įstatymų (Kaplan ir kt., 2020), kurie pabrėžia, kad norint pagerinti našumą, reikia daugiau parametrų. Vietoj to, pagrindinis dėmesys skiriamas gyliui, o ne pločiui, pagerinant gebėjimą užfiksuoti abstrakčias sąvokas ir pagerinti galutinį našumą. Šiuos modelius galima įsigyti Hugging Face Hub ir juos galima sklandžiai integruoti su Transformerių biblioteka.
„MobileLLM“ naudoja keletą pagrindinių naujovių, todėl ji skiriasi nuo ankstesnių sub-milijardų parametrų modelių. Vienas iš pagrindinių naudojamų metodų yra bendrinimo įterpimas, kai tie patys svoriai naudojami tarp įvesties ir išvesties sluoksnių, maksimaliai išnaudojant svorį ir sumažinant modelio dydį. Be to, modelis naudoja sugrupuotą užklausos dėmesį (GQA), perimtą iš Ainslie ir kt. (2023), kuris optimizuoja dėmesio mechanizmus ir gerina efektyvumą. Kitas svarbus bruožas yra greitas blokų svorio pasidalijimas, kuris apima svorių atkartojimą tarp gretimų blokų, kad būtų sumažintas delsimas, nepadidinant modelio dydžio. Šis metodas sumažina svorio judėjimo poreikį, todėl įvykdymo laikas yra greitesnis. Šios techninės detalės prisideda prie to, kad MobileLLM būtų labai efektyvus ir gali veikti įrenginyje, minimaliai pasikliaujant debesų kompiuterija.
„MobileLLM“ svarba slypi gebėjime pateikti sudėtingą kalbos modeliavimą mobiliuosiuose įrenginiuose nepakenkiant našumui. Atlikdama nulinio kadro užduotis, „MobileLLM“ 125M modelio ir 4,3% 350M modelio našumu pralenkė ankstesnius panašaus dydžio moderniausius (SOTA) modelius. Tai parodo modelio potencialą įrenginyje esančioms programoms, tokioms kaip pokalbiai ir API skambučiai. API iškvietimo užduotyje „MobileLLM-350M“ modelis pasiekė panašų tikslios atitikties balą su didesniu „LLaMA-v2 7B“ modeliu, parodydamas savo konkurencingumą, nepaisant mažesnio dydžio. Šios pažangos pabrėžia, kaip maži, veiksmingi modeliai, tokie kaip „MobileLLM“, gali atlikti svarbų vaidmenį mažinant delsą ir energijos suvartojimą naudojant mobiliuosius įrenginius.
Apibendrinant galima pasakyti, kad „Meta's MobileLLM“ yra naujoviškas sprendimas didėjančiam susirūpinimui dėl didelio masto LLM skaičiavimo ir aplinkosaugos sąnaudų. Sutelkdama dėmesį į gylį per plotį, įterpiant dalijimąsi, sugrupuotų užklausų dėmesį ir greitą blokų svorio dalijimąsi, MobileLLM sugeba užtikrinti aukštą našumą nereikalaujant didelių išteklių. Šis leidimas yra reikšmingas žingsnis į priekį perkeliant LLM galią į mobiliuosius įrenginius, didinant jų galimybes įvairioms programoms, nuo pokalbių iki API integravimo, išlaikant efektyvumą ir mažinant veiklos sąnaudas. Mobiliosioms technologijoms toliau tobulėjant, tokie modeliai kaip „MobileLLM“ prisidės prie to, ką galima pasiekti įrenginyje.
Patikrinkite Popierius ir visas atlaisvinimas ant apsikabinančio veido. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
(Tendencijos) „LLMWare“ pristato „Model Depot“: platų mažų kalbų modelių (SLM) kolekciją „Intel“ kompiuteriams
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
Klausykite mūsų naujausių AI podcast'ų ir AI tyrimų vaizdo įrašų čia ➡️