Dideli kalbos modeliai (LLM) tapo daugelio dirbtinio intelekto sistemų pagrindu, o tai labai prisideda prie natūralios kalbos apdorojimo (NLP), kompiuterinio matymo ir net mokslinių tyrimų pažangos. Tačiau šie modeliai turi savo iššūkių. Didėjant geresnių AI galimybių paklausai, didėja ir sudėtingesnių ir didesnių modelių poreikis. Dėl LLM dydžio ir skaičiavimo reikalavimų mokymas ir išvados yra brangūs, todėl mokslininkai ieško efektyvesnių architektūrų. Vienas iš išpopuliarėjusių sprendimų yra ekspertų mišinio (MoE) modelis, kuris pagerina našumą selektyviai aktyvuojant specializuotus komponentus. Nepaisant pažado, labai nedaug didelio masto AM modelių buvo atviro kodo bendruomenės naudojimui, o tai riboja naujoves ir praktinį pritaikymą.
„Tencent“ žengė reikšmingą žingsnį į priekį, išleisdamas „Hunyuan-Large“, kuris, kaip teigiama, yra didžiausias šiuo metu pramonėje prieinamas atviras „Transformer“ pagrindu sukurtas MoE modelis. Turėdamas iš viso 389 milijardus parametrų, iš kurių 52 milijardai yra aktyvūs, Hunyuan-Large yra sukurtas tvarkyti itin didelius kontekstus iki 256 000 žetonų. Šiame modelyje yra precedento neturintis pažangiausių NLP ir bendrųjų dirbtinio intelekto užduočių sprendimo būdų derinys, konkuruojantis su kitais pirmaujančiais modeliais, pvz., LLama3.1-70B ir LLama3.1-405B, ir, kai kuriais atvejais, pranokstamas. Tencent indėlis yra gyvybiškai svarbus dirbtinio intelekto bendruomenei, nes tai yra ištekliai, kuriuose didelis našumas derinamas su masteliu, padedantis pramonės profesionalams ir tyrėjams peržengti AI galimybių ribas.
„Hunyuan-Large“ savo įspūdingą našumą pasiekia dėl įvairių techninių pažangų. Modelis yra iš anksto parengtas naudojant septynis trilijonus žetonų, įskaitant 1,5 trilijono sintetinių duomenų, kurie pagerina mokymąsi įvairiose srityse, pavyzdžiui, matematikos, kodavimo ir daugiakalbystės. Šie didžiuliai ir įvairūs duomenys leidžia modeliui efektyviai apibendrinti, pralenkiant kitus panašių dydžių modelius. Naudojant mišrią ekspertų maršruto parinkimo strategiją, kartu su naujovėmis, tokiomis kaip rakto vertės (KV) talpyklos glaudinimas ir ekspertams būdingas mokymosi greitis, „Hunyuan-Large“ išsiskiria efektyvumu. KV talpyklos glaudinimas sumažina atminties sąnaudas darant išvadas, todėl galima efektyviai keisti modelio mastelį išlaikant aukštos kokybės atsakymus. Be to, ekspertams būdingas mokymosi greitis leidžia skirtingiems modelio komponentams treniruotis optimaliau, subalansuojant krūvį tarp bendrų ir specializuotų ekspertų.
„Hunyuan-Large“ išleidimas yra reikšmingas dėl daugelio priežasčių. Tai ne tik suteikia galimybę dirbti su tikrai didelio masto Vidaus reikalų ministerijos modeliu, bet ir turi atvirojo kodo kodų bazę bei iš anksto parengtus kontrolinius punktus, todėl jį galima pasiekti tolesniems tyrimams ir plėtrai. Etalonai rodo, kad Hunyuan-Large pranoksta esamus modelius atliekant pagrindines NLP užduotis, tokias kaip atsakymas į klausimus, loginis samprotavimas, kodavimas ir skaitymo supratimas. Pavyzdžiui, pagal MMLU etaloną jis pranoksta LLama3.1-405B modelį su 88,4 balu, palyginti su LLama 85,2. Šis pasiekimas pabrėžia Hunyuan-Large mokymo ir architektūros efektyvumą, nepaisant to, kad turi mažiau aktyvių parametrų. Puikiai atlikdamas užduotis, kurioms reikia ilgo konteksto supratimo, Hunyuan-Large taip pat pašalina esminį dabartinių LLM galimybių spragą, todėl jis ypač naudingas programoms, kurioms reikia apdoroti išplėstines teksto sekas.
„Tencent's Hunyuan-Large“ yra svarbus žingsnis kuriant „Transformer“ pagrindu sukurtus MoE modelius. Su 389 milijardais parametrų ir techninių patobulinimų, pvz., KV talpyklos glaudinimo ir ekspertų mokymosi greičio, jis suteikia AI bendruomenei galingą įrankį tolesniems tyrimams ir programoms. Šio modelio išleidimas yra žingsnis link didelio masto dirbtinio intelekto dar labiau prieinamo ir galimo, skatinant naujoves įvairiose srityse.
Patikrinkite Popierius, Kodasir Modeliai. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
(Rėmimo galimybė su mumis) Reklamuokite savo tyrimą / produktą / internetinį seminarą su 1 milijonu ir daugiau skaitytojų per mėnesį ir daugiau nei 500 000 bendruomenės narių
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
Klausykite mūsų naujausių AI podcast'ų ir AI tyrimų vaizdo įrašų čia ➡️