Didelės kalbos modeliai (LLM) tapo sudėtingesni ir paklausesni, todėl įmonėms, siekiančioms teikti keičiamo dydžio ir ekonomiškai efektyvų modelį kaip paslaugą (MaaS), kyla didelių iššūkių. Spartus LLM pritaikymas įvairiose programose lėmė labai skirtingą darbo krūvį, atsižvelgiant į įvesties / išvesties ilgius, atvykimo dažnius ir paslaugų reikalavimus. Išteklių panaudojimo subalansavimas siekiant patenkinti šiuos įvairius poreikius tapo esminiu iššūkiu. Norint pasiekti šią pusiausvyrą, reikia sudėtingų strategijų, kad būtų pasiekti skirtingi delsos ir pralaidumo paslaugų lygio tikslai (SLO). Be to, įprastos LLM aptarnavimo architektūros dažnai daro prielaidą, kad yra pakankamai išteklių, kad būtų galima apdoroti visas užklausas, o tai darosi vis sunkiau dėl didėjančios paklausos, ypač didžiausio naudojimo metu.
Pagrindinis iššūkis yra maksimaliai padidinti pralaidumą nepažeidžiant delsos, ypač dėl to, kad didėja veiklos sąnaudos, o GPU ištekliai išlieka riboti. Siekdama išspręsti šias problemas, Moonshot AI sukūrė naują architektūrą.
„Moonshot AI“ atvirojo šaltinio pagrindinė samprotavimo architektūra: „Mooncake“.
Kinijoje įsikūrusi AI įmonė Moonshot AI oficialiai sukūrė atvirojo kodo pagrindinę samprotavimo architektūrą, pavadintą Mėnulio pyragas. „Mooncake“ siekia išspręsti pagrindinius LLM aptarnavimo mastelio ir efektyvumo iššūkius. „Moonshot AI“ naudoja į KVCache orientuotą išskaidytą architektūrą, kuri išskiria „Mooncake“ iš tradicinių LLM aptarnavimo platformų. Pirmasis atvirojo kodo „Mooncake“ komponentas, vadinamas Perdavimo variklisdabar yra „GitHub“, o ateityje planuojama išleisti daugiau komponentų „GitHub“ nuoroda.
„Mooncake“ esmė yra į KVCache orientuotas požiūris į skaičiavimo darbo krūvį. Atskirdama išankstinio užpildymo ir dekodavimo grupes, „Mooncake“ gali dinamiškai optimizuoti išteklius, naudodama nepakankamai išnaudotus procesoriaus, DRAM ir SSD išteklius efektyviam kaupimui talpykloje. Šis atskyrimas yra labai svarbus sprendžiant įvairias LLM aptarnavimo etapų skaičiavimo charakteristikas. Sprendimas naudoti atvirojo kodo „Mooncake“ atspindi įsipareigojimą užtikrinti skaidrumą ir bendruomenės skatinamus LLM mastelio patobulinimus.
Techninės detalės
Mooncake svertai a Į KVCache orientuota išankstinio užpildymo dekodavimo (PD) atskyrimo technika ir a saugojimo ir skaičiavimo išskaidyta architektūrakurios žymiai pagerino „Moonshot AI“ LLM paslaugos „Kimi“ išvadų pralaidumą. KVCache mechanizmas yra pagrindinis veiksnys optimizuojant pralaidumą ir delsą. Užuot naudoję GPU išteklius su visais modelio aptarnavimo aspektais, „Mooncake“ izoliuoja KVCache naudojimą nuo skaičiavimo užduočių, todėl jį gali valdyti nepakankamai išnaudojama aparatinė įranga, pvz., CPU ir SSD.
„Mooncake“ architektūra padalija LLM aptarnavimą į du etapus –Išankstinis užpildymas ir dekodavimas. Išankstinio užpildymo etape pakartotinai naudojama talpykla perkeliama į išankstinio užpildymo egzempliorius, o tai optimizuoja pirmą prieigos rakto generavimą ir sumažina perteklinius skaičiavimus. Tada dekodavimo etape KVCache sujungiama, kad būtų galima efektyviai sudėti paketus. Dėl šio atskyrimo gerokai pagerėjo našumas.
Įgyvendinant a prognozėmis pagrįsta ankstyvo atmetimo politikaMooncake taip pat padeda išvengti sistemos perkrovos didžiausių užklausų laikotarpiais. Šis metodas padėjo išlaikyti paslaugų lygio tikslus (SLO) iki pirmojo prieigos rakto (TTFT) ir laiko tarp prieigos raktų (TBT), net ir esant dideliam darbo krūviui. Eksperimentiniai rezultatai parodė, kad, palyginti su pradine linija, Mooncake pasiekė iki a penkis kartus padidinti pralaidumą modeliuojamuose scenarijuose ir įjungta 75 % daugiau užklausų apdorojimo esant realiam darbo krūviui.
„Mooncake“ atvirojo kodo leidimo reikšmė yra daugiasluoksnė. Tai rodo pažangą LLM išvadų darbo krūvių decentralizavimasužtikrinant, kad nė vienas aparatūros komponentas netaptų kliūtimi. Į KVCache orientuotas planavimo modelis efektyviai subalansuoja išteklių apkrovas, todėl paslaugų teikėjai gali maksimaliai padidinti pralaidumą nepažeidžiant delsos reikalavimų. Šis efektyvumas yra būtinas, atsižvelgiant į didėjančią LLM pajėgumų paklausą visose pramonės šakose.
Eksperimentiniai rezultatai rodo, kad Mooncake pasiekė a penkis kartus padidinti pralaidumą kai kuriuose modeliuojamuose ilgo konteksto scenarijuose, išlaikant reikiamus SLO. Realiame pasaulyje „Mooncake“ leido Kimi tvarkytis 75% daugiau užklausų palyginti su ankstesnėmis architektūromis. Šie patobulinimai išryškina „Mooncake“ gebėjimą efektyviai didinti mastelį ir sumažinti išlaidas. Išskirstymo metodas taip pat suteikia daugiau lankstumo pridedant skaičiavimo išteklius skrydžio metu, todėl LLM darbo krūvių kintamumas sprendžiamas efektyviau nei tradicinės susietos sistemos.
Laipsniškas atvirojo kodo diegimas taip pat skatina bendradarbiavimą. Pradėdamas nuo perdavimo variklio, „Moonshot AI“ siekia surinkti bendruomenės įžvalgas prieš išleisdamas papildomus komponentus. Šis laipsniškas metodas yra skirtas tolesniam optimizavimui ir platesniam pritaikymui įvairiuose sektoriuose, kuriems reikia veiksmingų LLM aptarnavimo sprendimų.
Išvada
„Moonshot AI“ sprendimas naudoti atvirojo kodo „Mooncake“ atspindi platesnę pramonės tendenciją į skaidrią ir keičiamo dydžio AI kūrimo praktiką. Sutelkdama dėmesį į KVCache atskyrimą, „Mooncake“ sprendžia pagrindinius LLM aptarnavimo iššūkius – delsą, efektyvumą ir mastelį. Jis jau parodė didelį našumo padidėjimą, todėl tai yra perspektyvi LLM aptarnavimo sistema. „Mooncake“ architektūra efektyviai subalansuoja skaičiavimo ir talpyklos poreikius, pagerindama išteklių panaudojimą, sumažindama delsą ir padidindama bendrą pralaidumą. Laipsniškas atvirojo kodo metodas pabrėžia Moonshot AI įsipareigojimą nuolat tobulėti ir bendradarbiauti bendruomenėje.
Patikrinkite Popierius ir GitHub puslapis. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 60k+ ML SubReddit.
🚨 (Privalai dalyvauti internetiniame seminare): „Paverskite koncepcijos įrodymus į gamybai paruoštas AI programas ir agentus“ (Paaukštintas)
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
🚨🚨NEMOKAMAS AI INTERNETINĖS SEMINARAS: „Fast Track your LLM Apps with deepset & Haystack“ (reklamuojama)