EDRE įrenginiai, tokie kaip išmanieji telefonai, IoT prietaisai ir įterptos sistemos, apdoroja duomenis vietoje, gerina privatumą, sumažina delsą ir padidina reagavimą, o AI greitai integruojami į šiuos įrenginius. Tačiau dėl didelių skaičiavimo ir atminties poreikių diegti didelius kalbų modelius (LLMS) šiuose įrenginiuose yra sunku ir sudėtinga.
LLM yra masinio dydžio ir galios reikalavimai. Turėdami milijardus parametrų, jie reikalauja reikšmingos atminties ir apdorojimo pajėgumų, viršijančių daugumos krašto įrenginių galimybes. Nors kiekybinio nustatymo metodai sumažina modelio dydį ir energijos suvartojimą, įprastinė aparatūra yra optimizuota simetriniams skaičiavimams, ribojant mišraus tikslumo aritmetikos palaikymą. Šis vietinės aparatinės įrangos palaikymo trūkumas mažo bitų skaičiavimams riboja diegimą mobiliesiems ir įterptoms platformoms.
Ankstesni LLM veikiančių kraštų įrenginių veikimo metodai naudoja aukšto bitų tikslumo formatus, tokius kaip FP32 ir FP16, kurie pagerina skaitmeninį stabilumą, tačiau reikalauja reikšmingos atminties ir energijos. Kai kurie metodai naudoja mažesnio bitų kiekybinį kiekį (pvz., Int8 arba Int4), kad sumažintų išteklių poreikius, tačiau suderinamumo problemos kyla su esama aparatine įranga. Kita technika-dezekantizacija, pakartotinai eksploatavimo modeliai prieš skaičiavimą, tačiau įveda latenciją ir paneigia efektyvumo padidėjimą. Be to, tradiciniam matricos daugybai (GEMM) reikia vienodų tikslumo lygių, todėl našumo optimizavimas įvairiose aparatinės įrangos architektūrose yra kompleksas.
„Microsoft“ tyrėjai pristatė daugybę pažangų, kad LLMS būtų užtikrintas efektyvus mažo bitų kiekis LLM. Jų požiūris apima tris pagrindines naujoves:
- Kopėčių duomenų tipo kompiliatorius
- T-MAC MPGEMM biblioteka
- Lut Tensor Core aparatinės įrangos architektūra
Šiais metodais siekiama įveikti aparatinės įrangos apribojimus palengvinant mišraus tikslumo bendrosios matricos daugybos (MPGEMM) ir sumažindami skaičiavimo pridėtines išlaidas. Naudodamiesi šiais sprendimais, tyrėjai siūlo praktinę sistemą, palaikančią efektyvią LLM išvadą, nereikalaujant specializuotų GPU ar didelės galios greitintuvų.
Pirmasis kopėčių duomenų tipo kompiliatoriaus kompiliatorius užpildo atotrūkį tarp žemo bitų modelio vaizdų ir aparatinės įrangos apribojimų. Tai paverčia nepalaikomus duomenų formatus į suderinamus su aparatine įranga reprezentacijomis, išlaikant efektyvumą. Šis požiūris užtikrina, kad šiuolaikinės giluminio mokymosi architektūros gali naudoti pasirinktinius duomenų tipus neprarandant našumo.
T-MAC MPGEMM biblioteka optimizuoja mišraus tikslumo skaičiavimus, naudodama paieškos lentelės (LUT) pagrįstą metodą, o ne tradicines daugybos operacijas. Ši naujovė pašalina dezekanalizacijos poreikį ir žymiai padidina CPU skaičiavimo efektyvumą.
Be to, „Lut Tensor Core“ aparatinės įrangos architektūra pristato specializuotą greitintuvą, skirtą mažo bitų kiekybei. Tai pasitelkia optimizuotą instrukciją, skirtą pagerinti našumą, tuo pačiu sumažinant energijos suvartojimą.
Vertinant kopėčių duomenų tipo kompiliatorius pralenkia įprastus giliųjų neuroninių tinklų (DNN) kompiliatorius iki 14,6 karto, kai konkrečiuose mažo bitų skaičiavimuose. Testuojant krašto įrenginiuose, tokiuose kaip „Surface Laptop 7“ su „Qualcomm Snapdragon X Elite“ mikroschemų rinkiniu, T-MAC biblioteka pasiekė 48 žetonus per sekundę 3B „Bitnet-B1.58“ modeliui, pralenkdama esamas išvadų bibliotekas. Žemesnės klasės prietaisuose, tokiuose kaip „Raspberry Pi 5“, jis pasiekė 11 žetonų per sekundę, parodydamas reikšmingą efektyvumo pagerėjimą. Tuo tarpu „Lut Tensor Core“ aparatinė įranga padidino 11,2 karto padidėjusį energijos vartojimo efektyvumą ir 20,9 karto skaičiavimo tankio padidėjimą.
Keli pagrindiniai „Microsoft“ tyrimų paėmimai yra šie:
- Mažo bitų kiekybinis nustatymas sumažina modelio dydį, leidžiantį efektyviai vykdyti kraštų įrenginius.
- T-MAC biblioteka padidina išvadų greitį, pašalindama tradicines daugybos operacijas.
- „Ladder Compiler“ užtikrina sklandų pasirinktinių mažo bitų duomenų formatų integraciją su esama aparatine įranga.
- Optimizuoti metodai sumažina energijos naudojimą, todėl LLMS yra įmanomas mažos energijos prietaisams.
- Šie metodai leidžia LLM efektyviai veikti įvairiose aparatinės įrangos, pradedant aukštos klasės nešiojamaisiais kompiuteriais ir baigiant mažos galios IoT įrenginiais.
- Šios naujovės pasiekia 48 žetonus per sekundę „Snapdragon X Elite“, 30 žetonų per sekundę per 2 bitų 7B lamą ir 20 žetonų per sekundę 4 bitų 7B lama.
- Jie taip pat įgalina AI pagrįstas programas mobiliuosiuose, robotuose ir įterptosiose AI sistemose, kad LLMS būtų prieinamesnės.
Apibendrinant galima pasakyti, kad tyrimas pabrėžia aparatinės įrangos suvokimo kiekio metodų svarbą norint diegti LLMS krašto įrenginiuose. Siūlomi sprendimai iš tikrųjų nagrinėja ilgalaikius atminties sunaudojimo, skaičiavimo efektyvumo ir aparatinės įrangos suderinamumo iššūkius. Įdiegę „Ladder“, „T-MAC“ ir „Lut Tensor Core“, tyrėjai nutiesė kelią naujos kartos AI programoms, kurios yra greitesnės, efektyvesnės energijai ir labiau keičiami įvairiose platformose.
Patikrinkite detalės ir popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 75K+ ml subreddit.
🚨 Rekomenduojama atvirojo kodo AI platforma: „„ Intellagent “yra atvirojo kodo daugialypės terpės sistema, skirta įvertinti sudėtingą pokalbio AI sistemą“ (reklamuojama)

„MarktechPost“ ir „IIT Madras“ dvigubo laipsnio studentė konsultacinė Sana Hassan aistringai taiko technologijas ir AI, kad galėtų spręsti realaus pasaulio iššūkius. Turėdamas didelį susidomėjimą išspręsti praktines problemas, jis pateikia naują perspektyvą AI ir realaus gyvenimo sprendimų sankryžai.
✅ (rekomenduojama) Prisijunkite prie mūsų telegramos kanalo