Vidaus reikalų ministerijos modelių maršruto mechanizmas kelia didelį privatumo iššūkį. Optimizuokite LLM didelės kalbos modelio našumą, pasirinktinai suaktyvindami tik dalį visų jo parametrų, tuo pačiu padidindami priešingų duomenų išgavimą per nuo maršruto parinkimo priklausomą sąveiką. Ši rizika, kuri akivaizdžiai kyla dėl ECR mechanizmo, leistų užpuolikui išmesti vartotojo įvestus duomenis, įdėdamas savo sukurtas užklausas į tą pačią apdorojimo grupę kaip ir tikslinė įvestis. MoE Tiebreak Leakage Attack išnaudoja tokias architektūrines ypatybes ir atskleidžia gilų privatumo projektavimo trūkumą, kurį reikia pašalinti, kai tokie Vidaus reikalų ministerijos modeliai paprastai bus naudojami realiojo laiko programoms, kurioms reikalingas efektyvumas ir saugumas naudojant duomenis.
Dabartiniuose Vidaus reikalų ministerijos modeliuose naudojamas atrakinimas ir atrankinis žetonų maršrutas, siekiant pagerinti efektyvumą paskirstant apdorojimą keliems „ekspertams“, taip sumažinant skaičiavimo poreikį, palyginti su tankiais LLM. Tačiau toks selektyvus aktyvinimas sukelia pažeidžiamumą, nes nuo paketo priklausomi maršruto sprendimai daro modelius jautrius informacijos nutekėjimui. Pagrindinė maršruto parinkimo strategijų problema yra ta, kad jos žetonus apdoroja deterministiškai, neužtikrindamos nepriklausomumo tarp partijų. Ši paketinė priklausomybė leidžia priešams išnaudoti maršruto parinkimo logiką, gauti prieigą prie privačių įvesties duomenų ir atskleisti esminį saugumo trūkumą modeliuose, optimizuotuose skaičiavimo efektyvumui privatumo sąskaita.
„Google DeepMind“ tyrėjai pašalina šias spragas naudodami MoE Tiebreak Leakage Attack – sisteminį metodą, kuris manipuliuoja MoE maršruto parinkimo elgesiu, kad padarytų išvadą apie naudotojų raginimus. Šis atakos metodas įterpia sukurtas įvestis, susietas su aukos raginimu, kuris išnaudoja deterministinį modelio elgseną, kad būtų nutrauktas ryšys, o tada, kai spėjimas yra teisingas, stebimas stebimas išvesties pokytis, todėl greitieji žetonai nutekėja. Šį atakos procesą sudaro trys pagrindiniai komponentai: (1) žetonų spėjimas, kai užpuolikas tiria galimus skubius žetonus; (2) ekspertinis buferio manipuliavimas, per kurį užpildymo sekos naudojamos maršruto parinkimo elgsenai valdyti; ir (3) maršruto parinkimo kelio atkūrimas, siekiant patikrinti spėjimų teisingumą dėl įvairių partijų užsakymų išvesties skirtumų. Tai atskleidžia anksčiau neištirtą MoE architektūros šoninio kanalo atakos vektorių ir optimizuojant modelius reikia atsižvelgti į privatumą.
MoE Tiebreak Leakage Attack eksperimentuojama su aštuonių ekspertų Mixtral modeliu su ECR pagrįstu maršrutizavimu, naudojant PyTorch CUDA top-k diegimą. Ši technika sumažina žodyno rinkinį ir rankdarbių užpildymo sekas taip, kad paveiks ekspertų gebėjimus ir nepadarytų nenuspėjamas maršrutas. Kai kurie iš svarbiausių techninių žingsnių yra šie:
- Žetonų tikrinimas ir patikrinimas: buvo naudojamas kartotinis žetonų spėjimo mechanizmas, kai užpuoliko spėjimai suderinami su aukos raginimu, stebint maršruto skirtumus, kurie rodo teisingą spėjimą.
- Ekspertų pajėgumų valdymas: tyrėjai naudojo užpildymo sekas, kad kontroliuotų ekspertų buferio talpą. Tai buvo padaryta taip, kad konkretūs žetonai būtų nukreipti numatytiems ekspertams.
- Kelio analizė ir išvesties atvaizdavimas: naudojant vietinį modelį, kuris palygina dviejų priešiškai sukonfigūruotų partijų išvestis, maršruto parinkimo keliai buvo identifikuoti su kiekvieno zondo įvesties atpažinimo ženklu, kad būtų patikrinta, ar išgavimas yra sėkmingas.
Buvo atliktas skirtingo ilgio pranešimų ir prieigos raktų konfigūracijų įvertinimas labai tiksliai atkuriant prieigos raktą ir keičiamo mastelio metodą, leidžiantį aptikti privatumo pažeidžiamumą maršrutizavimo priklausomose architektūrose.
MoE Tiebreak Leakage Attack buvo stebėtinai efektyvus: atkurta 4833 iš 4838 žetonų, o tikslumas viršijo 99,9%. Rezultatai buvo nuoseklūs visose konfigūracijose su strateginiu užpildu ir tiksliais maršruto valdikliais, kurie palengvino beveik visišką greitą ištraukimą. Naudojant vietinio modelio užklausas, kad būtų galima atlikti daugumą sąveikų, ataka optimizuoja efektyvumą, labai nepriklausydama nuo tikslinių modelių užklausų, kad būtų žymiai pagerintas programų praktiškumas realiame pasaulyje ir nustatomas metodo mastelio keitimas įvairioms Ūkio ministerijos konfigūracijoms ir nustatymams.
Šis darbas nustato kritinį privatumo pažeidžiamumą MoE modeliuose, išnaudodamas nuo paketų priklausomo maršruto ECR pagrįstose architektūrose potencialą, kuris bus naudojamas priešingiems duomenims išgauti. Sistemingas jautrių vartotojų raginimų atkūrimas naudojant deterministinį maršruto parinkimą, kurį įgalino MoE Tiebreak Leakage Attack, rodo, kad maršruto parinkimo protokoluose reikia saugiai sukurti. Siekiant sumažinti šiuos pažeidžiamumus, ateityje optimizuojant modelį reikėtų atsižvelgti į galimą privatumo riziką, pvz., riziką, kuri gali kilti dėl atsitiktinumo arba užtikrinant paketo nepriklausomumą. Šiame darbe pabrėžiama, kad svarbu įtraukti saugumo vertinimus į architektūrinius sprendimus dėl Vidaus reikalų ministerijos modelių, ypač kai realaus pasaulio programos vis labiau pasikliauja LLM, kad tvarkytų neskelbtiną informaciją.
Patikrinkite Popierius. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
(Rėmimo galimybė su mumis) Reklamuokite savo tyrimą / produktą / internetinį seminarą su 1 milijonu ir daugiau skaitytojų per mėnesį ir daugiau nei 500 000 bendruomenės narių
Aswin AK yra MarkTechPost konsultavimo praktikantas. Jis siekia dvigubo laipsnio Indijos technologijos institute, Kharagpur. Jis yra aistringas duomenų mokslui ir mašininiam mokymuisi, turintis tvirtą akademinį išsilavinimą ir praktinę patirtį sprendžiant realaus gyvenimo kelių sričių iššūkius.
Klausykite mūsų naujausių AI podcast'ų ir AI tyrimų vaizdo įrašų čia ➡️