Patobulinta paieška (RAG) pagerina didelių kalbų modelių (LLM) išvestį naudojant išorines žinių bazes. Šios sistemos veikia gaudamos atitinkamą informaciją, susietą su įvestimi, ir įtraukdamos ją į modelio atsaką, pagerindamos tikslumą ir aktualumą. Tačiau RAG sistema kelia problemų dėl duomenų saugumo ir privatumo. Tokios žinių bazės bus linkusios į neskelbtiną informaciją, kuri gali būti pasiekiama piktybiškai, kai raginimai gali paskatinti modelį atskleisti neskelbtiną informaciją. Tai kelia didelę riziką tokiose programose kaip klientų aptarnavimas, organizaciniai įrankiai ir medicininiai pokalbių robotai, kur būtina apsaugoti konfidencialią informaciją.
Šiuo metu metodai, naudojami paieškos papildytos kartos (RAG) sistemose ir didelių kalbų modeliuose (LLM), susiduria su dideliais pažeidžiamumu, ypač susijusių su duomenų privatumu ir saugumu. Taikant tokius metodus kaip narystės išvados atakos (MIA), bandoma nustatyti, ar konkretūs duomenų taškai priklauso mokymo rinkiniui. Vis dėlto pažangesnės technologijos yra skirtos jautrių žinių pavogimui tiesiai iš RAG sistemų. Metodai, tokie kaip TGTB ir PIDE, remiasi statiniais duomenų rinkinių raginimais, ribojančiais jų pritaikymą. „Dynamic Greedy Embedding Attack“ (DGEA) įdiegia prisitaikančius algoritmus, tačiau reikalauja kelių kartotinių palyginimų, todėl jis yra sudėtingas ir reikalauja daug išteklių. Rag-Thief (RThief) naudoja atminties mechanizmus teksto gabalams išgauti, tačiau jo lankstumas labai priklauso nuo iš anksto nustatytų sąlygų. Šie metodai kovoja su efektyvumu, pritaikomumu ir efektyvumu, todėl dažnai RAG sistemos yra linkusios į privatumo pažeidimus.
Norėdami išspręsti privatumo problemas paieškos papildytos kartos (RAG) sistemose, Perudžos universiteto, Sienos universiteto ir Pizos universiteto mokslininkai pasiūlė aktualumu pagrįstą sistemą, skirtą išgauti privačias žinias ir užkirsti kelią pasikartojančiam informacijos nutekėjimui. Sistemoje naudojami atvirojo kodo kalbų modeliai ir sakinių koduotuvai, kad automatiškai ištirtų paslėptas žinių bazes, iš anksto nepasikliaujant mokėjimo už naudojimą paslaugomis ar sistemos žiniomis. Skirtingai nuo kitų metodų, šis metodas mokosi laipsniškai ir yra linkęs maksimaliai aprėpti privačią žinių bazę bei platesnį tyrinėjimą.
Sistema veikia aklame kontekste, naudodama funkcijų vaizdavimo žemėlapį ir adaptyvias strategijas privačiai žinių bazei tirti. Jis įgyvendinamas kaip juodosios dėžės ataka, kuri veikia standartiniuose namų kompiuteriuose ir nereikalauja jokios specializuotos aparatinės įrangos ar išorinių API. Šis metodas pabrėžia perkeliamumą tarp RAG konfigūracijų ir suteikia paprastesnį, ekonomiškesnį metodą pažeidžiamumui atskleisti, palyginti su ankstesniais neadaptyviais arba daug išteklių reikalaujančiais metodais.
Tyrėjai siekė sistemingai atrasti privačias žinias apie KKK ir pakartoti jas užpuoliko sistemoje kaip K∗K^*K∗. Jie tai pasiekė kurdami adaptyvias užklausas, kurios naudojo tinkamumu pagrįstą mechanizmą, kad nustatytų labai svarbius „inkarus“, susijusius su paslėptomis žiniomis. Atvirojo kodo įrankiai, įskaitant mažą paruoštą LLM ir teksto koduotuvą, buvo naudojami užklausoms rengti, įterpti ir palyginti panašumus. Ataka buvo vykdoma pagal nuoseklų algoritmą, kuris adaptyviai generavo užklausas, ištraukė ir atnaujino inkarus ir patobulino tinkamumo balus, kad būtų maksimaliai padidintos žinios. Pasikartojantys gabalai ir inkarai buvo nustatyti ir išmesti naudojant kosinuso panašumo slenksčius, kad būtų užtikrintas efektyvus ir triukšmui atsparus duomenų išgavimas. Procesas tęsėsi iteratyviai, kol visi inkarai neturėjo jokios reikšmės, veiksmingai sustabdydami ataką.
Tyrėjai atliko eksperimentus, kurie imitavo realaus pasaulio atakų scenarijus trijose RAG sistemose, naudojant skirtingus užpuoliko pusės LLM. Tikslas buvo išgauti kuo daugiau informacijos iš privačių žinių bazių, kiekvienai RAG sistemai įdiegiant į pokalbių robotą panašų virtualų agentą, skirtą vartotojo sąveikai per natūralios kalbos užklausas. Buvo apibrėžti trys agentai: Agentas, diagnostikos pagalbos pokalbių robotas; agentas B, chemijos ir medicinos mokslinis asistentas; ir agentas C, vaikų auklėjimo asistentas. Privačios žinių bazės buvo imituojamos naudojant duomenų rinkinius, o kiekvienam agentui buvo atrinkta 1000 dalių. Eksperimentai palygino siūlomą metodą su konkurentais, tokiais kaip TGTB, PIDE, DGEA, RThief ir GPTGEN skirtingose konfigūracijose, įskaitant ribotas ir neribotas atakas. Vertinimui buvo naudojamos tokios metrikos kaip navigacijos aprėptis, nutekėjusios žinios, nutekintos dalys, unikalios nutekintos dalys ir atakos užklausos generavimo laikas. Rezultatai parodė, kad siūlomas metodas aplenkė konkurentus pagal navigacijos aprėptį ir nutekino žinias ribotuose scenarijuose, o neribotuose scenarijuose turėjo dar daugiau pranašumų, pranokdamas RThief ir kitus.
Apibendrinant, siūlomas metodas pateikia adaptyvią atakos procedūrą, kuri iš RAG sistemų ištraukia privačias žinias, pralenkdama konkurentus aprėpties, nutekėjusių žinių ir užklausų kūrimo laiko atžvilgiu. Tai išryškino tokius iššūkius kaip sunkumai lyginant išgautas dalis ir reikalaujantis daug stipresnių apsaugos priemonių. Tyrimas gali būti pagrindas būsimam darbui kuriant tvirtesnius gynybos mechanizmus, tikslines atakas ir patobulintus RAG sistemų vertinimo metodus.
Patikrinkite Popierius. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Nepamirškite prisijungti prie mūsų 60k+ ML SubReddit.
🚨 Populiarumas: LG AI tyrimų išleidimas EXAONE 3.5: trys atvirojo kodo dvikalbiai AI lygio modeliai, teikiantys neprilygstamas instrukcijas ir ilgą konteksto supratimą, kad būtų pasaulinė lyderystė kuriant AI tobulumą….

Divyesh yra „Marktechpost“ konsultavimo praktikantas. Jis siekia žemės ūkio ir maisto inžinerijos bakalauro laipsnio Indijos technologijos institute Kharagpur. Jis yra duomenų mokslo ir mašininio mokymosi entuziastas, norintis integruoti šias pirmaujančias technologijas į žemės ūkio sritį ir spręsti iššūkius.
🧵🧵 (Atsisiųsti) Didelių kalbų modelio pažeidžiamumo ataskaitos įvertinimas (reklamuojamas)