„Kili Technology“ neseniai išleido išsamią informaciją ataskaita, kurioje pabrėžiami dideli AI kalbos modelių pažeidžiamumassutelkdami dėmesį į jų jautrumą modeliais pagrįstoms dezinformacijos atakoms. Dirbtinio intelekto sistemoms tampant vartotojų produktų ir įmonės įrankių sudedamosiomis dalimis, norint užtikrinti saugų ir etišką jų naudojimą, labai svarbu suprasti ir sumažinti tokius pažeidžiamumus. Šiame straipsnyje nagrinėjama įžvalgos iš naujo „Kili Technology“ daugiakalbio tyrimo ir su juo susijusias išvadas, pabrėžiančias, kaip tokie pirmaujantys modeliai kaip CommandR+, Llama 3.2 ir GPT4o gali būti pažeisti net ir naudojant tariamai tvirtas apsaugos priemones.
Keletas/daug šūvių atakų ir šablonais pagrįstų pažeidžiamumų
Pagrindinis apreiškimas iš Kili Technology ataskaita yra tai, kad net pažangiais didelių kalbų modeliais (LLM) galima manipuliuoti, kad būtų sukurta žalinga produkcija, taikant metodą „Mažai/daug šūvių ataka“. Taikant šią techniką, modeliui pateikiami kruopščiai atrinkti pavyzdžiai, taip sąlygojant, kad jis atkartotų ir išplėstų tą modelį žalingais ar klaidinančiais būdais. Tyrimo metu nustatyta, kad šio metodo sėkmės rodiklis yra stulbinantis iki 92,86%, o tai yra labai efektyvus, palyginti su kai kuriais pažangiausiais šiandien prieinamais modeliais.
The tyrimai apėmė pagrindines LLM, tokias kaip CommandR+, Llama 3.2 ir GPT4o. Įdomu tai, kad nepaisant jų įmontuotų saugos funkcijų, visi modeliai buvo labai jautrūs dezinformacijai modeliu. Šį pažeidžiamumą dar labiau padidino modeliams būdingas pasikliovimas įvesties signalais – kai tik kenkėjiškas raginimas nustato klaidinantį kontekstą, modelis jį seka labai tiksliai, nepaisydamas neigiamų pasekmių.
Kelių kalbų įžvalgos: AI pažeidžiamumo skirtumai
Kitas svarbus aspektas Kili tyrimai dėmesys sutelkiamas į daugiakalbį našumą. Vertinimas buvo išplėstas ne tik anglų kalba, bet ir prancūzų kalba, tiriant, ar kalbų skirtumai turi įtakos modelio saugai. Pažymėtina, kad modeliai buvo nuolat labiau pažeidžiami, kai buvo raginami anglų kalba, palyginti su prancūzų kalba, o tai rodo, kad dabartinės apsaugos priemonės gali būti nevienodai veiksmingos visomis kalbomis.
Praktiškai tai pabrėžia kritinę akląją AI saugos zoną: modeliai, kurie yra pakankamai atsparūs atakoms viena kalba, vis tiek gali būti labai pažeidžiami kita kalba. Kili išvadose pabrėžiama, kad reikia holistiškesnių, daugiakalbių požiūrių į AI saugumą, kuris turėtų apimti įvairias kalbas, atstovaujančias įvairiems kultūriniams ir geopolitiniams kontekstams. Toks požiūris ypač tinkamas, nes LLM vis dažniau diegiamos visame pasaulyje, kur būtinos daugiakalbės galimybės.
The ataskaita paminėjo, kad kiekvienai kalbai buvo sukurti 102 raginimai, juos kruopščiai pritaikius, kad jie atspindėtų kalbinius ir kultūrinius niuansus. Pažymėtina, kad anglų kalbos raginimai buvo kilę iš Amerikos ir Didžiosios Britanijos kontekstų, o vėliau išversti ir pritaikyti prancūzų kalbai. Rezultatai parodė, kad nors prancūzų raginimai buvo mažesni manipuliuojant modeliais, pažeidžiamumas išliko pakankamai reikšmingas, kad būtų galima susirūpinti.
Saugos priemonių erozija ilgos sąveikos metu
Vienas iš labiausiai susirūpinusių išvadų ataskaita yra tai, kad dirbtinio intelekto modeliai linkę laipsniškai mažinti savo etines apsaugos priemones ilgos sąveikos metu. Iš pradžių modeliai gali reaguoti atsargiai, net atsisakę generuoti žalingus rezultatus, kai bus tiesiogiai paraginti. Tačiau pokalbiui tęsiantis šios apsaugos priemonės dažnai susilpnėja, todėl modelis galiausiai patenkina žalingus prašymus.
Pavyzdžiui, tais atvejais, kai „CommandR+“ iš pradžių nenorėjo generuoti aiškaus turinio, besitęsiantis pokalbis lėmė, kad modelis galiausiai pasidavė vartotojų spaudimui. Dėl to kyla kritinių klausimų apie dabartinių saugos sistemų patikimumą ir jų gebėjimą išlaikyti nuoseklias etines ribas, ypač ilgalaikio naudotojo įsitraukimo metu.
Etinės ir visuomeninės pasekmės
Išvados, kurias pateikė Kili technologija pabrėžia didelius etinius iššūkius diegiant AI. Lengvumas, kuriuo pažangiais modeliais gali būti manipuliuojama siekiant gauti žalingų ar klaidinančių rezultatų, kelia pavojų ne tik pavieniams vartotojams, bet ir platesnei visuomenei. Nuo netikrų naujienų iki poliarizuojančių pasakojimų – AI ginklų panaudojimas dezinformacijai gali turėti įtakos viskam – nuo politinio stabilumo iki asmens saugumo.
Be to, pastebėti etiško elgesio skirtingomis kalbomis nenuoseklumai taip pat rodo, kad skubiai reikia integruotų, daugiakalbių mokymo strategijų. Tai, kad pažeidžiamumas anglų kalba yra lengviau išnaudojamas, palyginti su prancūzų kalba, rodo, kad ne anglų kalbos naudotojams šiuo metu gali būti naudingas netyčinis apsaugos sluoksnis, o tai rodo netolygų saugos standartų taikymą.
Žvilgsnis į ateitį: AI gynybos stiprinimas
Kili Technology išsamus įvertinimas suteikia pagrindą didinti LLM saugumą. Jų išvados rodo, kad dirbtinio intelekto kūrėjai turi teikti pirmenybę saugos priemonių tvirtumui visuose sąveikos etapuose ir visomis kalbomis. Gali prireikti tokių metodų kaip prisitaikančios saugos sistemos, kurios gali dinamiškai prisitaikyti prie ilgalaikių naudotojų sąveikų pobūdžio, kad būtų išlaikytas etikos standartas, nepasiduodant laipsniškam pablogėjimui.
„Kili Technology“ tyrimų grupė pabrėžė savo planus išplėsti savo analizės apimtį ir įtraukiant kitas kalbas, įskaitant tas, kurios atstovauja skirtingoms kalbų šeimoms ir kultūriniams kontekstams. Šia sistemine plėtra siekiama sukurti atsparesnes dirbtinio intelekto sistemas, kurios galėtų apsaugoti vartotojus, nepaisant jų kalbinės ar kultūrinės kilmės.
Bendradarbiavimas tarp dirbtinio intelekto tyrimų organizacijų bus labai svarbus siekiant sumažinti šiuos pažeidžiamumus. Raudonosios komandos sudarymo metodai turi tapti neatsiejama AI modelio vertinimo ir tobulinimo dalimi, daugiausia dėmesio skiriant prisitaikančių, daugiakalbių ir kultūriškai jautrių saugos mechanizmų kūrimui. Sistemingai šalindami Kili tyrimų metu atskleistas spragas, dirbtinio intelekto kūrėjai gali kurti modelius, kurie būtų ne tik galingi, bet ir etiški bei patikimi.
Išvada
Naujausioje „Kili Technology“ ataskaitoje išsamiai apžvelgiamos dabartinės AI kalbos modelių pažeidžiamumas. Nepaisant pažangos modelio saugos srityje, išvados rodo, kad išlieka reikšmingų trūkumų, ypač dėl jų jautrumo dezinformacijai ir prievartai, taip pat dėl nenuoseklaus veikimo skirtingomis kalbomis. Kadangi LLM vis labiau įsilieja į įvairius visuomenės aspektus, labai svarbu užtikrinti jų saugumą ir etinį suderinamumą.
Patikrinkite Visas pranešimas čia. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
Ačiū Kili technologija už minties lyderystę/ Mokomasis straipsnis. Kili technologija palaikė mus šiame turinyje / straipsnyje.
Asif Razzaq yra „Marktechpost Media Inc.“ generalinis direktorius. Kaip verslininkas ir inžinierius, Asif yra įsipareigojęs panaudoti dirbtinio intelekto potencialą socialinei gerovei. Naujausias jo siekis yra dirbtinio intelekto medijos platformos „Marktechpost“ paleidimas, kuri išsiskiria išsamia mašininio mokymosi ir gilaus mokymosi naujienomis, kurios yra techniškai pagrįstos ir lengvai suprantamos plačiajai auditorijai. Platforma gali pasigirti daugiau nei 2 milijonais peržiūrų per mėnesį, o tai rodo jos populiarumą tarp auditorijos.
🐝🐝 LinkedIn renginys „Viena platforma, multimodalinės galimybės“, kuriame „Encord“ generalinis direktorius Ericas Landau ir produktų inžinerijos vadovas Justinas Sharpsas kalbės apie tai, kaip jie iš naujo išranda duomenų kūrimo procesą, kad padėtų komandoms greitai kurti žaidimus keičiančius multimodalinius AI modelius.