GUI Agentai siekia atlikti realias užduotis skaitmeninėje aplinkoje, suprasdami ir sąveikaudami su grafinėmis sąsajomis, tokiomis kaip mygtukai ir teksto laukai. Didžiausi atviri iššūkiai suteikia galimybę agentams apdoroti sudėtingas, keičiantis sąsajas, suplanuoti veiksmingus veiksmus ir vykdyti tikslias užduotis, apimančias spustelėtų sričių paiešką ar teksto laukų užpildymą. Šiems agentams taip pat reikia atminties sistemų, kad būtų galima prisiminti ankstesnius veiksmus ir prisitaikyti prie naujų scenarijų. Viena reikšminga problema, su kuria susiduria šiuolaikiniai, vieningi modeliai nuo galo iki galo, yra integruoto suvokimo, samprotavimo ir veiksmų nebuvimas sklandžiose darbo eigose su aukštos kokybės duomenimis, apimančiais šį regėjimo plotį. Trūkstant tokių duomenų, šios sistemos vargu ar gali prisitaikyti prie dinaminės aplinkos ir masto įvairovės.

Dabartiniai požiūriai į GUI Agentai dažniausiai yra pagrįsti taisyklėmis ir labai priklauso nuo iš anksto nustatytų taisyklių, rėmų ir žmonių įsitraukimo, kurie nėra lankstūs ar keičiami. Taisyklėmis pagrįsti agentai, pavyzdžiui Robotų proceso automatizavimas (RPA), veikia struktūrizuotoje aplinkoje naudodamiesi žmogaus apibrėžta euristika ir reikalaujama tiesioginės prieigos prie sistemų, todėl jos nėra tinkamos dinaminėms ar ribotoms sąsajoms. Pagrindiniai agentai naudoja pamatų modelius, tokius kaip GPT-4 Kelių žingsnių samprotavimams, tačiau vis tiek priklauso nuo rankinių darbo eigų, raginimų ir išorinių scenarijų. Šie metodai yra trapūs, jiems reikia nuolat atnaujinti keičiant užduotis ir jame nėra sklandžios mokymosi integracijos iš realaus pasaulio sąveikos. Vietinių agentų modeliai bando sujungti suvokimą, samprotavimus, atmintį ir veiksmus po vienu stogu, sumažindami žmonių inžineriją per mokymąsi nuo galo iki galo. Vis dėlto šie modeliai remiasi kuruojamais duomenimis ir mokymo gairėmis, taip ribodami jų pritaikomumą. Šie metodai neleidžia agentams mokytis savarankiškai, efektyviai prisitaikyti ar tvarkyti nenuspėjamus scenarijus be rankinės intervencijos.

Spręsti iššūkius, su kuriais susiduria GUI agentų plėtra, tyrėjai iš Sėklos ir Tsinghua universitetaspasiūlė UI-TARS sistema Norėdami padidinti vietinių GUI agentų modelius. Tai integruoja sustiprintą suvokimą, vieningą veiksmų modeliavimą, pažangų samprotavimą ir iteracinį mokymą, kuris padeda sumažinti žmogaus intervenciją geresniu apibendrinimu. Tai įgalina išsamų supratimą, tiksliai nurodant sąsajos elementus, naudojant didelį GUI ekrano kopijų duomenų rinkinį. Tai pristato vieningą veiksmų erdvę, skirtą standartizuoti platformos sąveiką ir panaudojant išsamius veiksmo pėdsakus, kad padidintų daugiapakopį vykdymą. Sistema taip pat apima 2 sistema Sąmoningo sprendimų priėmimo ir kartojimo pagrįstumas tobulina savo galimybes per internetinę sąveikos pėdsakus.

Tyrėjai sukūrė sistemą su keliais pagrindiniais principais. Patobulintas suvokimas buvo naudojamas siekiant užtikrinti, kad GUI elementai būtų tiksliai atpažįstami, naudojant kuruojamus duomenų rinkinius tokioms užduotims kaip elemento aprašymas ir tanki antraštė. Vieningas veiksmo modeliavimas susieja elementų aprašymus su erdvinėmis koordinatėmis, kad būtų pasiektas tikslus įžeminimas. „System-2“ samprotavimai buvo integruoti į įvairius loginius modelius ir aiškius minties procesus, vadovaujant sąmoningiems veiksmams. Tai panaudojo iteracinius mokymus dinaminio duomenų rinkimo ir sąveikos tobulinimui, klaidų identifikavimui ir pritaikymui per refleksijos derinimą, siekiant tvirto ir keičiamo mastelio mokymosi, su mažiau žmonių įsitraukimu.

Tyrėjai išbandė UI-TARS išmokytas maždaug 50B Žetonai išilgai įvairių ašių, įskaitant suvokimą, įžeminimą ir agento galimybes. Modelis buvo sukurtas iš trijų variantų: UI-TARS-2B, UI-TARS-7Bir UI-TARS-72Bkartu su išsamiais eksperimentais, patvirtinančiais jų pranašumus. Palyginti su bazinėmis linijomis kaip GPT-4o ir Claude-3,5UI-TARS geriau atliko etalonus, matuojančius suvokimą, pavyzdžiui, „VisualWebbench“ ir „WebSRC“. UI-TARS pranašesni modeliai, pavyzdžiui, Uground-V1-7b Įrodant įvairius duomenų rinkinius, parodant tvirtas galimybes aukšto paprastumo scenarijuose. Kalbant apie agentų užduotis, UI-TARS pasižymėjo „Multimodal Mind2Web“ ir „Android“ valdymu ir aplinka, pavyzdžiui, tokiomis aplinkomis „OsWorld“ ir „AndroidWorld“. Rezultatai pabrėžė Sistema-1 ir 2 sistema Priežastis, kai „System-2“ samprotavimai yra naudingi įvairiausiems, realaus pasaulio scenarijams, nors tam, kad būtų galima optimaliai atlikti veiklą, reikėjo kelių kandidatų rezultatų. Modelio dydžio padidėjimas pagerino samprotavimus ir sprendimų priėmimą, ypač atliekant internetines užduotis.


Apibendrinant, siūlomas metodas, UI-TARS„Advances GUI“ automatizavimas, integruojant patobulintą suvokimą, vieningą veiksmų modeliavimą, 2 sistemos samprotavimus ir iteracinius mokymus. Tai pasiekia moderniausią našumą, pranoksta ankstesnes sistemas, tokias kaip „Claude“ ir „GPT-4o“, ir veiksmingai tvarko sudėtingas GUI užduotis su minimalia žmonių priežiūra. Šis darbas nustato stiprų būsimų tyrimų pagrindą, ypač aktyviose ir visą gyvenimą trunkančiose mokymosi srityse, kuriose agentai gali savarankiškai tobulėti per nuolatinę realaus pasaulio sąveiką, paruošdami kelią tolesniam pažangai GUI automatizavimui.
Patikrinkite popierius. Visas šio tyrimo kreditas skirtas šio projekto tyrėjams. Be to, nepamirškite sekti mūsų „Twitter“ ir prisijunkite prie mūsų „Telegram“ kanalas ir „LinkedIn GrOUP. Nepamirškite prisijungti prie mūsų 70K+ ml subreddit.
🚨 (Rekomenduojama skaityti) „Nebius AI Studio“ plečiasi su „Vision“ modeliais, naujais kalbų modeliais, įterpimais ir „Lora“ (Paaukštintas)
„Divyesh“ yra konsultavimo praktikantas „MarktechPost“. Jis siekia žemės ūkio ir maisto inžinerijos BTech iš Indijos technologijos instituto Kharagpur. Jis yra duomenų mokslo ir mašinų mokymosi entuziastas, norintis integruoti šias pagrindines technologijas į žemės ūkio sritį ir išspręsti iššūkius.
📄


