Kalbos atpažinimo technologija padarė didelę pažangą, o dirbtinio intelekto pažanga pagerino pasiekiamumą ir tikslumą. Tačiau ji vis dar susiduria su iššūkiais, ypač suprantant šnekamuosius objektus, pvz., vardus, vietas ir specifinę terminiją. Problema yra ne tik apie tikslų kalbos konvertavimą į tekstą, bet ir apie prasmingo konteksto išgavimą realiuoju laiku. Dabartinėse sistemose dažnai reikia atskirų transkripcijos ir objekto atpažinimo įrankių, todėl atsiranda vėlavimų, neveiksmingumo ir neatitikimų. Be to, privatumo problemos, susijusios su neskelbtinos informacijos apdorojimu kalbos transkripcijos metu, kelia didelių iššūkių pramonės šakoms, dirbančioms su konfidencialiais duomenimis.
„aiOla“ išleido „Whisper-NER“: atvirojo kodo AI modelį, leidžiantį bendrą kalbos transkripciją ir objektų atpažinimą. Šis modelis sujungia kalbos į tekstą transkripciją su vardinių objektų atpažinimu (NER), kad būtų pateiktas sprendimas, galintis atpažinti svarbius objektus transkribuojant sakytinį turinį. Ši integracija leidžia greičiau suprasti kontekstą, todėl ji tinka pramonės šakoms, kurioms reikalingos tikslios ir privatumą atitinkančios transkripcijos paslaugos, pvz., sveikatos priežiūra, klientų aptarnavimas ir teisinės sritys. „Whisper-NER“ efektyviai sujungia transkripcijos tikslumą su galimybe identifikuoti ir valdyti neskelbtiną informaciją.
Techninės detalės
„Whisper-NER“ yra pagrįsta „OpenAI“ sukurta Whisper architektūra, kuri patobulinta, kad transkribuojant būtų galima atpažinti objektus realiuoju laiku. Naudodamas transformatorius, Whisper-NER gali atpažinti tokius objektus kaip pavadinimus, datas, vietas ir specializuotą terminiją tiesiai iš garso įvesties. Modelis sukurtas veikti realiuoju laiku, o tai naudinga programoms, kurioms reikia momentinio transkripcijos ir supratimo, pvz., tiesioginiam klientų aptarnavimui. Be to, Whisper-NER apima privatumo priemones, skirtas paslėpti neskelbtinus duomenis ir taip padidinti vartotojų pasitikėjimą. Atvirojo kodo Whisper-NER prigimtis taip pat daro ją prieinamą kūrėjams ir tyrėjams, skatinant tolesnes naujoves ir pritaikymą.
„Whisper-NER“ svarba yra jos gebėjimas užtikrinti tikslumą ir privatumą. Atliekant bandymus, modelis parodė klaidų lygio sumažėjimą, palyginti su atskirais transkripcijos ir objektų atpažinimo modeliais. Anot aiOla, „Whisper-NER“ užtikrina beveik 20% pagerintą objektų atpažinimo tikslumą ir siūlo automatines jautrių duomenų redagavimo galimybes realiuoju laiku. Ši funkcija ypač aktuali tokiems sektoriams kaip sveikatos priežiūra, kur turi būti apsaugotas pacientų privatumas, arba verslo aplinkai, kur aptariama konfidenciali klientų informacija. Transkripcijos ir objekto atpažinimo derinys sumažina kelių darbo eigos etapų poreikį, todėl procesas yra supaprastintas ir efektyvesnis. Jis pašalina kalbos atpažinimo spragą, įgalindamas supratimą realiuoju laiku nepakenkiant saugumui.
Išvada
aiOla Whisper-NER yra svarbus žingsnis į priekį kalbos atpažinimo technologijoje. Integruodama transkripciją ir objektų atpažinimą į vieną modelį, aiOla pašalina dabartinių sistemų neefektyvumą ir pateikia praktinį privatumo problemų sprendimą. Atvirojo kodo prieinamumas reiškia, kad modelis yra ne tik įrankis, bet ir būsimų naujovių platforma, leidžianti kitiems pasinaudoti jo galimybėmis. „Whisper-NER“ prisideda prie transkripcijos tikslumo didinimo, neskelbtinų duomenų apsaugos ir darbo eigos efektyvumo didinimo, todėl tai yra reikšminga AI valdomų kalbos sprendimų pažanga. Pramonės šakoms, ieškančioms veiksmingo, tikslaus ir privatumą užtikrinančio sprendimo, Whisper-NER nustato tvirtą standartą.
Patikrinkite popierius, modelis ant apsikabinusio veido, ir „GitHub“ puslapis. Visi nuopelnai už šį tyrimą tenka šio projekto tyrėjams. Taip pat nepamirškite sekti mūsų Twitter ir prisijunk prie mūsų Telegramos kanalas ir LinkedIn group. Jei jums patinka mūsų darbai, jums patiks ir mūsų darbai naujienlaiškis.. Nepamirškite prisijungti prie mūsų 55k+ ML SubReddit.
(NEMOKAMA AI VIRTUALI KONFERENCIJA) „SmallCon“: nemokama virtuali „GenAI“ konferencija „Meta“, „Mistral“, „Salesforce“, „Harvey AI“ ir kt.. Prisijunkite prie mūsų gruodžio 11 d. šiame nemokamajame virtualiame renginyje ir sužinokite, ko reikia norint sukurti didelius mažus modelius iš AI pirmtakų, tokių kaip Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face ir kt.
Aswin AK yra MarkTechPost konsultavimo praktikantas. Jis siekia dvigubo laipsnio Indijos technologijos institute, Kharagpur. Jis yra aistringas duomenų mokslui ir mašininiam mokymuisi, turintis tvirtą akademinį išsilavinimą ir praktinę patirtį sprendžiant realaus gyvenimo kelių sričių iššūkius.
🐝🐝 Perskaitykite šią „Kili Technology“ AI tyrimo ataskaitą „Didelių kalbos modelio pažeidžiamumo įvertinimas: lyginamoji raudonųjų komandų sudarymo metodų analizė“