MIT
Obuka LLM-a za samodetoksikaciju jezika
Nova metoda iz MIT-IBM Watson AI Laba pomaže velikim jezičnim modelima da usmjere vlastite odgovore prema pristojnijim rezultatima.

Kako se pokazalo, veliki jezični modeli (LLM-ovi), koji su obučeni na opsežnim, javnim skupovima podataka, često imaju pristranosti i otrovan jezik jer su se naučili od nas ljudi, a svi znamo da na internetu nema previše ustezanja od prljavog jezika i vulgarnosti pa se i AI modeli ponekad ponašaju na isti način u obraćanju nama.
Nova metoda MIT-a, MIT-IBM Watson AI Laba i IBM Researcha, nazvana samodisciplinirano autoregresivno uzorkovanje (SASA), omogućuje LLM-ima da "detoksificiraju" vlastite rezultate, bez žrtvovanja tečnosti u komunikaciji.
Za razliku od drugih metoda detoksikacije, ovaj algoritam za dekodiranje uči granicu između toksičnih/netoksičnih podprostora unutar interne reprezentacije LLM-a, bez mijenjanja parametara modela, potrebe za ponovnom obukom ili vanjskog modela nagrađivanja. Zatim, tijekom zaključivanja, algoritam procjenjuje vrijednost toksičnosti djelomično generirane fraze, tokena (riječi) koji su već generirani i prihvaćeni, zajedno sa svakim potencijalnim novim tokenom koji bi se razumno mogao odabrati zbog blizine granice klasifikatora. Zatim odabire opciju riječi koja smješta frazu u netoksični prostor, u konačnici nudeći brz i učinkovit način za generiranje manje toksičnog jezika.
"Željeli smo pronaći način s bilo kojim postojećim jezičnim modelom koji tijekom procesa generiranja, može biti podložan nekim ljudskim vrijednostima koje uključuju toksičnost", kaže glavna autorica studije Ching-YunKo, bivša diplomirana pripravnica u MIT-IBM Watson AI Labu i trenutačna znanstvenica u IBM-ovom istraživačkom centru Thomas J. Watson u New Yorku.
Resursi za obuku koji stoje iza LLM-a gotovo uvijek uključuju sadržaj prikupljen s javnih prostora poput interneta i drugih lako dostupnih skupova podataka. Kao takve, psovke i maltretiranje/neprijatan jezik su sastavni dijelovi, iako su neki od njih u kontekstu književnih djela. Iz toga slijedi da LLM-ovi mogu urođeno proizvesti, ili biti prevareni da generiraju, opasan i/ili pristran sadržaj, koji često sadrži neugodne riječi ili jezik mržnje, čak i iz bezazlenih upita.
Nadalje, otkriveno je da mogu naučiti i proširiti jezik koji nije poželjan ili čak štetan za mnoge aplikacije, što dovodi do potrebe za strategijama ublažavanja ili ispravljanja.
Postoji mnogo načina za postizanje robusnog generiranja jezika koji je pošten i usklađen s vrijednostima. Neke metode koriste prekvalifikaciju LLM-a s pročišćenim skupom podataka, što je skupo, zahtijeva vrijeme i može promijeniti izvedbu LLM-a. Drugi koriste vanjske modele nagrađivanja za dekodiranje, poput uzorkovanja, kojima je potrebno više vremena da se pokrenu i zahtijevaju više memorije.
U slučaju SASA-e, istraživački tim je razvio metodu koja iskorištava autoregresivnu prirodu LLM-ova i koristeći strategiju temeljenu na dekodiranju tijekom zaključivanja LLM-a, postupno usmjerava generiranje, jedan po jedan token, dalje od neugodnih ili neželjenih rezultata prema boljem jeziku.
Istraživačka skupina to je postigla izgradnjom linearnog klasifikatora koji djeluje na naučenom potprostoru iz ugradnje LLM-a. Kada se LLM obučavaju, riječi sa sličnim značenjima smještene su blizu jedna drugoj u vektorskom prostoru i dalje od različitih riječi. Istraživači su pretpostavili da bi ugradnja LLM-a stoga također uhvatila kontekstualne informacije, koje bi se mogle koristiti za detoksikaciju. Istraživači su koristili skupove podataka koji su sadržavali skupove upita (prva polovica rečenice ili misli), odgovora (završetak te rečenice) i napomene koje je pripisao čovjek, poput toksičnih ili netoksičnih, preferiranih ili nepoželjnih, s neprekinutim oznakama od 0-1, označavajući rastuću toksičnost.
Zatim je primijenjen Bayesov optimalni klasifikator za učenje i figurativno povlačenje crte između binarnih potprostora unutar rečeničnih umetanja, predstavljenih pozitivnim vrijednostima (netoksični prostor) i negativnim brojevima (toksični prostor).
Sustav SASA zatim radi ponovnim ponderiranjem vjerojatnosti uzorkovanja najnovijeg potencijalnog tokena na temelju njegove vrijednosti i udaljenosti generirane fraze od klasifikatora, s ciljem da ostane blizu izvorne distribucije uzorkovanja.
Za ilustraciju, ako korisnik generira potencijalni token #12 u rečenici, LLM će pregledati svoj cijeli vokabular u potrazi za razumnom riječi, na temelju 11 riječi koje su bile prije njega, filtrirati i proizvesti otprilike 10 tokena za odabir. SASA zatim procjenjuje svaki od tih tokena u djelomično dovršenoj rečenici zbog njegove blizine klasifikatoru (tj. vrijednost tokena 1-11, plus svaki potencijalni token 12). Tokeni koji proizvode rečenice u pozitivnom prostoru se potiču, dok se oni u negativnom prostoru kažnjavaju. Osim toga, što je dalje od klasifikatora, utjecaj je jači.
"Cilj je promijeniti proces autoregresijskog uzorkovanja ponovnim ponderiranjem vjerojatnosti dobrih tokena. Ako je vjerojatno da će sljedeći token biti toksičan s obzirom na kontekst, tada ćemo smanjiti vjerojatnost uzorkovanja za one koji su skloni biti toksični tokeni", kaže Ko. Istraživači su odlučili to učiniti na ovaj način "jer stvari koje govorimo, bez obzira jesu li benigne ili ne, podliježu kontekstu."
Istraživači su povećali složenost svojih ispitivanja detoksikacije od strane SASA-e, počevši s netoksičnim uputama iz skupa podataka RPT, tražeći štetne dovršetke rečenica. Zatim su to eskalirali na izazovnije upute iz RPT-a za koje je vjerojatnije da će proizvesti zabrinjavajuće rezultate, a također su primijenili SASA na model prilagođen uputama kako bi procijenili može li njihova tehnika dodatno smanjiti neželjene izlaze.
Također su koristili BOLD i AttaQ mjerila za ispitivanje općenite primjenjivosti SASA u detoksikaciji. Uz BOLD skup podataka, istraživači su dodatno tražili rodnu pristranost u jezičnim generacijama i pokušali postići uravnoteženu stopu toksičnosti među spolovima. Na kraju, tim je promatrao vrijeme izvođenja, korištenje memorije i kako se SASA može kombinirati s filtriranjem riječi kako bi se postiglo zdravo i/ili korisno generiranje jezika.
Sve u svemu, SASA je postigla značajna smanjenja stvaranja toksičnih jezika, radeći jednako kao i RAD, najsuvremenija tehnika vanjskog modela nagrađivanja. Međutim, općenito je uočeno da jača detoksikacija prati smanjenje tečnosti. Prije intervencije, LLM-ovi su proizvodili više toksičnih odgovora za ženske označene upite nego za muške. Međutim, SASA je također uspjela značajno smanjiti štetne odgovore, čineći ih ujednačenijim. Slično tome, filtriranje riječi povrh SASA značajno je smanjilo razine toksičnosti, ali je također ometalo sposobnost LLM-a da koherentno odgovori.
Nadalje, kaže Ko, SASA bi mogao dobro funkcionirati za višestruke atribute u budućnosti: "Za ljudska bića imamo višestruke ljudske vrijednosti. Ne želimo govoriti toksične stvari, ali također želimo biti iskreni, korisni i lojalni... Ako želite fino prilagoditi model za sve te vrijednosti, to bi zahtijevalo više računalnih resursa i, naravno, dodatnu obuku. Ako želite raditi s višestrukim vrijednostima, to je jednostavno provjeravanje položaja generacije u višestrukim potprostorima. Dodaje samo marginalne troškove u smislu izračuna i parametara", kaže Ko, što dovodi do pozitivnijeg, pravednijeg i načelno usklađenijeg jezika.
Učitavam komentare ...