UC San Diego

Zatvori

Chatbot prošao Turingov test inteligencije

Studija je otkrila da je OpenAI-jev veliki jezični model GPT-4.5 zavarao test za ljude u 73 posto slučajeva.

Turingov test je dugo godina bio važan alat za procjenu AI-ja te se smatralo da onaj sustav koji ga prođe možemo smatrati da ima "ljudsku inteligenciju".

Studija kognitivnih znanstvenika Camerona Jonesa i Benjamina Bergena sa Svučilišta Kalifornija u San Diegu, uključila je testiranje 4 LLM-a, odnosno modele ELIZA, GPT-4o, LLaMa-3.1-405B i GPT-4.5.

Tijekom testova sudionici su prošli osam krugova razgovora u kojima su djelovali kao ispitivači razmjenjujući tekstualne poruke s dva testna subjekta istovremeno. Jedan subjekt bio je čovjek, a drugi LLM.

Od sudionika se tražilo da komuniciraju s oba subjekta istovremeno na podijeljenom ekranu tijekom pet minuta, s testnim sučeljem koje oponaša konvencionalno sučelje za razmjenu poruka. Nakon te interakcije trebali su odlučiti koji je subjekt čovjek, a koji AI chatbot.

Sudionici su procijenili da je GPT-4.5 čovjek u 73% slučajeva, a LLaMa-3.1-405B u 56% slučajeva. Druga dva modela (ELIZA i GPT-4o) prevarila su sudionike u samo 23% odnosno 21% slučajeva.

Drugim riječima, moglo bi se reći da su GPT-4.5 i LLaMa-3.1-405B uspješno zavarali ispitivače, što bi značilo da imaju jednaki oblik inteligencije kao ljudi, no istraživači smatraju da to baš i nije tako, jer Turingov test se više ne smatra ultimativnim alatom za procjenu opće umjetne inteligencije.

Prvu iteraciju testa predstavio je engleski matematičar i informatičar Alan Turing u radu iz 1948. pod naslovom "Inteligentni strojevi ". Izvorno je predloženo kao eksperiment koji uključuje troje ljudi koji igraju šah s teoretskim strojem koji se naziva stroj za papir, dvoje su igrači, a jedan operater.

U publikaciji iz 1950. " Computing Machinery and Intelligence ", Turing je ponovno uveo eksperiment kao "igru oponašanja" i tvrdio da je to način određivanja sposobnosti stroja da pokaže inteligentno ponašanje jednako ljudskom.

No postoji nekoliko zamjerki Turingovom testu. Neki istraživači tvrde da je sposobnost prolaženja testa stvar ponašanja, a ne inteligencije. Stoga ne bi bilo kontradiktorno reći da stroj može proći igru imitacije, ali ne može misliti. Nadalje, Turing tvrdi da je mozak stroj, no mnogi znanstvenici opovrgavaju ovu tvrdnju i na temelju toga dovode u pitanje valjanost testa.

Kako računala nisu ljudi, njihov postupak za donošenje zaključaka možda nije usporediv s ljudskim, što test čini neadekvatnim jer izravna usporedba ne može funkcionirati, dok neki istraživači vjeruju da testiranje samo jednog ponašanja nije dovoljno za određivanje inteligencije.

To implicira da istraživači ne podržavaju ideju da je Turingov test legitiman pokazatelj ljudske inteligencije, već ga doživljavaju kao pokazatelja oponašanja ljudske inteligencije.

Bez obzira na to, prolazak Turingovog testa od strane AI-ja je po nama ogroman napredak u „pameti“ strojeva.

Studiju u preprintu koja još nije recenzirana možete pronaći na ovoj poveznici.