Studija o novijim, većim verzijama tri glavna chatbota umjetne inteligencije (AI) pokazuje da su skloniji generirati pogrešne odgovore nego priznati neznanje. Procjena je također pokazala da ljudi nisu dobri u uočavanju loših odgovora.
Svakodnevni korisnici vjerojatno bi mogli precijeniti sposobnosti chatbota, a to je opasno.
Mnogo se pozornosti pridaje činjenici da veliki jezični modeli (LLM-ovi) koji se koriste za pokretanje chatbota ponekad pogriješe ili 'haluciniraju' čudne odgovore na određeni upit. Znanstvenici s Valencijskog istraživačkog instituta za umjetnu inteligenciju analizirali su takve pogreške kako bi vidjeli promjene kako modeli postaju sve veći. Također su pratili podudara li se vjerojatnost pogrešaka s ljudskom percepcijom težine pitanja i koliko dobro ljudi mogu prepoznati pogrešne odgovore.
Tim je otkrio da su veće, rafiniranije verzije LLM-a, kao što se i očekivalo, točnije, velikim dijelom zahvaljujući tome što su oblikovane metodama finog ugađanja kao što je učenje s pojačanjem iz ljudske povratne informacije. Ali oni su manje pouzdani: među svim netočnim odgovorima, udio pogrešnih odgovora se povećao, jer je manja vjerojatnost da će modeli izbjeći odgovor na pitanje govoreći da ne znaju ili promjenom teme, odnosno povećala se tendencija chatbota da ponude mišljenja izvan vlastitog znanja. Rezultat je da će svakodnevni korisnici vjerojatno precijeniti sposobnosti chatbota, a to je opasno.
Tim je promatrao tri LLM obitelji: OpenAI-jev GPT, Metin LLaMA i BLOOM, model otvorenog koda koji je stvorila akademska grupa BigScience. Za svaki su pogledali rane, sirove verzije modela i kasnije, dorađene verzije.
Testirali su modele na tisućama upita koji su uključivali pitanja o aritmetici, anagramima, geografiji i znanosti, kao i upite koji su testirali sposobnost robota da transformiraju informacije, poput postavljanja popisa abecednim redom. Također su rangirali težinu pitanja koju ljudi percipiraju - na primjer, pitanje o Torontu u Kanadi rangirano je kao lakše od pitanja o manje poznatom i manjem gradu Akilu u Meksiku.
Kao što se i očekivalo, točnost odgovora se povećavala kako su pročišćeni modeli postajali veći i smanjivala se kako su pitanja postajala teža. I premda bi za modele moglo biti mudro izbjegavati odgovore na vrlo teška pitanja, istraživači nisu pronašli snažan trend u tom smjeru. Umjesto toga, neki modeli, poput GPT-4, odgovorili su na gotovo sve. Udio pogrešnih odgovora među onima koji su bili ili netočni ili izbjegnuti porastao je kako su modeli postajali veći, te je dosegao više od 60%, za nekoliko poboljšanih modela.
Tim je također otkrio da bi svi modeli povremeno dali pogrešne odgovore čak i na laka pitanja, što znači da ne postoji 'sigurna radna regija' u kojoj korisnik može imati veliko povjerenje u odgovore.
Tim je zatim zamolio ljude da rangiraju odgovore kao točne, netočne ili izbjegavajuće. Ljudi su iznenađujuće često pogrešno klasificirali netočne odgovore kao točne - otprilike između 10% i 40% vremena - na laka i teška pitanja.
Istraživači smatraju da bi programeri trebali poboljšati performanse umjetne inteligencije na jednostavnim pitanjima i potaknuti chatbotove da odbiju odgovarati na teška pitanja, kako bi ljudi mogli bolje procijeniti situacije u kojima je umjetna inteligencija vjerojatno pouzdana.