Daju li AI modeli više originalnih ideja od istraživača?
01.10.2024.
Generator ideja pokretan umjetnom inteligencijom (AI) došao je do više originalnih istraživačkih ideja od 50 znanstvenika koji rade neovisno, stoji u preprintu objavljenom na arXiv. No znanstvenici napominju da studija, koja nije recenzirana, ima ograničenja. Fokusirala se na jedno područje istraživanja i zahtijevala je od ljudskih sudionika da u hodu smišljaju ideje, što je vjerojatno ometalo njihovu sposobnost da proizvedu svoje najbolje koncepte.
Ideje generirane ljudima i umjetnom inteligencijom ocjenjivali su recenzenti, kojima nije rečeno tko ili što je stvorilo svaku ideju. Recenzenti su koncepte generirane umjetnom inteligencijom ocijenili uzbudljivijima od onih koje su napisali ljudi, iako su prijedlozi umjetne inteligencije imali nešto niže ocjene glede izvedivosti.
Ulaže se sve više napora kako bi se istražilo mogu li se koristiti veliki jezični modeli za automatizaciju istraživačkih zadataka, uključujući pisanje radova, generiranje koda i pretraživanje literature. No bilo je teško procijeniti mogu li ovi alati umjetne inteligencije generirati nove kutove istraživanja na razini sličnoj ljudskoj. To je zato što je ocjenjivanje ideja vrlo subjektivno i zahtijeva okupljanje istraživača koji imaju stručnost da ih pažljivo procijene.
Jednogodišnji projekt jedan je od najvećih pokušaja da se procijeni mogu li veliki jezični modeli (LLM) — tehnološki temeljni alati kao što je ChatGPT — proizvesti inovativne istraživačke ideje.
Tim je angažirao više od 100 istraživača u obradi prirodnog jezika — grani računalne znanosti koja se fokusira na komunikaciju između umjetne inteligencije i ljudi. Četrdeset i devet sudionika imalo je zadatak razviti i napisati ideje, temeljene na jednoj od sedam tema, u roku od deset dana. Kao poticaj, istraživači su sudionicima platili 300 USD za svaku ideju, uz bonus od 1000 USD za pet ideja koje su dobile najviše bodova.
U međuvremenu, istraživači su izradili generator ideja koristeći Claude 3.5, LLM koji je razvio Anthropic u San Franciscu. Istraživači su potaknuli svoj AI alat kako bi pronašli radove relevantne za sedam istraživačkih tema koristeći Semantic Scholar, tražilicu literature koju pokreće AI. Na temelju tih radova, istraživači su zatim potaknuli svog agenta za umjetnu inteligenciju da generira 4000 ideja o svakoj temi istraživanja i dali mu upute da rangira one najoriginalnije.
Zatim su istraživači nasumično dodijelili ideje koje su generirali ljudi i umjetna inteligencija - 79 recenzenata, koji su ocjenjivali svaku ideju prema njezinoj novosti, uzbudljivosti, izvedivosti i očekivanoj učinkovitosti. Kako bi osigurali da autori ideja ostanu nepoznati recenzentima, istraživači su upotrijebili još jedan LLM za uređivanje obje vrste teksta kako bi standardizirali stil pisanja i ton bez mijenjanja samih ideja.
U prosjeku, recenzenti su ideje generirane umjetnom inteligencijom ocijenili kao originalnije i uzbudljivije od onih koje su napisali ljudski sudionici. Međutim, kada je tim pomnije pogledao 4000 ideja koje je proizveo LLM, pronašli su samo oko 200 koje su doista jedinstvene, što sugerira da je umjetna inteligencija postala manje originalna jer je izbacivala ideje.
Rezultati sugeriraju da bi LLM mogli proizvesti ideje koje su nešto originalnije od onih u postojećoj literaturi. Ali mogu li pobijediti najrevolucionarnije ljudske ideje otvoreno je pitanje.