Universitat Politècnica de València

Zatvori

Što su LLM AI modeli veći to su netočniji

Istraživanje pokazuje da veliki jezični modeli češće griješe kako rastu.

Tim istraživača umjetne inteligencije na sveučilištu Universitat Politècnica de València (UPV) u Španjolskoj otkrio je da popularni veliki jezični modeli (LLM) sve češće daju pogrešne odgovore kako postaju sve veći i sofisticiraniji.

U svojoj studiji istraživači su testirali točnost tri najpopularnija LLM-a, GPT, BLOOM i LLaMA kako bi procijenili njihovu točnost u pružanju odgovora, ali i koliko su korisnici dobri u tome da uoče pogrešne odgovore.

Veliki napredak u umjetnoj inteligenciji u posljednjih nekoliko godina zaslužan je za to što su se korisnici navikli koristiti LLM-ove za pisanje radova, zadaća, pjesama te rješavanje matematičkih problema i drugih zadataka, a pitanje točnosti postaje sve veći problem.

U ovoj novoj studiji, istraživači su se pitali postaju li najpopularniji LLM-i točniji sa svakim novim ažuriranjem i što rade kada su u krivu.

Kako bi testirali točnost, grupa istraživača je svježe ažuriranim modelima postavljala na tisuće pitanja i uspoređivala odgovore koje su dobili s odgovorima ranijih verzija AI modela na ista pitanja.

Također su mijenjali teme, uključujući matematiku, znanost, anagrame i geografiju te sposobnost LLM-a da generiraju tekst. Za sva pitanja prvo su dodijelili stupanj težine.

Otkrili su da se sa svakom novom iteracijom chatbota točnost općenito poboljšava. Također su otkrili da kako su pitanja postajala teža, točnost se smanjivala, kao što je i očekivano. No također su otkrili da kako su LLM-i postajali sve veći i sofisticiraniji, manje su bili otvoreni u pogledu vlastite sposobnosti da točno odgovore na pitanje.

U ranijim verzijama, većina LLM-a odgovorila bi korisnicima da ne mogu pronaći odgovore ili im je potrebno više informacija. U novijim verzijama, LLM-i su vjerojatnije pogađali, što je općenito dovelo do više odgovora, kako točnih, tako i netočnih. Također su otkrili da su svi LLM-i povremeno davali netočne odgovore čak i na laka pitanja, što sugerira da još uvijek nisu pouzdani.

Istraživački tim je zatim zamolio volontere da ocijene odgovore iz prvog dijela studije kao točne ili netočne i otkrili su da je većina imala poteškoća s uočavanjem netočnih odgovora.

Prema ovoj studiji razvidno je da LLM-ovi s novim ažuriranjima postaju sve bolji, ali kada pogriješe to ne žele priznati pa se ne bismo trebali baš uvijek pouzdavati u njih.