MIT

Zatvori

AI sustavi su već sposobni varati ljude

Nova studija pokazuje da su sustavi umjetne inteligencije već postali vješti u obmanjivanju i manipuliranju ljudima.

Obmana je sustavno poticanje lažnih uvjerenja kod drugih ljudi kako bi se postigao neki ishod osim istine. Veliki jezični modeli i drugi sustavi umjetne inteligencije već su naučili, kroz svoju obuku, sposobnost prevare putem tehnika kao što su manipulacija, ulizivanje i varanje na testu sigurnosti.

Sve veće mogućnosti AI-a u prijevari predstavljaju ozbiljne rizike, u rasponu od kratkoročnih rizika, poput manipulacija na izborima, do dugoročnih rizika, poput gubitka kontrole nad sustavima AI-a.

U novom radu istraživača s američkog Instituta tehnologije u Massachusettsu MIT, navodi se da je niz postojećih AI sustava već dobro naučio kako prevariti ljude.

Znanstvenici su prvo pregledavali empirijske primjere lažne inteligencije, raspravljajući o sustavima umjetne inteligencije za posebnu upotrebu (uključujući Metin CICERO) i sustavima umjetne inteligencije opće namjene (uključujući velike jezične modela). Zatim detaljno opisuju nekoliko rizika od prijevare umjetne inteligencije, kao što su petljanje u izbore i gubitak kontrole nad umjetnom inteligencijom.

"Programeri umjetne inteligencije nemaju pouzdano razumijevanje o tome što uzrokuje nepoželjna ponašanja umjetne inteligencije kao što je obmana", kaže prvi autor Peter S. Park, postdoktorand na MIT-u. "Ali općenito govoreći, mislimo da se obmana umjetne inteligencije javlja jer se pokazalo da je strategija temeljena na obmani najbolji način za dobro obavljanje danog zadatka obuke umjetne inteligencije. Obmana im pomaže da postignu svoje ciljeve."

Najupečatljiviji primjer obmane umjetne inteligencije koji su istraživači otkrili u svojoj analizi bio je Metin CICERO, AI sustav dizajniran za igranje Diplomacya, igre osvajanja svijeta koja uključuje stvaranje saveza. Iako Meta tvrdi da je obučila CICERO-a da bude u velikoj mjeri pošten i koristan i da nikada namjerno ne zabada nož u leđa svojim ljudskim saveznicima dok igra igru, podaci koje je tvrtka objavila zajedno sa svojim znanstvenim radom otkrili su da CICERO nije igrao pošteno.

"Otkrili smo da je Metina umjetna inteligencija naučila biti majstor prijevare", kaže Park. "Dok je Meta uspjela uvježbati svoju umjetnu inteligenciju da pobjeđuje u igri diplomacije, CICERO se smjestio među 10% najboljih ljudskih igrača koji su igrali više od jedne igre, a Meta nije uspjela uvježbati svoju umjetnu inteligenciju da pošteno pobjeđuje."

Drugi sustavi umjetne inteligencije demonstrirali su sposobnost blefiranja u igri Texas hold 'em pokera protiv profesionalnih ljudskih igrača, lažiranja napada tijekom strateške igre Starcraft II kako bi porazili protivnike i lažnog predstavljanja njihovih preferencija kako bi stekli prednost u ekonomskim pregovorima.

"Iako se može činiti bezopasnim ako sustavi umjetne inteligencije varaju u igrama, to može dovesti do proboja u obmanjujućim sposobnostima umjetne inteligencije koji se u budućnosti mogu pretvoriti u naprednije oblike prijevare umjetne inteligencije", dodao je Park.

Istraživači su otkrili da su neki sustavi umjetne inteligencije čak naučili varati u testovima osmišljenim za procjenu njihove sigurnosti. U jednoj studiji, AI likovi u digitalnom simulatoru "pravili su se mrtvi" kako bi prevarili test koji je napravljen da eliminira AI sustave koji se brzo repliciraju.

"Mi kao društvo trebamo što više vremena da se pripremimo za napredniju prijevaru budućih AI proizvoda i modela otvorenog koda", kaže Park. "Kako obmanjujuće mogućnosti sustava umjetne inteligencije budu napredovale, opasnosti koje predstavljaju za društvo postat će sve ozbiljnije."

Studiju objavljenu u časopisu CELL Patterns u otvorenom pristupu, možete pronaći na ovoj poveznici.