Google Research

Zatvori

VIDEO: AI engine pokreće Doom na neuralnoj mreži

GameNGen Doom se može igrati kao stvarna video igra, s kretanjem i napadima, pucanjem iz oružja i preciznim oštećenjima.

Znanstvenici Google Researcha objavili su rad o GameNGenu, prvom game engineu koji se u potpunosti pokreće neuralnim modelom i omogućuje interakciju u stvarnom vremenu sa složenim okruženjem na, kako kažu, dugim putanjama visoke kvalitete.

GameNGen može interaktivno simulirati klasičnu igru DOOM pri više od 20 sličica u sekundi na jednom TPU-u. Predviđanje sljedećeg okvira postiže PSNR od 29,4, usporediv s JPEG kompresijom s gubitkom. Ljudski ocjenjivači samo su malo bolji od nasumične šanse u razlikovanju kratkih isječaka igre od isječaka simulacije.

GameNGen se obučava u dvije faze: (1) RL-agent uči igrati igru i sesije obuke se snimaju, i (2) model difuzije se obučava za proizvodnju sljedećeg okvira, uvjetovanog slijedom prošlih okvira i radnji. Povećanja uvjetovanja omogućuju stabilnu autoregresivnu generaciju na dugim putanjama.

Kako bi dobio sve podatke o obuci koji su potrebni GameNGentu za točno modeliranje vlastitih razina Dooma, Googleov tim obučavao je svog AI agenta da igra Doom na svim težinama i simulira niz razina vještina igrača. Radnje poput skupljanja nadogradnji i dovršavanja razina bile su nagrađivane.

U isto vrijeme, oštećenje ili smrt igrača bili su kažnjeni, stvarajući agente koji bi mogli igrati Doom i pružajući stotine sati vizualnih podataka za obuku modela.

To funkcionira tako da se stvarna razina gradi oko vas u stvarnom vremenu dok je istražujete. Čak održava uglavnom precizan broj streljiva vašeg pištolja, i prema objavljenoj studiji, igru je teško razlikovati u kratkim isječcima od stvarnog igranja Dooma, kao što možete vidjeti u ovom videu.

Značajna inovacija u studiji je kako su znanstvenici održavali koheziju između okvira dok su koristili Stable Diffusion tijekom dugih razdoblja. Stable Diffusion je generativni AI model koji generira slike iz slikovnih ili tekstualnih upita i koristi se za animirane projekte

Unaprijed obučeni automatski enkoder Stable Diffusion v1.4, koji komprimira 8x8 pikselnih „mrlja“ u 4 latentna kanala, rezultira značajnim artefaktima prilikom predviđanja okvira igre, koji utječu na male detalje, a posebno na donju traku HUD-a. Kako bi iskoristili prethodno uvježbano znanje dok poboljšavaju kvalitetu slike, istraživači obučavaju samo dekoder latentnog automatskog kodera koristeći MSE gubitak izračunat prema pikselima ciljanog okvira.

Iako rezultat nije video igra u kojoj se može pobijediti, GameNGen proizvodi impresivan simulakrum Dooma, a Googleovi znanstvenici vjeruju da će GameNGen postati ključni dio budućeg razvoja AI igara.