Tehisintellekti loomine: DeepMindi AlphaZero

11. mai 1997, tehisintellekti eripäev. Just sel päeval suutis esimest korda Deep Blue nime kandnud arvutiprogramm turniiritingimustes alistada valitseva male maailmameistri.

Pärast seda on AI jaoks palju muutunud heas mõttes. Viimased mitu aastat on AI uurimisel olnud tohutuid edusamme ja läbimurdeid. Masinad muutuvad intelligentsemaks ja mis veelgi tähtsam - kogu selle uurimistöö kaudu saame selgema arusaama sellest, mis inimese intelligentsus tegelikult on. Ainult intelligentsuse konkreetsel mõistmisel saame intelligentseid masinaid tegelikult ehitada.

DeepMind on olnud AI revolutsiooni esirinnas.

DeepMind

DeepMind Technologies on Briti tehisintellekti ettevõte. 2014. aastal ostis Google neid maailmatasemel asjatundlikkuse alal AI valdkonnas. Alates esimesest asutamisest on nad võtnud AI lahendamisel kasutusele maailma kõige ambitsioonikamad lõhed.

Nende viimane looming on ka nende kõige muljetavaldavam: AlphaZero

AlphaZero on AI-süsteem, mis õpetas nullist ise, kuidas juhtida male, shogi (Jaapani male) ja Go mängu. AlphaZero tipptaseme tõestamiseks võrreldi see igas mängus maailmameistriga. AlphaZero osutus võidukalt.

Mängud ja intelligentsus

Intelligentsete masinate ehitamisel on teadlastel olnud väljakutse kõigepealt vastata, mis intelligentsus tegelikult on. See pole nii lihtne vastus küsimusele!

Mida arvate, kui keegi palub teil intelligentsust määratleda? Võib ette kujutada kedagi, kelle arust nad on arukad. Nad teavad asju, mida teised ei tee. Kuid veelgi enam, nad on võimelised neid teadmisi eesmärgi saavutamiseks kasutama mingisuguste oskuste vormis.

Eesmärk on tavaliselt midagi, mille saavutamine on mõnevõrra keeruline. See peaks nõudma erilisi teadmisi, oskusi või sügavamat mõistmist: luureandmeid.

Võimalus mängida ja mängu võita on intelligentsuse vorm. Mängudel on reeglid ja eesmärgid. Kõik mängijad mängivad samade reeglite järgi ja üritavad saavutada sama: võida mäng. Võitmiseks on vaja teadmisi, kuidas mängu mängida ja kuidas neid teadmisi oma vastase alistamiseks kasutada.

See nõue spetsialiseerunud ja edasijõudnutele teadmistele võitmiseks on just põhjus, miks lauamänge on pikka aega kasutatud AI-süsteemide proovialusena. Kui tahame, et meie süsteem suudaks malemängu võita mitte ainult amatööri, vaid ka maailma parima, suurärimehe vastu, siis teaks see süsteem male kohta üsna palju! See peab vaatama paljusid edasiliikumisi, mõistma mängulaua positsioone, iga mängija eeliseid ning omama mängu enda kui vastase sügavamat mõistmist ja intuitsiooni. See peab olema arukas.

Kasparov vs Deep Blue (vasakul) ja Sedol vs AlphaGo (paremal)Male ja mine

Male on olnud AI peamine õppemäng alles vahetult pärast seda, kui Deep Blue oli alistanud Gary Kasparovi. Malemootorid, arvutiprogrammid, mis on kavandatud tõeliselt hästi malemänguks, said populaarseks mitu aastat hiljem ja neid võib nüüd leida peaaegu kõigist arvuti- ja telefonimängudest, mida leiate! Ja nii et kuigi AI-süsteeme mõõdetakse põhjalikkuse huvides endiselt malemängus, on teadlased asunud looma süsteemid, mis võivad võita keerukamates mängudes: Mine.

Go on veel üks strateegiamäng, kus eesmärk on ümbritseda rohkem territooriumi kui vastane. See kõlab lihtsalt, kuid mõtlemise sügavust on vaieldamatult palju rohkem kui males. Lihtsa võrdluse huvides keerukuse erinevuse nägemiseks mängitakse malet 8x8 laual = 64 ruudul, samal ajal kui Go mängitakse 19x19 ruudustikul, millel on 361 ristmikku (punktid, kus saate mängida)! Võimalike käikude arv Go-s on palju suurem kui malevas.

See tohutu keerukus on põhjus, miks teadlased otsustavad minna pärast Go mängu edasi liikuma. Kui AI-süsteemi saab ehitada maailmameistri lüüasaamiseks nii keerulises mängus kui Go, peab sellel olema mingisugune intelligentsus. Vähemalt võib see anda meile vihjeid selle avastamisel, kust pärinevad intelligentsuse nõutavad mõttekäigud ja intuitsioon.

AlphaZero: intelligentne masin

Varem olid AI-süsteemid mõeldud ühe konkreetse mängu jaoks, nii et te ei saa Go-mängu jaoks kasutada sama AI-süsteemi, mille tegite male jaoks. Kuid AlphaZero pole kellegi trikk poni! AlphaZero on üldine AI-süsteem, mis võib teoreetiliselt õppida mängima ja professionaalsel tasemel võita mitme mänguga. Siiani on see end male, Shogi ja Go mängudes tõestanud, kasutades kõik sama algoritmi.

AlphaZero AI kujutamine, DeepMindi nõusolek

Kõige põnevam läbimurre, mille AlphaZero on teinud, on uskumatu õppimine isemängimise teel. Näete, et male, shogi ja Go mängude harjutamiseks ei mänginud AlphaZero ühtegi tõelist inimlikku vastast. Ta õppis kõiki oma oskusi, mängides iseenda vastu, ilma teadmisteta, kuid mängu põhireeglite järgi.

Et AlphaZero saaks iga mängu õppida, mängib närvivõrk enda vastu miljoneid mänge. Kuna selle alguses pole teadmisi selle kohta, mis on hea mäng ja strateegia, läbib see suure osa katse-eksituse etapist, mängides üsna juhuslikult. Kuid mängu jätkudes sunnib tugevdusõppimise süsteem mängima rohkem „positiivseid“ käike ja vältima „negatiivseid“.

AI täiendusõpe põhineb premeerimissüsteemil. AI saab mängu võitmise eest positiivse tulemuse ja kaotamise eest negatiivse tulemuse. Aja jooksul õpib süsteem oma tulemust maksimeerima.

Vaadates mänge, mida Alpha Zero mängis kunagi täielikult koolitatud, avastasid kõigi mängude maailmameistrid, et AlphaZero õppis edukalt nende mängude tavapäraseid strateegiaid, mida tavaliselt mängivad suurärimehed. Näiteks mängis AlphaZero sageli kõige tavalisemaid male avamisstrateegiaid ja demonstreeris kogenud oskusi oma kuninga kaitsmisel profina.

Kuid Alpha Zero puhul polnud eriti eriline see, et ta õppis seda, mida teised meistrid teadsid, vaid see, et ta õppis seda, mida nad ei teadnud. Omaette mängu kaudu ei piirdunud Alpha Zero sellega, et ta mängis ainult selle vastu, mida inimene võis mõelda. Sellel oli paindlikkus mängida kõiki võimalikke liigutusi, avades õppimise tavapärastele näidenditele ja strateegiatele, mida kunagi varem nähtud pole.

„Mõni selle käik, näiteks kuninga viimine tahvli keskele, on vastuolus shogi-teooriaga ja - inimlikust vaatevinklist - näib seavat AlphaZero ohtlikku olukorda. Kuid uskumatult jääb see juhatuse kontrolli alla. Selle ainulaadne mängustiil näitab meile, et mängu jaoks on uusi võimalusi. “
- Yoshiharu Habu, 9-dani professionaal, ainus mängija ajaloos, kellel on kõik seitse peamist shogi tiitlit

Eksperdid peavad sellist oskust loovaks, milleks oleks vaja teadmiste ja oskuste üliinimlikku taset: intelligentsus. Intelligentsete süsteemide loomiseks, mis on võimelised lahendama mitmesuguseid reaalse maailma probleeme, tuleb need kavandada nii, et nad mõistaksid reegleid hästi, kuid oleksid ka piisavalt paindlikud, et teha ise uurimistööd. Samuti peavad nad saama osata paljudes erinevates asjades ja nad ei tohi olla ühte mängu ühendatud.

AlphaZero näitab selle varajasi märke. See näitab, et ühe algoritmiga saab õppida praegustest teadmistest aru saama ja seejärel sellest kaugemale jõuda. See on samm intelligentsuse loomiseks õiges suunas.

Kui soovite rohkem teada saada AlphaZero kohta, võite lugeda DeepMindi ajaveebi postitust või nende teadusajakirjas avaldatud uurimistööd.

Kas teile meeldib õppida?

Jälgi mind twitteris, kuhu postitan kõik uusimad ja suuremad AI, tehnoloogia ja teadus!