OpenAI uus lähenemisviis üheharulisele jäljendusõppele, piilumine AI tulevikku

Ühevaateline jäljendusõpe Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilja Sutskever, Pieter Abbeel, Wojciech Zaremba

16. mail jagasid OpenAI teadlased video oma projektist koos kahe olulise dokumendiga, milles uuriti lahendusi praeguse AI arengu kolmele peamisele kitsaskohale: metaõpe, ühekordne õppimine ja automatiseeritud andmete genereerimine. Oma eelmises postituses lubasin artiklit, mis on pühendatud ühe ampsu õppimise põnevale probleemile, nii et siin läheb edasi. Alustuseks võite vaadata nende vabastatud videot, mis selgitab nende hämmastavat tööd:

Selles videos näete ühe käe füüsilist robotit, mis virnastavad üksteise peale kuubikud. Teades keerukaid ülesandeid, mida tööstusrobotid praegu suudavad täita, kui teadlane ei üritaks toimuvat selgitada, oleks see paljudel kontodel väga alahindav. Kontrollitud keskkonnas on ülesanne lihtne, protseduurilised (kodeeritud) lähenemisviisid on selle probleemi juba lahendanud, paljutõotav ja revolutsiooniline on see, kui palju võib selle all olev üldine raamistik moodustada mürarikkamates keskkondades mitu, keerukamat ja kohanemisvõimelist käitumist.

Erinevus inimese ja kõrgemate loomade vahel, nii suur kui see ka pole, on kindlasti kraadi ja mitte olemuslik.
- Charles Darwin

Analoogia põhjal on see artikkel tugev tõend selle kohta, et erinevused kognitiivsetes süsteemides praeguse kehastatud AI (füüsiliste süsteemide tehisintellekt) ja 22. sajandi robotite vahel on mõõtkavas ja mitte laadi. Alates 2012. aasta ImageNeti võistlusest * on õitsele jõudnud sügava õppe uuringud, mitte niivõrd närvivõrgu tehtud hajutatud arvutuse olemuse muutmiseks, vaid selleks, et leida uusi võimalusi võrkude struktureerimiseks, et nad saaksid õppida konkreetset ülesannet. Kuna neuraalvõrgu funktsioon on struktuur, pole see struktuur kõvakodeeritud (pole käsitsi kujundatud), kuid just sisendite ja väljundite vahel algselt ühendatud aatomiarvutusüksuste tulemused on võimelised muutma nende struktuuri ja ühendusi. Konkreetse funktsiooni õpib ära võrgu üldise struktuuri muutmine.

Selles artiklis nad rajasid üldise raamistiku, mis on võimeline koolitama esindajat abstraktselt ülesandeid esindama ja õppima neid teadmisi uutele nähtamatutele ülesannetele üle kandma (õppimise ülekandmine) pärast uudse ülesande ainult ühte tutvustamist (õppimine ühe haaval).

Ülesanded

Ehkki täpne arhitektuuriline teostus on erinev, võtavad nad üldise lähenemisviisi toimimise näitena näitena kahte ülesannet.

Osakeste jõudmine

Esimeses näites võtab süsteem vastu värviliste sihtmärgi positsioonide sisendeid tasapinnal ja simuleeritud agendi ühe video demonstratsiooni, mis suundub määratud sihtpunkti.

Joonis 2. Robot on kahemõõtmelise jõuga juhitav punktmass. Ülesannete perekond on jõuda eesmärgini. Maamärgi identiteet on ülesannete vahel erinev ja mudel peab demonstreerimise põhjal välja mõtlema, millist eesmärki täita. (vasakul) roboti illustratsioon; (keskel) on ülesanne jõuda oranžini kasti, (paremal) on ülesanne jõuda rohelise kolmnurgani.

Treeningu ajal peab süsteem kordama sama ülesannet (jõudma oranžini), kuid teisest konfiguratsioonist, erinevatel lähteasenditel robotil ja sihtmärkidel. Pole selge, kas testimise ajal testitakse agenti ülesandel, millega ta välja koolitati (jõudma oranžini), või ülesandel, mida ta polnud kunagi varem näinud (näiteks jõuda roheliseks) või mõlemal.

Koolitatud poliitikat hinnatakse uute stsenaariumide alusel ja see põhineb uutel näidistrajektooridel, mida koolitusel pole näha.

On kindel, et agent peab tuletama eesmärgi ainulaadsest demonstratsioonist ja alustama uuesti teisest konfiguratsioonist. See tähendab, et täpset mootorijärjestust ei saanud enne testimist selgeks õppida ning see tuleb tuletada ülesande abstraktsiooni (kõrgema taseme struktureeritud esitus) ja motoorse kavandamise abil.

Blokeeri virnastamine

Teises näites peab agent õppima kuubikute (tähistatud erinevate värvidega) virnastamist samas järjekorras, nagu näidatud ühes simuleeritud demonstratsioonis. See simuleeritud demonstratsioon on 3D-füüsikamootori poolt genereeritud 2D-piltide seeria, milles modelleeritakse robotite mootori ja sensoorseadme omadused.

Ühe ampsu poliitika. Ühtne poliitika, mis on välja õpetatud paljude ülesannete lahendamiseks. Ülesanne: {abc, def}, Alumine ülesanne: {ab, cd, ef}

Mõlemas näites on kuubikute algsed positsioonid demonstratsioonis ja reaalses testis erinevad, iga ülesanne algab teisest lähteasendist. Robot ei ürita kuubikuid demonstratsiooni algsele positsioonile vastavaks asendada, see annab kõrgema taseme kuubi kuhjamise ülesande üle ükskõik millises olekus ta alustab.

Treening domeeni randomiseerimise abil

Mõlemal juhul saadakse kõik koolituse ajal kasutatud pildid simulatsiooni teel, kasutades domeeni randomiseerimist, kus nad randomiseerivad valimite järgmised aspektid:

Häirivate objektide arv ja kuju laual Kõigi laua esemete asukoht ja tekstuur Laua, põranda, skyboxi ja roboti tekstuurid Kaamera asukoht, suund ja vaateväli Kaamera tulede arv asukoht, suund, ja tulede spekulaarsed omadused Piltidele lisatud juhusliku müra tüüp ja hulk

Treeningkomplekt osakeste jõudmiseks

Vaatleme järjest keerulisemaks muutuvat ülesandeperekonda, kus orientiiride arv suureneb 2-lt 10-le. Iga ülesandepere jaoks kogume treenimiseks 10000 trajektoori, kus orienteerumiste asukohad ja punktroboti lähteasend on randomiseeritud. Demonstratsioonide tõhusaks genereerimiseks kasutame kõvasti kodeeritud ekspertide poliitikat. Lisame müra trajektooridele, segades arvutatud toiminguid enne nende keskkonda rakendamist, ja närvivõrgu poliitika koolitamiseks kasutame lihtsat käitumuslikku kloonimist.

Treeningkomplekt plokkide virnastamiseks

Konkreetselt kogume kokku 140 treeningülesannet ja 43 testülesannet, millest igaühel on erinev plokkide soovitud paigutus. Plokkide arv igas ülesandes võib varieeruda vahemikus 2 kuni 10. Kogume koolituse jaoks iga ülesande jaoks 1000 trajektoori ja hooldame hindamiseks eraldi trajektooride komplekti ja algkonfiguratsioone. Sarnaselt osakeste jõudmise ülesandega süstime müra ka trajektoori kogumise protsessi. Trajektooride kogumisel kasutatakse kodeeritud poliitikat.

Edukaid meeleavaldusi kogutakse kõvasti kodeeritud poliitika abil

Pange tähele, et õppimise ajal genereerib õiged trajektoorid protseduurilise nn kodeeritud poliitika, mis minu arvates toetub süsteemi identifitseerimise ja juhtimise klassikalistele meetoditele. Nii et koolitusel ja testimisel on agendil kaks sisendit: a) demonstratsioon konfiguratsioonis A ja b) alustav konfiguratsioon B. Ainult koolituse ajal on õppealgoritmil juurdepääs ideaalsele vastusele: trajektoorile, mis algab konfiguratsioonist B, mis vastab probleemile ja sellega, millega agendi reaktsiooni õppetöö käigus võrreldakse - tehes sellest juhendatud õppeprobleemi.

Eeldame, et iga koolitusülesande jaoks on olemas edukate demonstratsioonide komplekt.

Kui see pole selge, käsitlen järgmises osas erinevusi eri tüüpi õppimisparadigmade vahel.

Optimeerimise algoritm ja kadude funktsioon

Juhendatud õpe viitab koolitusparadigmadele, milles võrgul on iga otsuse tegemisel juurdepääs õigele valikule, mille ta oleks pidanud tegema, ja seega ka vea mõiste. Näiteks koerte ja kasside vahelise klassifitseerimise korral on koerte ja kasside piltide silt koolituse ajal ette teada ja vead avastatakse kohe. Selles mõttes erineb see juhendamata õppimisest, kus agendil palutakse üldiselt leida saadud sisenditest varem tundmatu struktuur ning ilma kasside ja koerte siltideta peaksid nad avastama, et on olemas kaks eri objektide klastrit, mis põhinevad ainult andmetes sisalduv teave. See erineb tugevdamise õppimisest ka sageli reaalajasüsteemi korral, kus eesmärgini jõudmise otsuse täpne jada pole teada, kuid ainult lõplik “tasu” otsustab, kas jada oli õige või mitte. Jälgimisõppe abil muudavad nad klassikalise tugevdusõppe probleemi juhendatavaks õppeprobleemiks, milles viga arvutatakse kaugusest vaadeldava trajektoorini.

Nagu iga juhendatava treeningseadistuse puhul, määratleb antud ülesanne täielikult kaotusefunktsiooni, mille eesmärk on kvantifitseerida, kui kaugel agent oli kavandatud käitumisest. Selle funktsiooni määratlemine on sageli kriitiline samm, kuna see määrab, kuidas optimeerimisalgoritmid mudeli parameetreid värskendavad. Need algoritmid on arvutamisaja seisukohast olulised ja vajavad lähendamist, kui üldse, mõnevõrra kohandamist. Tõepoolest, lahendused, mis minimeerivad funktsiooni väga kõrgete mõõtmete korral, asuvad parameetriruumi väga väikeses kestas ja nende vahel on väike haamrite vahemaa, niipea kui sellest väikesest domeenist eemaldute, kasvab lahenduste vaheline kaugus kiiresti. Sellel teemal on palju väga huvitavat tööd, mille on teinud teiste hulgas väga hämmastav Jennifer Chayes, ta harjab seda teemat väga huvitavas intervjuus Talking Machinesi viimases osas.

Poliitiliste võrkude (kogu võrgustik, kes saab sisendi põhjal otsustada, milliseid toiminguid teha) väljaõppe käigus töötlevad nad kõigepealt eduka demonstreerimisteekonna. Selles osas võrdlevad nad kahte lähenemisviisi, klassikalist käitumuslikku kloonimist (pole päris kindel kasutatud rakenduses) ja DAGGERi algoritme. See võimaldab siis kaotuse funktsiooni iteratiivsel minimeerimisel kas l2 või rist-entroopia kaotuse kaudu sõltuvalt sellest, kas toimingud on pidevad või diskreetsed (sündmuste jaotuse põhjal jadas). Kõigi katsete ajal kasutasid nad optimeerimise läbiviimiseks Adamaxi algoritmi õppimiskiirusega 0,001.

Astme suurus algab väikeselt ja väheneb plahvatuslikult.

Algoritm iseenesest ei võimalda ülekandmist, see on see, kuidas saate oma treeningkomplekti ja kaotusfunktsiooni üles ehitada.

Ülesannetes on kahte tüüpi ülekandmist. Esimest tüüpi nimetatakse reaalsuslünga ületamiseks, see on õppimise üldistus, mis võimaldab simuleeritud sisendite koolituse vahel üle minna loomulike stiimulite testimisele. Simulatsiooniandmed on sageli vaesustatud lähenemisviis tegelikule maailmale, liiga täiuslikud, milles puudub reaalse objekti keerukus. Reaalses maailmas võib kaamera olla vigane ja mürarikkam, mootori juhtimine on vähem täpne, värvid muutuvad, tekstuurid on rikkamad jne. Selle esimese ülekande tegemiseks kasutavad nad meetodit, mida nad nimetavad „domeeni randomiseerimiseks“ : lisades sisenditele müra, saab võrk selgeks saada ühise asjakohase struktuuri, mis võimaldab sellel üldistada vastavalt tegelikule maailmale. Nad muudavad näiteks kaamera nurka treeningnäidete vahel, muudavad tekstuure või muudavad trajektoorid vähem täiuslikuks. Müra lisamisega treeningu ajal lisame robustsust.

Siin katsetatud teine ​​ülekanne on võime toota asjakohane mootorijada eelnevalt nägemata konfiguratsiooni ja eesmärgi komplektis, mis põhineb ühel demonstratsioonil, mis algab teisest algkonfiguratsioonist, kuid millel on sarnane lõpp-eesmärk. Siin on ülekandmine jällegi võimalik tänu sellele, kuidas me treeningkomplekti konstrueerime ja kaotusefunktsiooni modelleerime. Esitades väljaõppe ajal demonstratsioone, mis ei alga sarnase eesmärgi saavutamiseks samast lähteseisundist, lubate võrgul õppida manustama eesmärgi kõrgemat taset, ilma absoluutseid positsioone kasutamata, samuti kõrgema järgu esitust mootorijärjestus, mis pole lihtne jäljendus. Naiivne algne arhitektuur võimaldab treenida struktuuri asjakohasel viisil modifitseerimiseks ja see koolitatud struktuur eeldab viimast funktsiooni.

Eesmärgid

Plokkide virnastamise paradigma jaoks oli neil mitmeid piiranguid, mida nad soovisid, et nende õppeagendid vastaksid.

Seda peaks olema lihtne kohaldada erineva arvu plokkidega tellimusülesannete korral.
See peaks loomulikult üldistuma sama ülesande erinevateks permutatsioonideks. Näiteks peaks reegel {dcba} hästi toimima, isegi kui seda koolitatakse ainult ülesande {abcd} korral.
See peaks mahutama erineva pikkusega demonstratsioone.

Neil oli mitu küsimust, millele nad soovisid selle ülesande jaoks vastuseid.

Kuidas on käitumusliku kloonimisega treenimine DAGGERiga võrreldav, kui võrguühenduseta on võimalik koguda piisavalt andmeid?
Kuidas võrrelda kogu demonstratsiooni konditsioneerimist soovitud lõpliku konfiguratsiooni konditsioneerimisega, isegi kui lõplikul konfiguratsioonil on piisavalt teavet ülesande täielikuks täpsustamiseks?
Kuidas saab kogu meeleavalduse konditsioneerimist võrrelda trajektoori „hetktõmmise” ettevalmistamisega, mis on väike informatiivseimate kaadrite alamhulk
Kas meie raamistik saab edukalt üldistada sellist tüüpi ülesannetega, mida ta pole koolituse ajal kunagi näinud? (++)
Millised on meetodi praegused piirangud?

Arhitektuur

Osakeste jõudmine

Selle esimese näite jaoks võrdlesid nad kolme arhitektuuri, mis kõik põhinevad pikaajalise mälu (LSTM) närvivõrkudel. Nende võrkude kirjeldus on tulevases postituses mälu ja tähelepanu kohta, mis on absoluutselt põnevad teemad nii kognitiivsetes kui arvutusteadustes. Sisuliselt toidab LSTM eelmisi võrgu väljundeid (ajaliselt) võrgu sisendi osana igal uuel ajahetkel, võimaldades varasemate olekute teavet olevikku teavitada (sellest ka nende lühiajaliste mäluvõrkude nimi). Need on paljude aegreaga tegelevate kaasaegsete tehnoloogiate (Alexa, Siri jne) juured.

Siin kasutavad nad neid kolme eritingimust:

  1. Plain LSTM: õpib manustama trajektoori ja hetkeseisu, et suunata see mitmekihilisele perceptroonile, mis tekitab motoorset tegevust
  2. LSTM tähelepanu all: koostage trajektoori maamärkide kaalutud esitus
  3. Lõppseis ja tähelepanu: kasutage treenimisel ainult lõppseisundit, et saada orientiiride suhtes kaal, sarnaselt eelmisele arhitektuurile

Blokeeri virnastamine

Ehkki põhimõtteliselt võiks üldine närvivõrk õppida kaardistamist demonstreerimisest ja praegusest vaatlusest vastavate toiminguteni, leidsime, et on oluline kasutada sobivat arhitektuuri. Meie arhitektuur plokkide virnastamise õppimiseks on selle töö üks peamisi panuseid ja usume, et see esindab seda, millised võiksid tulevikus välja näha keerukamate ülesannete ühekaupa jäljendamise arhitektuurid.

Tähelepanu moodulid

Artikkel püsib ülesande õppimiseks kasutatud võrkude struktuuri kirjeldamisel suhteliselt kõrgel tasemel. Arhitektuuri põhikomponent on nende tähelepanu moodul, kuid ma usun, et see teema vajab konkreetset postitust, millesse oma olulist rolli üksikasjalikult uurida. Jätkuva tähelepanu kognitiivse teaduskontseptsiooni analoogia põhjal kasutatakse tähelepanumooduleid asjakohase teabe hoidmiseks ja sellele keskendumiseks erinevates ruumi- ja ajavahemikes. See toodab kindla suurusega väljundi, mis sisaldab ajas ja ruumis venitatud infosisu manustamist. Analoogia abil topoloogiaga, mis on matemaatika haru, mis minu arvates aitab tulevikus suuresti aru saada hajutatud esindustest. Tähelepanuvõrk täidab teabe topoloogilist isomorfismi, sama kõverus, erinev kuju. Pange tähele, et need võrgud ei täida leebedetektori rolli, mis suudavad keskenduda ootamatutele või haruldastele sündmustele, mis on seotud neuroteaduse tähelepanu mõistega.

Siin kasutavad nad kahte tüüpi tähelepanu võrku: a) ajaline tähelepanu võrk, mis tekitab mälus talletatud sisu (päring, kontekst ja mäluvektorid) kaalutud summa, ja b) naabruskonna tähelepanu võrk, mis on võimeline blokeeringuga seotud teavet taastama positsioonid sõltuvalt agendi praegusest päringust.

Ajaline tähelepanuvõrk, kus c: kontekstivektor, m: mäluvektor, q: päringvektor, v: õpitud vektori kaal. Väljund on sama suur kui mäluvektor. See on nende vektorite lineaarne kombinatsioon, mis võimaldab mõnel mäluvektoril konteksti ja päringuvektorite põhjal väljundile suuremat mõju avaldada.Sama idee, ruumiandmete vahelist konkurentsi hoiab tähelepanu süsteem dünaamiliselt.

Poliitikavõrgustik

Tervikvõrk koosneb kolmest erinevast alamvõrgust: tutvustusvõrk, kontekstivõrk ja manipulatsioonivõrk.

Demonstratsioonivõrk saab sisendina demonstratsioonitrajektoori ja loob selle manustamise, mida poliitika kasutab. Selle manustamise suurus kasvab lineaarselt nii demonstratsiooni pikkuse kui ka keskkonnas olevate plokkide arvu funktsioonina.

Nagu siin näidatud, on demonstreerimisvõrk võimeline manustama erineva keerukuse ja suurusega demonstratsiooni ühisesse vormingusse, mida kontekstivõrk kasutab ülesande esindamiseks. Arvatakse, et üldistamine toimub juba sellel tasemel, demonstratsiooni kinnistamine peaks jätma välja teabe demonstratsioonide ajal nähtud täpse trajektoori ja kuubi absoluutsete positsioonide kohta.

Vaadates kontekstivõrgu ülesehitust, kuigi väga kõrgetasemeliselt, näeme liidest demonstratsioonivõrguga, mis juhib demonstratsiooni manustamist kesksetele ajalistele tähelepanu moodulitele. Samuti näeme, et varasemad toimingud (LSTM) ja praegune olek sisestatakse demonstratsiooni manustamisega ühendatud sisendina, et saada mootorivõrku saadetud globaalse konteksti manustamine.

Nende kirjeldus võrkude funktsioonist on minu arvates kõige olulisem osa tööst:

Kontekstivõrk alustab päringuvektori arvutamisega praeguse oleku funktsioonina, mida seejärel kasutatakse demonstratsiooni manustamise erinevatel ajaetappidel osalemiseks. Sama aja etapi eri plokkide tähelepanuraskused liidetakse kokku, et saada ühe astme kaal ühe sammu kohta. Selle ajalise tähelepanu tulemuseks on vektor, mille suurus on võrdeline keskkonnas olevate plokkide arvuga. Seejärel rakendame naabruskonna tähelepanu, et levitada teavet iga ploki manustamisel. Seda protsessi korratakse mitu korda, kus olekut arendatakse seostamata raskustega LSTM-lahtri abil.
Eelmine toimingute jada tekitab manustamise, mille suurus ei sõltu demonstratsiooni pikkusest, kuid sõltub siiski plokkide arvust. Seejärel rakendame standardset pehmet tähelepanu fikseeritud mõõtmetega vektorite tootmiseks, kus mälusisaldus koosneb ainult iga ploki positsioonidest, mis koos roboti olekuga moodustavad manipulatsioonivõrku edastatud sisendi.
Intuitiivselt võib öelda, et kuigi keskkonnas olevate objektide arv võib varieeruda, on manipuleerimise igas etapis asjakohaste objektide arv väike ja tavaliselt fikseeritud. Konkreetselt plokkide virnastamise keskkonna jaoks peaks robot pöörama tähelepanu ainult selle ploki positsioonile, mida ta proovib korjata (lähteplokk), samuti selle ploki positsioonile, mille ta proovib üles panna ( sihtplokk). Seetõttu saab korralikult koolitatud võrk õppida sobitama praegust olekut vastava demonstratsioonietapiga ning tuletama lähte- ja sihtplokkide identiteedid, mida väljendatakse pehmete tähelepanuraskustena erinevatele plokkidele, mida seejärel kasutatakse vastavate positsioonide eraldamiseks edastatakse manipuleerimisvõrku.

See, kuidas nad kirjelduse lõpule viivad, on suurepärane näide praegusest AI-uuringute triivist eksperdisüsteemi lähenemiselt õppimissüsteemi lähenemisele ja see vihjab ka arutelule, kuidas aju allpool arenes.

Ehkki me ei tõlgenda seda tõlgendust koolitustel, toetab meie katseanalüüs seda tõlgendust õpitud poliitika sisemise toimimise kohta.

Nad ei tea, kuidas see töötab! Nad loovad struktuuri, mis on võimeline tegema teatud arvutusi ja salvestama teatud teavet, mis on meie arvates a priori kasulikud, ning lisavad sellele treeningkomplekti, lootes, et kogu struktuur õpib! Kasvamas on mingi tehisintellekti uurimise voodoo, kunst, viis heuristiliste otsingute õiges suunas suunamiseks. Ja tundub, et suur osa neist mustkunstnikest töötab nüüd OpenAI heaks.

Nende enda sõnul on manipulatsioonivõrk kõige lihtsam struktuur, alates konteksti kinnistamisest kuni mitmekihilise perceptronini, tekitatakse motoorne toiming.

Tulemused

Tulemused on sageli osa, mille vastu mul on vähe huvi, eriti just selliste hämmastavalt hiilgavate tehniliste dokumentide osas. Ma lähen kiiresti edasi, kuna see lähenemisviis töötab, toimib täpsusega, mis on sarnane kodeeritud ekspertide poliitikatega, ja vastupidiselt konkreetsele protseduurilisele lähenemisviisile on see üldistatav suure hulga ülesannete jaoks.

Osakeste jõudmine

Blokeeri virnastamine

Nendes katsetes katsetasid nad ka erinevaid tingimusi. Kasutades DAGGERit, võrdlesid nad kolme erinevat sisenditingimust demonstreeritud trajektoori väiksema valimi abil: täielikud trajektoorid, trajektoori ülevaade või ainult lõppseisundit kasutades. Samuti võrdlesid nad käitumise kloonimise algoritmi demonstreerimise täieliku trajektooriga.

Kindel tõendusmaterjal süsteemi suutlikkuse kohta üldistada kuubi identiteeti

Arutelu

Lugedes OpenAI viimaste kuude kiireid edusamme, tunnen kasvavat soovi rääkida nende tööst ja jagada mõtteid selle kohta, mida ma nende töösse usun, ning AI valdkonna kui terviku edusammude kohta, et mõista meie arusaamist sellest, kuidas bioloogilised ajud töötavad. Eelkõige kasvab see mõte, et näiliselt jagatud kognitiivsed funktsioonid inimeste vahel pole mitte niivõrd jagatud struktuurist, mis loomupäraselt teab, kuidas ülesannet täita, vaid selle asemel on tegemist suhteliselt sarnaste naiivsete struktuuridega, mis seisavad silmitsi sama keskkonnaga, õppida täitma sarnaseid ülesandeid. Funktsioon tuleneb funktsionaalsest struktuurist, mis on võimeline õppima konkreetset ülesannet ainult konkreetse keskkonna tõttu, mitte struktuurist, mis on võimeline seda ülesannet loomulikult täitma, kohandades keskkonnaga kohandamiseks lihtsalt paar parameetrit.

Ülesanded versus konfiguratsioonid: näiliselt meelevaldne määratlus

Pean tunnistama, et ma ei saa aru, miks nad otsustasid erinevatest ülesannetest rääkida nii, nagu nad tegid. Ülesanne on plokkide virnastamise eksperimendis määratletud kui stringide komplekt, mis tähistab plokkide asukohta üksteise suhtes. Komplekti elementide arv määratleb virnade arvu ja märkide arvu korraldatava ploki arvu. . Seejärel on ülesanne plokkide paigutamine virnadesse sõltumata virna absoluutsest asendist.

Mõni plokk võib olla laual, kuid mitte osa ülesandest

Nende valik määratleda suhteline asukoht ja virnade arv eraldi ülesande kriteeriumina tundub meelevaldne. Tõepoolest, ka plokkide absoluutsete lähteasendite (mida nad nimetavad konfiguratsiooniks) põhjal võiks olla mõttekas rääkida erinevatest ülesannetest. Usun, et neile on probleemi ühine olemus ilmne, kuid selguse huvides eelistavad nad üksikasjadesse mitte süveneda. Poliitiline õppimine on mõistlikum moodustada kahte tüüpi üldistustena, nagu hiljem.

Pange tähele, et üldistust hinnatakse mitmel tasandil: õpitud poliitika ei pea mitte ainult üldistama juba nähtud uute konfiguratsioonide ja ülesannete uute demonstratsioonidega, vaid ka üldistama uute ülesannetega.

Asendage “ülesanded” lihtsalt “virnade tellimustega”. Ülesande korrektne õppimine tähendab, et agent õpib manustamist, mis on võimeline abstraktseks kuubikute asukohta (konfiguratsioon), aga ka nende identiteeti (ülesanne), virnade arvu (ülesanne) ja demonstratsiooni trajektoori (tutvustatud lühidalt pakkumine), et tekitada asjakohane mootorivastus.

Need üldistused tunduvad vastuolulised. Kuidas saab sama võrk kuubi algse konfiguratsiooni või nende identiteedi lahti mõtestada ja ikkagi taastada mootori vastuseks oma absoluutse positsiooni?

See seletab erinevate ühiste alamvõrkude vajalikkust õppimise ajal, erinevate sisendite vastuvõtmist ja selgitab, et kontekstivõrgus antakse ülesande abstraktsele kujutisele madalama järgu teave, nagu näiteks kuubikute absoluutsed positsioonid, enne laskuvat käsku.

Võite arvata, et selle ülesande ja konfiguratsiooni eristamise kommenteerimine on rumal, kuid on oluline mõista, et see on sisuliselt sama abstraktsiooniprotsess erinevatel objektidel mängimisel (ja see avaneb järgmisele jaotisele).

Ilma invariantsita õppimist pole

Siirdeõpe on võib-olla kõige põnevam tunnetuse kontseptsioon, olgu see siis silikoonne või in vivo, see on väga kuum teema nii AI uurijatele kui ka neuroteadlastele ning juhtub, et see on minu doktoritöö teema. Pange tähele, et tihedalt seotud mõisteid on paljudes valdkondades uuritud enne masinõpet ning sellel abstraktsel ja alati osaliselt määratletud kontseptsioonil on palju nimesid. Filosoofid, antropoloogid ja sotsioloogid võivad seda nimetada (post) strukturalismiks (Claude Levi-Strauss, Michel Foucault), keeleteadlane räägib süntagmadest ja pesitsenud puustruktuuridest (Noam Chomsky), matemaatikud mõtlevad tõenäoliselt homomorfismile või invariantidele ja haridusele teadlased või neuroteadlased võivad seda nimetada struktuurõppeks. Võib-olla näete masinaõppe valdkonnas ka seotud kontseptsioone, näiteks esindusõpet ja metaõpet, mis sõltuvalt autorist võivad viidata siirdeõppele või siirdeõppe läbiviimiseks kasutatavale õppimisparadigmale. Sügavatest närvivõrkudest rääkides on need erinevused hägustunud, kuna sisuliselt õpib närvivõrk teatud probleemi kinnistamist (esitusõpe), muutes selle ülesehitust (metaõpe) tavaliselt mürarikkas keskkonnas, mis eeldab siirdeõppe vormi.

AI teadlastel ja kognitiivteadlasel on sageli väga konkreetne siirdeõppe määratlus, see on protsess, mis võimaldab süsteemil kasutada teatud ülesande käigus omandatud teadmisi teise ühise ülesande jagamiseks (nagu artiklis kirjeldatud) ülesande täitmiseks. Kognitiivsel teadusel on see lähedase ja kauge ülekande kontseptsioon, sõltuvalt sellest, kuidas kaks ülesannet näivad erinevat. Kuid abstraktsemast vaatenurgast lähtudes on kogu õppimine mürarikkas ja keerulises keskkonnas siirdeõppe vorm ning erinevus väga lähedase ja väga kauge vahetamise vahel on ainult jagatud teabe küsimus - jällegi on tegemist mõõtkava, mitte looduse küsimusega.

Kontrollitud keskkonnas püütakse eelnevalt luua reaalsuse kõvakodeeritud diskreetimine, kuid tegelikult kordab see diskreteerimine protseduuriliselt seda, mida edasiarendusõpe teeb, see ühendab lõpmatu rea reaalsuses leiduvaid olekuid ühise ümbritseva struktuuri alla. Sisuliselt viitab siirdeõpe otseselt või laiemalt protsessile, mille kaudu õppeagendid kasutavad maailmamudelite loomisel invariante. See on protsess, mis kasutab sarnasusi, kordusi ja variatsioone, et moodustada üha abstraktsem ja kompositsioonilisem esitus, mis struktureerib ansambleid sisendi dispersioonivahemiku ulatuses. Üldises mõttes võimaldab see luua põhilisi toiminguid, mille kaudu manipuleerime inforühmadega, sarnaselt matemaatikaga võimaldab see ühendada ja ristuda. See võimaldab identiteete, see selgitab meie võimet objekte kategoriseerida. Josh Tenembaum toob näite, mis rääkis mulle tõesti: kujutage ette, et õpetate kaheaastast last hobust esimest korda ära tundma, näitate talle paari pilti erinevatest hobustest ja siis näitate talle teise hobuse pilti ja maja pilt ja paluge tal öelda, milline neist on hobune. Laps täidab seda ülesannet üsna hõlpsalt, kuid see on siiski asi, mida arvuti ei suuda nii väheste sisenditega (ühe pildiga õppimine) hästi teha.

Kuidas laps seda tegi?

Loomade äratundmist on lastel uuritud ja need on seotud meie võimega dekonstrueerida esemeid olulisteks osadeks, karusnaha värvivalikust, kaela suurusest, üldkujust jne. See võime võimaldab teil ka ukse avada. pole kunagi varem näinud, olete õppinud motoorset jada, mis üldistab mis tahes olukorda (domeeni üldistamine). See on ka see, mida kasutate maailma lihtsustavate selgitavate mudelite ehitamiseks, võite tõesti olla üllatunud kägu ootamatust kuulsast Šveitsi kellast, kuid pärast teist ilmumist võite seda oodata. Invariantsuse leidmine on see, kuidas närvivõrk õpib ja need mudelid on üles ehitatud alateadlikult. Näide on see, kuidas õpime füüsikat intuitiivselt tundma juba enne matemaatikast ja numbritest kuulmist.

Võib näiteks küsida, kui kiiresti suudaks mikrogravitatsioonis sündinud laps kohaneda maa gravitatsiooniga ja õppida intuitiivselt, et objektid kukuvad maapinnale kukkudes?

Võib arvata, et imikud ja enamik loomi muudavad oma mudeli alateadlikult, sarnaselt siis, kui paned koerale sokid, ja uue teabega kohanemine võtab natuke aega.

Kuid väikese lapse jaoks toimub teadlik ülekuulamine ja tema intuitiivse mudeli ülevaatamine, uudishimust, keele, sümbolite ja uskumuste kaudu. Meie võime teadlikult oma mudeleid üle kuulata ja neid muuta on põnev ning sidenote võib inimesena olla ainus liik, kes suudab protsessi verbaliseerida, kuid teised liigid võivad samalaadseid teadlikke muudatusi läbi viia.

Invariantsus on aja kohustuslik omadus, kui kõik oleks alati uus ja mitte mingil juhul etteaimatav, jääks ikkagi see ainulaadne invariant, et kõik on alati uus ja ettearvamatu. Invariatsioonita maailma on võimatu ette kujutada, kuna ei võiks olla maailma, millele viidata, ilma invariatsioonita oleks elu võimatu ja meie ajud kasutud. Elu on masin, mis töötab ainult sündmuste ennustatava kordamise, põhjuste ja tagajärgede kordumise ning energia tsüklilise taaskehtestamise kaudu organismi. Ja Life'i püüdlustes parandada nende vajalike tsüklite kasutamist on meie aju ülim vahend. See on ennustusmasin, kohanemisorgan, mis suudab dünaamiliselt leida korduse ja kasutada seda maailmaga paremaks suhtlemiseks.

See meetod, mille elu valis, on struktuuri väikeste muutuste korral äärmiselt vastupidav. Mis jääb samaks, on maailm, keskkonna statistilised omadused, kuid sellega kokku puutuv närvistruktuur võib varieeruda, kui see suudab kinnistada asjakohast teavet, mille ta ravimiseks välja töötas. See selgitab, miks meie ajud võivad olla üksikisikute vahel nii erinevad, isegi primaarsed korteksid, ja siiski jagada samu funktsioone.

Närvisüsteemid on kohanemisvõimelised, käitumise muutmiseks asjakohastel viisidel ei vaja nad evolutsiooni ja aeglaseid geneetilisi mutatsioone. Lihtne närvisüsteem, nagu näiteks C. Elegansist, toimib kaasasündinud sisemise koordinaatorina ja välise andurina: tunnetage toitu ja liikuge selle poole, põgenege valu eest, paljunege. Need lihtsad süsteemid olid algselt jäigad ja need viisid meie mürarikka maailma äärmuslikku lähendamist, et seda väikestes võimalikes olekutes (vasakul toit, allpool kuumus allpool jne) diskreteerida. Meie motoorsed ja sensoorsed võimed arenesid käsikäes närvisüsteemi ennustamisvõimega. Meie andurite täpsustumisel sai närvisüsteem aeglaselt oma struktuuri modifitseerida, et talletada teavet ja õppida kogemusest. Esialgu sai see õppida tundma teatud sisendikategooriaid, näiteks lõhnade või valguse mustrite tüüpe, ning õppis ka katse ja eksituse kaudu oma üha keerukama mootori süsteemi juhtimiseks. Pange tähele, et maailm on nii keeruline, et meie aju arenes loomulikult pigem kaasasündinud protseduurilise lähenemise asemel õppimisparadigma poole. Arvestuslikult on see täiesti mõistlik, lihtsa Go-mängu olekuruum on palju suurem (2.10¹⁷⁰) kui universumis olevate aatomite arv (10 and) ja kuna organismid muutuvad keerukamaks, üritades kõvasti kodeerida kõigi võimalike lähendamisi. väidab, et see võib olla kombinatoorse plahvatuse tõttu kiiresti parandamatu.

Mõni inimene võib uskuda, et meie aju on ehitatud nii, et see tähistab sisemiselt seda ruumi, milles ta areneb, et kusagil DNA-s on geen näo moodustamiseks või helilainete ajaline korraldus üles sõnad. Nad võivad uskuda, et see kaasasündinud teadmine on kuskil sündides kodeeritud. Teised võivad uskuda, nagu ka minu filosoofiaõpetaja, kui ma keskkoolis käisin, et olemasolu eksisteerib põhiolemuselt ja et meie aju on täielikult ja ainuisikuliselt määratletud organismi ja maailma kohtumisega. Reaalsus on muidugi keerukam ja enamiku seni uuritud telentsefaalsete süsteemide jaoks ei kodeeri aju kaasasündinud funktsiooni, vaid õpib seda vastavalt sisendites sisalduvale teabele. Kui asjassepuutuva teabe sisend on liiga halb, võib selle struktuuri õppimisvõime aegumiskuupäev olla olemas (nt Amblyopia). Kuid kui kaasasündinud struktuur ei kodeeri lõplikku funktsiooni, on ajus spetsiifiline struktuur. See struktuur säilib üksikisikute vahel ja sama liigi isenditel on ühised funktsioonid ja ajamid. DNA loob küll kindla struktuuri, struktuuri, mis ei suuda oma lõplikku funktsiooni kaasasündinud täita, kuid struktuuri, mis on võimeline õppima konkreetsete ülesannete keerukust individuaalse kogemuse põhjal. Pole üllatav, et evolutsioon tõi kaasa ülitõhusa vere-aju barjääri, mis isoleerib aju ülejäänud kehast, samuti ajukelme ja kõva luukooriga, mis kaitseb seda välismaailma eest, sest erinevalt teistest elunditest, milles struktuur on kodeeritud genoomis, treenitud aju struktuuri ei saa sünnipäraselt salvestatud mudelist taastada. Põnev on see, et näeme samu õppemehhanisme, mis tekivad analoogia põhjal üha keerukamate sügavate võrgustike arendamise kaudu, mis täidavad üha keerukamaid ülesandeid.

Kompositsioonilisi struktuure on raske näha, kuid kõikjal

Sidenote on kummaline, et isegi autorid ei tunnista, et nende esimene ülesanne eesmärgi saavutamisel on kompositsiooniline struktuur.

Ülesanneteni jõudev osake näitab kenasti lihtsustatud stsenaariumi korral väljakutseid. Kuid ülesanded ei jaga kompositsioonilist ülesehitust, mistõttu on uutele ülesannetele üldistuse hindamine keeruline.

Ehkki struktuur on tõepoolest madalamal tasemel kui plokkide virnastamine ega ole eksperimentaalseks manipuleerimiseks hõlpsasti juurdepääsetav, koosneb ülesanne tõepoolest jagatud struktuurist. Maailma lähendamisel tasapinnale on üks kompositsiooniline struktuur see, et kuubi identiteet (värv) säilitatakse koos translatsiooniga ja minnes plokist A või juhuslikust lähteasendist positsioonis (Xa1, Ya1) blokeerima B positsioonis (Xb1, Yb2 ) on osa samast kõrgema järgu kompositsioonistruktuurist, kui minna blokist A positsioonis (Xa2, Ya2) plokki B positsioonis (Xb2, Yb2).

Võrkude vahelised liidesed

Neuraalvõrkude loomine, mis suudavad sisendeid erinevatel abstraktsuse astmetel käsitleda, vajavad liideseid - domeeni, mida minu arvates on veel palju avastada. Need liidesed võivad olla mitut laadi. Neid võib vaadelda näiteks kahe võrgu vahel ühise keelena, nagu näitas artikkel, saab tähelepanusüsteemiga (demonstratsioonivõrk) relvastatud madalama taseme võrk tõlkida esitluse, mida mõni teine ​​võrk (kontekstivõrk) saab kasutada suunata tegevust olenemata demonstratsiooni pikkusest või algkonfiguratsioonist.

Selle keele pind on siin kindla suurusega tasapind, kuid võib ette kujutada võimalikke muudatusi, mis parandaksid võrguvahelist suhtlust. Näiteks võib pindala seadistada kasvama või kahanema dünaamiliselt, kui võrgud interakteeruvad õppimise ajal, tihendades või laiendades keele keerukust. Võiksime ette kujutada ka dünaamilisemat koostoimet, näiteks tagasiside kaudu. Võiksime ette kujutada hõlbustusvõrkude olemasolu, mis õpiksid sujuvamat võrkudevahelist suhtlust, eksisteeriksid paralleelse võrguna, mis õpiks moduleerima esimese võrgu sisendit, lähtudes teise võrgu sisendist ja väljundist. Võiksime ette kujutada keerulisi kontekstivõrgustikke, mis toimivad toonilise (aeglaselt varieeruva) sissevooluna mitmesse spetsialiseeritumasse võrku ... Põnev uurimisala tulevikus!

Rikete juhtumid vihjavad uutele moodulitele võimalike rollide kohta

Väärib märkimist, et vead on sageli põhjustatud mootorivigadest ja et vigade arv suureneb ülesande keerukusega.

Motoorset funktsiooni ei tohiks halvendada ainult sihtmärkide arvu suurendamine, see on kindel tõend, et viis, kuidas paljunemisvõrk õpib motoorse võrguga rääkima, on liiga abstraktne. See on kummaline, sest nende sõnul näitab nende test, et kontekstivõrgu ja mootorivõrgu vaheline liides on suhteliselt konkreetne (roboti asukoht, sihtmärgi asukoht).

Võimalik lahendus oleks, kuna tegemist on modulaarse arhitektuuriga, kasutada erinevaid kadude funktsioone või modulaarseid kaotusfunktsioone, mis esindavad ülesande iga konkreetset aspekti. Samuti aitaks sellele aju mootorieelsete alade ekvivalent kindlustada, et demonstratsioon- ja kontekstivõrk võivad jääda abstraktseks ilma motoorset juhtimist halvendamata. Eelmootoripiirkonnad on vajalikud objektide paremaks lokaliseerimiseks eesmärgi (abstraktsetest võrkudest) ja sensoorsete sisendite põhjal, et valida parim mootorikäsk. Näib, et kontekstivõrk üritab nii demonstratsiooni üle viia kõrgema taseme manustamisse kui ka praeguses olukorras motoorset tegevust ette valmistada. Mootorieelse võrgu roll oleks õppida mootori süsteemiga suhelda eesmärgile orienteeritud ja kohanemisvõimelisel viisil, ühendades nii eelmootori kui väikeaju funktsioonid motoorse õppimise ja kiire kohanemise jaoks.

On olemas huvitav teooria, Moraveci paradoks, mis ennustab, et arvutamisel ei maksustata mitte kõrgema taseme tunnetust, vaid sensoorsete sisendite ja mootorisüsteemide väljundite käsitlemist. See võib tõepoolest põhjustada meie väikeajus (rohkem kui ülejäänud ajus) olevate neuronite suurt hulka, et motoorset toimet adaptiivselt juhtida. See paradoks sõnastati ajal (80-ndad), kui me veel uskusime, et suudame oma teadmised masinasse kinnistada, et täita keerulisi ülesandeid kontrollimata mürarikkas keskkonnas. Muidugi on see paradoks mõttekas, kui masin suudab maailma diskreteeritud olekute kogumis esindada, siis oleks kõrgema taseme funktsiooni üles ehitamine lihtsam. Kuid ma usun, et mõlemad osutuvad äärmiselt maksustavaks ning võrkudevahelisel liidesel kasutatav sisemine esindus on kaugel sellest, mis meenutab meie enda teadlikke esitusi.

Järeldus

Kombineerides erinevaid närvivõrke, millest igaüks vastutab probleemi spetsiifilise käsitlemise eest, selgub sellest artiklist, et luues ülesande, mis loomupäraselt vajab üldistamist, ja luues domeeni randomiseerimise abil sobiva õpikeskkonna, mälumaale juurdepääsu võimaldava närvivõrgu ja tähelepanu süsteem võib õppida üldistama lisaks lihtsale reprodutseerimisele. See võib õppida avastama kõrgema järgu eesmärki, mida on teabe visuaalses voos demonstreeritud ainult üks kord, ja teeb arvutused üldistatud ruumis, et taastada sobivad toimingud, mis suudavad seda eesmärki teistsuguses kontekstis taasesitada.

Tulevikus näeme üha keerukamaks muutuvaid struktuure, mis põhinevad nendel aatomi ehitusplokkidel, mis suudavad õppida keerulisi ülesandeid üldistama, kuid mis veelgi olulisem - mitu sellist ülesannet täidetakse uutes keskkondades, vähem tuginedes kõvakodeeritud meetoditele, näiteks sisendite eeltöötlus või mälu salvestamine. Mälu salvestamine asendatakse hajutatud esitustega kogu mäluvõrgus, tähelepanusüsteemid asendatakse tsüklilise tegevusega reaalajas tegutsevates teabevõrkudes. Jääb küsimus, kuidas me suudame tugeva seeriatehnoloogia (Turingi masinad) kohandada oma suurenenud sõltuvusega hajutatud andmetöötlusest kehastatud süsteemis.