Transformer-XL kerge sissejuhatus

Pikaajalist sõltuvust toetava uudse tähelepaneliku keele modelleerimise tehnika kokkuvõte.

Taust

Keele modelleerimisega on hiljuti tegeletud järelevalveta koolitusmeetodite abil, nagu ELMo ja BERT. Kuid närvivõrkude pikaajalise sõltuvusega nõuetekohane varustamine on endiselt väljakutse.

Hiljutised mudelid on välja töötatud tähelepanu mehhanismi abil, mis hõlbustab optimeerimist - hakates kaduma gradiendiga - ja võimaldavad õppida pikaajalist sõltuvust. Kuid nendel juhtudel on kontekst kindla pikkusega, nii et mudel ei suuda tuvastada pikemaajalist sõltuvust ja kannatab probleemi all, mida nimetatakse konteksti killustatuseks.

Konteksti killustatus tähendab seda, kui mudelil puudub konteksti valimise viisist tulenevalt vajaminev kontekstuaalne teave paari esimese sümboli ennustamiseks - tavaliselt ilma lause või semantiliste piirideta.

Pealegi ei toeta eelnevad mudelid koolituse ajal segmentidevahelist teabevoogu ja kasutavad fikseeritud kontekstipikkust, mis tähendab, et mudelil pole ruumi pikemaajalise sõltuvuse kajastamiseks.

Keele modelleerimise kontekstis saab peidetud olekuid uuesti kasutada, et võimaldada teabe liikumist segmentide vahel (omamoodi mälu). See võiks aidata toetada pikemaajalist sõltuvust ja lahendada konteksti killustatust. Kuid selleks, et arhitektuur toetaks riigi taaskasutamist, tuleb juhtida ajalist sidusust, nagu järgmisena arutame.

Trafo-XL

Koolituse ajal ei kasuta vanilje keelemudelid kontekstiteavet tõhusalt ja segmente käsitletakse individuaalselt. Lisaks ei järgita segmenteerimise ajal tavaliselt semantilisi piire, kuna enamus meetodeid kasutavad kindla pikkusega standardseid tükeldatud jadasid. Hindamise ajal kasutatakse fikseeritud pikkusega kontekste ja segmente töödeldakse nullist, mis muutub kalliks, ehkki konteksti killustatusega on mõnevõrra arvestatud. Selle töö eesmärk on keskenduda tõhususe probleemile, modelleerides pikemaajalist sõltuvust paremini.

Keele modelleerimisel on trafode võrgud piiratud kindla pikkusega kontekstiga ja seega saab neid pikemaajalise sõltuvuse õppimise kaudu parendada. Selles artiklis pakutakse välja keele modelleerimiseks uudne meetod Transformer-XL (tähendab eriti pikka), mis võimaldab Transformeri arhitektuuril õppida pikema aja jooksul sõltuvust - kordusmehhanismi kaudu - fikseeritud pikkusest pikema aja jooksul, häirimata ajalist sidusust.

Meetod erineb teistest varasematest lähenemisviisidest, mis keskenduvad muudele strateegiatele pikaajalise sõltuvuse toetamiseks, näiteks täiendavad kadude signaalid ja laiendatud mälustruktuur.

Kasutusele võetakse segmenditaseme korduv mehhanism, mis võimaldab mudelil eelnevaid varjatud olekuid treeningu ajal uuesti kasutada, käsitledes nii fikseeritud pikkusega konteksti kui ka konteksti killustatuse probleeme. Teisisõnu, ajaloolist teavet saab uuesti kasutada ja seda saab laiendada nii palju, kui GPU mälu võimaldab. Vaadake koolituse ja hindamise etappe alloleval joonisel.

Trafo-XL - koolitus- ja hindamisfaas (joonis)

Varjatud olekute korrektseks taaskasutamiseks pakuvad autorid välja mehhanismi, mida nimetatakse suhteliseks positsioonikodeeringuks, mis aitab vältida ajalikku segadust. Praegused mudelid ei suuda eristada erinevates kihtides erinevate segmentide sisendite positsioonilist erinevust. Suhteline positsioonikodeering lahendab selle probleemi varjatud olekutes asuva asukohateabe kodeerimise kodeerimise teel, mis erineb teistest sisendtasemena täituvatest lähenemisviisidest.

Kuna tegemist on trafo arhitektuuriga, saavutatakse ülaltoodud protsess, arvutades iga võtmevektori ja päringuvektori vahelise suhtelise vahemaa ning süstides selle tähelepanu punkti. Päringu ja vektori vahelise tähelepanu skoori tuletamiseks kasutatud terminite mõne uue parameetrite määramise triki abil saab suhtelise asukoha teabe lisada. Korduskomponent on nüüd varustatud kavandatud suhtelise positsioonilise kinnistamisega ja kogu see protseduur esindab kavandatud Transformer-XL arhitektuuri.

Tulemused

Transformer-XL saavutab tugevaid tulemusi nii sõnatasandil kui ka tähemärgitasemel keele modelleerimisel, mida rakendatakse mitmesugustele andmekogumitele nagu WikiText-103, text8 ja One Billion Word.

Pakutud mudelit võrreldakse vaniljemudeliga, mida hiljuti kasutati karakteritaseme keele modelleerimisel (Al-Rfou jt, 2018), mis ka haarab sügavamat enese tähelepanu. Pange tähele, et vaniljemudel ei toeta sõltuvuse pikkusi, mis on suuremad kui ülemise äärisega segmendi pikkus.

Transformer-XL vähendab SoTA varasemat segadust mitmetes andmekogumites, näiteks text8, enwiki8, One Billion Word ja WikiText-103. Lisaks SoTA etendustele väidavad autorid, et meetod on hindamise ajal paindlikum, kiirem (kiirus 1874 korda), üldistab hästi väikesi andmekogumeid ja on efektiivne lühikeste ja pikkade jadade modelleerimisel. Vaadake allpool olevates tabelites mõnede erinevate andmekogumitega saadud tulemuste kokkuvõtet.

Ülejäänud tulemusi saate kontrollida allpool lingitud täispaberist.

Muud eelised

Samuti on artiklis esitatud ablatsiooniuuring nii kordumise mehhanismi kui ka kavandatud positsioonilise kodeerimise skeemi mõju uurimiseks.

Autorid pakuvad välja ka uue mõõdiku, mille nimi on suhteline efektiivne konteksti pikkus, mis annab õiglase võimaluse võrrelda mudeleid, mida on testitud suurema kontekstipikkusega.

Edasised lugemised

  • Transformer-XL: tähelepanelikud keelemudelid väljaspool fikseeritud pikkusega konteksti
  • Harvardi NLP grupi annoteeritud trafo
  • Tähelepanu juhend Lilian Weng
  • Tähelepanu on kõik, mida vajate
  • Paberiga seotud koodide hoidla (TensorFlow ja PyTorch)
  • Tegelaskuju keele modelleerimine sügavama enese tähelepanu abil

Kui huvi on piisavalt väljendatud, võib mul tekkida kiusatus selle töö jaoks koodikokkuvõte ette valmistada. See sisaldab palju erinevaid komponente, mis võivad olla huvitavad ja kasulikud NLP praktikutele ja teadlastele.