EITC/AI/ARL Advanced Reinforcement Learning yra Europos IT sertifikavimo programa, skirta „DeepMind“ metodui sustiprinti mokymąsi dirbtinio intelekto srityje.
EITC/AI/ARL Advanced Inforcement Learning mokymo programoje pagrindinis dėmesys skiriamas teoriniams aspektams ir praktiniams sustiprinto mokymosi metodų įgūdžiams iš DeepMind perspektyvos, organizuojamo pagal šią struktūrą, apimantį išsamų vaizdo didaktinį turinį kaip šio EITC sertifikato nuorodą.
Mokymasis sustiprinti (RL) yra mašininio mokymosi sritis, susijusi su tuo, kaip protingi agentai turėtų imtis veiksmų aplinkoje, kad maksimaliai padidintų kaupiamojo atlygio sąvoką. Mokymasis sustiprinti yra viena iš trijų pagrindinių mašininio mokymosi paradigmų, greta prižiūrimo ir neprižiūrimo mokymosi.
Mokymasis sustiprinantis nuo prižiūrimo skiriasi tuo, kad nereikia pateikti paženklintų įvesties/išvesties porų ir nereikia optimaliai neveiksmingų veiksmų, kurie būtų aiškiai pataisyti. Vietoj to daugiausia dėmesio skiriama pusiausvyrai tarp (nepažymėtos teritorijos) ir išnaudojimo (dabartinių žinių).
Aplinka paprastai nurodoma Markovo sprendimo proceso (MDP) pavidalu, nes daugelyje šio konteksto sustiprinimo mokymosi algoritmų naudojamos dinaminės programavimo technikos. Pagrindinis skirtumas tarp klasikinių dinaminio programavimo metodų ir sustiprinimo mokymosi algoritmų yra tas, kad pastarieji neprisiima žinių apie tikslų MDP matematinį modelį ir jie nukreipti į didelius MDP, kur tikslūs metodai tampa neįmanomi.
Dėl savo bendrumo mokymasis apie sustiprinimą yra studijuojamas daugelyje disciplinų, tokių kaip žaidimų teorija, valdymo teorija, operacijų tyrimai, informacijos teorija, modeliavimu pagrįstas optimizavimas, kelių agentų sistemos, spiečių intelektas ir statistika. Operacijų tyrimo ir valdymo literatūroje mokymasis apie sustiprinimą vadinamas apytiksliu dinaminiu programavimu arba neurodinaminiu programavimu. Suinteresuotumo mokymosi stiprinimu problemos taip pat buvo nagrinėjamos optimalios kontrolės teorijoje, kuri daugiausia susijusi su optimalių sprendimų egzistavimu ir apibūdinimu bei jų tikslaus apskaičiavimo algoritmais ir mažiau su mokymusi ar derinimu, ypač jei nėra matematinis aplinkos modelis. Ekonomikoje ir žaidimų teorijoje sustiprinimo mokymasis gali būti naudojamas paaiškinti, kaip pusiausvyra gali atsirasti esant ribotam racionalumui.
Pagrindinis sustiprinimas yra modeliuojamas kaip Markovo sprendimo procesas (MDP). Matematikoje Markovo sprendimo procesas (MDP) yra diskretaus laiko stochastinis valdymo procesas. Tai suteikia matematinę sistemą sprendimų priėmimui tais atvejais, kai rezultatai yra iš dalies atsitiktiniai ir iš dalies kontroliuojami sprendimų priėmėjo. MDP yra naudingi tiriant optimizavimo problemas, išspręstas naudojant dinaminį programavimą. MDP buvo žinomi bent jau 1950-aisiais. Pagrindinis Markovo sprendimų procesų tyrimo rezultatas buvo 1960 m. Ronaldo Howardo knyga „Dinaminis programavimas ir Markovo procesai“. Jie naudojami daugelyje sričių, įskaitant robotiką, automatinį valdymą, ekonomiką ir gamybą. MDP pavadinimas kilęs iš rusų matematiko Andrejaus Markovo, nes jie yra Markovo grandinių pratęsimas.
Kiekvienu laiko tarpsniu procesas yra tam tikroje būsenoje S, o sprendimų priėmėjas gali pasirinkti bet kokį veiksmą a, kurį galima pasiekti būsenoje S. Procesas reaguoja kitu žingsniu atsitiktinai pereidamas į naują būseną S 'ir suteikdamas sprendimų priėmėjui atitinkamą atlygį Ra (S, S ').
Tikimybę, kad procesas pereis į naują būseną S ', įtakoja pasirinktas veiksmas a. Tiksliau, ją suteikia būsenos perėjimo funkcija Pa (S, S '). Taigi kita būsena S 'priklauso nuo esamos būsenos S ir sprendimo priėmėjo veiksmo a. Bet atsižvelgiant į S ir a, jis yra sąlygiškai nepriklausomas nuo visų ankstesnių būsenų ir veiksmų. Kitaip tariant, valstybiniai MDP perėjimai tenkina Markovo savybę.
Markovo sprendimų procesai yra Markovo grandinių pratęsimas; skirtumas yra veiksmų pridėjimas (leidimas pasirinkti) ir atlygis (motyvacijos suteikimas). Ir atvirkščiai, jei kiekvienai būsenai yra tik vienas veiksmas (pvz., „Laukti“) ir visi atlygiai yra vienodi (pvz., „Nulis“), Markovo sprendimo procesas tampa Markovo grandine.
Sustiprinimo mokymosi agentas sąveikauja su savo aplinka atskirais laiko žingsniais. Kiekvienu metu t agentas gauna esamą būseną S (t) ir atlygį r (t). Tada iš galimų veiksmų rinkinio jis pasirenka veiksmą a (t), kuris vėliau siunčiamas į aplinką. Aplinka pereina į naują būseną S (t + 1) ir nustatomas atlygis r (t + 1), susijęs su perėjimu. Sustiprinančio mokymosi agento tikslas yra išmokti politiką, kuri maksimaliai padidina laukiamą kaupiamąjį atlygį.
Formuluojant problemą kaip MDP, daroma prielaida, kad agentas tiesiogiai stebi esamą aplinkos būklę. Šiuo atveju teigiama, kad problema yra visiškai pastebima. Jei agentas turi prieigą tik prie valstybių pogrupio arba jei pastebimas būsenas sugadina triukšmas, sakoma, kad agentas turi dalinį pastebimumą ir formaliai problema turi būti suformuluota kaip iš dalies stebimas Markovo sprendimo procesas. Abiem atvejais agentui prieinamų veiksmų rinkinys gali būti ribojamas. Pavyzdžiui, sąskaitos balanso būklė gali būti apribota iki teigiamos; jei dabartinė būsenos vertė yra 3, o būsenos perėjimas bando sumažinti vertę 4, perėjimas nebus leidžiamas.
Palyginus agento veikimą su optimaliai veikiančio agento rezultatais, dėl skirtingo veikimo atsiranda nuoskaudos samprata. Norėdamas veikti beveik optimaliai, atstovas turi nuspręsti dėl ilgalaikių savo veiksmų pasekmių (ty maksimaliai padidinti būsimas pajamas), nors tiesioginis su tuo susijęs atlygis gali būti neigiamas.
Taigi mokymasis sustiprinti yra ypač tinkamas toms problemoms, kurios apima ilgalaikio ir trumpalaikio atlygio kompromisą. Jis sėkmingai pritaikytas įvairioms problemoms, įskaitant robotų valdymą, liftų planavimą, telekomunikacijas, nardus, šaškes ir „Go“ („AlphaGo“).
Du elementai daro mokymąsi stiprinančiu: pavyzdžių naudojimas siekiant optimizuoti našumą ir funkcijų aproksimavimo naudojimas norint susidoroti su didele aplinka. Dėl šių dviejų pagrindinių komponentų mokymasis sustiprinti gali būti naudojamas didelėse aplinkose šiose situacijose:
- Aplinkos modelis yra žinomas, tačiau analitinio sprendimo nėra.
- Pateikiamas tik aplinkos modeliavimo modelis (modeliavimu pagrįsto optimizavimo objektas).
- Vienintelis būdas rinkti informaciją apie aplinką yra sąveika su ja.
Pirmąsias dvi iš šių problemų galima laikyti planavimo problemomis (nes yra tam tikra modelio forma), o paskutinė - tikra mokymosi problema. Tačiau mokymasis sustiprinant abi planavimo problemas paverčia mašininio mokymosi problemomis.
Tyrimo ir eksploatavimo kompromisas buvo nuodugniausiai išnagrinėtas naudojant daugia ginklų banditų problemą ir baigtinių valstybės kosmoso MDP Burnetas ir Katehakis (1997).
Norint sustiprinti mokymąsi reikalingi sumanūs tyrimo mechanizmai; atsitiktinai parinkti veiksmai, neatsižvelgiant į numatomą tikimybių pasiskirstymą, rodo prastus rezultatus. (Mažų) baigtinių Markovo sprendimų procesų atvejis yra gana gerai suprantamas. Tačiau, kadangi trūksta algoritmų, kurie gerai skirstytųsi su būsenų skaičiumi (arba skalėtų iki begalinių būsenų erdvių problemų), praktiškiausi yra paprasti tyrimo metodai.
Net jei nepaisoma žvalgymo klausimo ir net jei valstybė buvo pastebima, problema išlieka naudojant ankstesnę patirtį, siekiant išsiaiškinti, kurie veiksmai lemia didesnį kaupiamąjį atlygį.
Norėdami išsamiai susipažinti su sertifikavimo programa, galite išplėsti ir išanalizuoti toliau pateiktą lentelę.
EITC/AI/ARL išplėstinio sustiprinimo mokymosi sertifikavimo mokymo programoje pateikiamos nuorodos į atviros prieigos didaktinę medžiagą vaizdo įrašo forma. Mokymosi procesas yra padalintas į laipsnišką struktūrą (programos -> pamokos -> temos), apimančią atitinkamas mokymo programos dalis. Taip pat teikiamos neribotos konsultacijos su domenų ekspertais.
Norėdami gauti daugiau informacijos apie sertifikavimo procedūrą, patikrinkite Patogus abonementas.
Gyvenimo aprašymo šaltiniai
Žmogaus lygio kontrolė per „Deep Reinforcement Learning“ leidinį
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Atviros prieigos kursas apie gilųjį sustiprinimo mokymąsi UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL pritaikytas K ginklo banditų problemai iš Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Atsisiųskite visą savarankiško mokymosi neprisijungus parengiamąją medžiagą, skirtą EITC/AI/ARL Advanced Reinforcement Learning programai PDF faile
EITC/AI/ARL paruošiamoji medžiaga – standartinė versija
EITC/AI/ARL parengiamoji medžiaga – išplėstinė versija su peržiūros klausimais