Mašininio mokymosi srityje, ypač naudojant tokias platformas kaip „Google Cloud Machine Learning“, kuriant ir optimizuojant modelius svarbu suprasti hiperparametrus. Hiperparametrai – tai išoriniai modelio nustatymai arba konfigūracijos, kurios diktuoja mokymosi procesą ir įtakoja mašininio mokymosi algoritmų veikimą. Skirtingai nuo modelio parametrų, kurie mokomi iš duomenų mokymo proceso metu, hiperparametrai nustatomi prieš pradedant mokymą ir išlieka pastovūs.
Hiperparametrus galima plačiai suskirstyti į keletą tipų, atsižvelgiant į jų vaidmenį ir funkciją mašininio mokymosi dujotiekyje. Šios kategorijos apima modelio hiperparametrus, optimizavimo hiperparametrus ir duomenų apdorojimo hiperparametrus. Kiekvienas tipas vaidina skirtingą vaidmenį formuojant, kaip modelis mokosi iš duomenų ir apibendrina naujus, nematomus duomenis.
Modelio hiperparametrai
1. Architektūros hiperparametrai: jie apibrėžia modelio struktūrą. Pavyzdžiui, neuroniniuose tinkluose architektūros hiperparametrai apima sluoksnių skaičių, mazgų skaičių viename sluoksnyje ir naudojamų aktyvinimo funkcijų tipą. Pavyzdžiui, giliajame neuroniniame tinkle gali būti hiperparametrų, nurodančių tris paslėptus sluoksnius su atitinkamai 128, 64 ir 32 mazgais, o kaip aktyvinimo funkciją – ReLU (ištaisytas tiesinis vienetas).
2. Reguliavimo hiperparametrai: Reguliavimo metodai naudojami siekiant išvengti per didelio pritaikymo, kuris įvyksta, kai modelis išmoksta treniruočių duomenų triukšmą, o ne pagrindinį modelį. Įprasti reguliavimo hiperparametrai apima L1 ir L2 reguliavimo koeficientus. Šie koeficientai kontroliuoja nuobaudą, taikomą dideliems svoriams modelyje. Pavyzdžiui, nustačius didesnį L2 įteisinimo koeficientą, dideli svoriai bus labiau nubausti, taigi modelis bus skatinamas išlaikyti mažesnius svorius ir galbūt pagerinti apibendrinimą.
3. Iškritimo rodiklis: Neuroniniuose tinkluose iškritimas yra reguliarumo metodas, kai treniruočių metu neatsižvelgiama į atsitiktinai atrinktus neuronus. Iškritimo rodiklis yra hiperparametras, nurodantis neuronų dalį, kuri nukrenta per kiekvieną mokymo iteraciją. Iškritimo rodiklis 0.5 reiškia, kad 50% neuronų atsitiktinai iškrenta kiekvienoje iteracijoje, o tai padeda sumažinti perteklinį priderinimą.
Hiperparametrų optimizavimas
1. Mokymosi rodiklis: Tai turbūt vienas iš svarbiausių hiperparametrų lavinant neuroninius tinklus. Mokymosi greitis apibrėžia žingsnių, padarytų link nuostolių funkcijos minimumo, dydį. Dėl didelio mokymosi greičio modelis gali per greitai priartėti prie neoptimalaus sprendimo, o dėl žemo mokymosi greičio mokymo procesas gali būti pernelyg lėtas arba įstrigti vietiniuose minimumuose.
2. Partijos dydis: Šis hiperparametras apibrėžia treniruočių pavyzdžių, naudojamų per vieną mokymo proceso iteraciją, skaičių. Mažesni partijos dydžiai gali padėti tiksliau įvertinti gradientą, bet gali padidinti laiką, reikalingą epochai užbaigti. Ir atvirkščiai, didesni partijų dydžiai gali paspartinti mokymą, bet gali lemti ne tokius tikslius modelius.
3. Momentum ": Naudojamas optimizavimo algoritmuose, tokiuose kaip Stochastic Gradient Descent su impulsu, šis hiperparametras padeda pagreitinti gradiento vektorius tinkama kryptimi, todėl greičiau susilieja. Tai padeda išlyginti svyravimus optimizavimo kelyje.
4. Epochų skaičius: Šis hiperparametras apibrėžia baigtų perėjimų per mokymo duomenų rinkinį skaičių. Didesnis epochų skaičius paprastai suteikia modeliui daugiau galimybių mokytis iš duomenų, tačiau tai taip pat gali padidinti permontavimo riziką.
Duomenų apdorojimo hiperparametrai
1. Funkcijų mastelio keitimas: Prieš mokydami modelį, dažnai reikia pakeisti funkcijų mastelį. Hiperparametrai, susiję su funkcijų mastelio keitimu, apima mastelio keitimo metodo pasirinkimą, pvz., Min-Max mastelio keitimą arba standartizavimą. Šis pasirinkimas gali labai paveikti modelio veikimą, ypač algoritmams, jautriems funkcijų mastelio keitimui, pvz., „Support Vector Machines“ ir „K-Means“ klasterizavimui.
2. Duomenų papildymo parametrai: Atliekant vaizdo apdorojimo užduotis, duomenų papildymas naudojamas dirbtinai išplėsti mokymo duomenų rinkinio dydį, sukuriant modifikuotas vaizdų versijas duomenų rinkinyje. Hiperparametrai čia apima taikomų transformacijų tipus, tokius kaip pasukimas, vertimas, apvertimas ir mastelio keitimas, ir kiekvienos transformacijos pritaikymo tikimybę.
3. Mėginių ėmimo metodai: Tais atvejais, kai duomenys nesubalansuoti, gali būti naudojami tokie metodai, kaip mažumos klasės per didelė arba per maža daugumos klasės atranka. Čia esantys hiperparametrai apima mažumos ir daugumos klasių pavyzdžių santykį.
Hiperparametrų derinimas
Optimalių hiperparametrų parinkimo procesas yra žinomas kaip hiperparametrų derinimas. Tai labai svarbus žingsnis, nes hiperparametrų pasirinkimas gali labai paveikti modelio veikimą. Įprasti hiperparametrų derinimo metodai yra šie:
1. Tinklelio paieška: Šis metodas apima hiperparametrų reikšmių tinklelį ir išsamų kiekvieno derinio išbandymą. Nors tinklelio paieška paprasta, ji gali būti brangi, ypač naudojant daug hiperparametrų.
2. Atsitiktinė paieška: Užuot bandę visus įmanomus derinius, atsitiktinė paieška parenka atsitiktinius hiperparametrų derinius. Šis metodas dažnai yra efektyvesnis nei tinklelio paieška ir gali duoti geresnių rezultatų, ypač kai įtakingi tik keli hiperparametrai.
3. Bajeso optimizavimas: Tai sudėtingesnis metodas, kuris modeliuoja hiperparametrų veikimą kaip tikimybinę funkciją ir siekia rasti geriausią hiperparametrų rinkinį subalansuojant tyrinėjimą ir naudojimą.
4. Automatizuotas mašininis mokymasis (AutoML): Tokios platformos kaip „Google Cloud AutoML“ naudoja pažangius algoritmus, kad automatiškai ieškotų geriausių hiperparametrų. Tai gali sutaupyti laiko ir išteklių, ypač specialistams, kurie gali neturėti gilių mašininio mokymosi patirties.
Praktiniai pavyzdžiai
Apsvarstykite scenarijų, kai lavinamas konvoliucinis neuroninis tinklas (CNN) vaizdų klasifikavimui naudojant „Google Cloud Machine Learning“. Hiperparametrai gali apimti:
– Konvoliucinių sluoksnių skaičius ir atitinkami jų filtrų dydžiai, kurie yra architektūros hiperparametrai.
– Mokymosi greitis ir partijos dydis, kurie yra optimizavimo hiperparametrai.
– Duomenų papildymo būdai, tokie kaip sukimas ir apvertimas, kurie yra duomenų apdorojimo hiperparametrai.
Sistemingai derinant šiuos hiperparametrus, galima žymiai pagerinti modelio tikslumą ir apibendrinimo galimybes.
Kitame pavyzdyje, kai naudojamas sprendimų medžio klasifikatorius, hiperparametrai gali apimti didžiausią medžio gylį, mažiausią pavyzdžių skaičių, reikalingą mazgui padalinti, ir padalijimo kriterijų. Kiekvienas iš šių hiperparametrų gali turėti įtakos modelio sudėtingumui ir jo gebėjimui apibendrinti.
Iš esmės hiperparametrai yra mašininio mokymosi proceso pagrindas, įtakojantys modelio mokymo efektyvumą ir efektyvumą. Kruopštus jų pasirinkimas ir derinimas gali lemti modelius, kurie ne tik gerai veikia treniruočių duomenis, bet ir efektyviai apibendrina naujus, nematytus duomenis.
Kiti naujausi klausimai ir atsakymai apie EITC/AI/GCML „Google Cloud Machine Learning“:
- Jei kas nors naudoja „Google“ modelį ir moko jį savarankiškai, ar „Google“ išlaiko patobulinimus, padarytus iš mokymo duomenų?
- Kaip žinoti, kurį ML modelį naudoti prieš jį mokant?
- Kas yra regresijos užduotis?
- Kaip galima pereiti tarp Vertex AI ir AutoML lentelių?
- Ar galima naudoti Kaggle įkelti finansinius duomenis ir atlikti statistinę analizę bei prognozes naudojant ekonometrinius modelius, tokius kaip R kvadratas, ARIMA arba GARCH?
- Ar mašininis mokymasis gali būti naudojamas prognozuojant koronarinės širdies ligos riziką?
- Kokie yra faktiniai pokyčiai dėl „Google Cloud Machine Learning“ prekės ženklo pakeitimo į „Vertex AI“?
- Kokie yra modelio našumo vertinimo metrikai?
- Kas yra tiesinė regresija?
- Ar įmanoma derinti skirtingus ML modelius ir sukurti pagrindinį AI?
Peržiūrėkite daugiau klausimų ir atsakymų EITC/AI/GCML Google Cloud Machine Learning