Mašininio mokymosi sritis apima įvairias metodikas ir paradigmas, kurių kiekviena tinka įvairiems duomenų tipams ir problemoms. Tarp šių paradigmų mokymasis prižiūrimas ir neprižiūrimas yra dvi svarbiausios.
Prižiūrimas mokymasis apima modelio mokymą pažymėtame duomenų rinkinyje, kur įvesties duomenys suporuojami su teisinga išvestimi. Modelis išmoksta susieti įvestis su išėjimais, sumažindamas paklaidą tarp prognozių ir faktinių išėjimų. Kita vertus, neprižiūrimas mokymasis susijęs su nepažymėtais duomenimis, kurių tikslas yra nustatyti natūralią duomenų taškų rinkinio struktūrą.
Egzistuoja mokymosi tipas, apimantis ir prižiūrimo, ir neprižiūrimo mokymosi metodus, dažnai vadinamas pusiau prižiūrimu mokymusi. Šis metodas mokymo proceso metu naudoja ir pažymėtus, ir nepažymėtus duomenis. Pusiau prižiūrimo mokymosi priežastis yra ta, kad nepažymėti duomenys, naudojami kartu su nedideliu pažymėtų duomenų kiekiu, gali žymiai pagerinti mokymosi tikslumą. Tai ypač naudinga tais atvejais, kai pažymėtų duomenų yra mažai arba juos gauti brangu, tačiau nepažymėtų duomenų yra daug ir juos lengva surinkti.
Iš dalies prižiūrimas mokymasis grindžiamas prielaida, kad pagrindinė nepažymėtų duomenų struktūra gali suteikti vertingos informacijos, kuri papildo pažymėtus duomenis. Ši prielaida gali būti kelių formų, pavyzdžiui, klasterio prielaida, kolektoriaus prielaida arba mažo tankio atskyrimo prielaida. Klasterio prielaida daro prielaidą, kad duomenų taškai tame pačiame klasteryje greičiausiai turės tą pačią etiketę. Daugialypė prielaida rodo, kad didelės apimties duomenys slypi daug mažesnio matmenų rinkinyje, o užduotis yra išmokti šį rinkinį. Mažo tankio atskyrimo prielaida grindžiama idėja, kad sprendimo riba turėtų būti mažo duomenų tankio regione.
Viena iš įprastų pusiau prižiūrimo mokymosi metodų yra savarankiškas mokymas. Savarankiško mokymo metu modelis iš pradžių mokomas remiantis pažymėtais duomenimis. Tada jis naudoja savo prognozes apie nepažymėtus duomenis kaip pseudo etiketes. Modelis toliau mokomas naudojant šį papildytą duomenų rinkinį, nuolat tobulinant jo prognozes. Kitas būdas yra bendras mokymas, kai du ar daugiau modelių vienu metu mokomi skirtingais duomenų rodiniais. Kiekvienas modelis yra atsakingas už dalies nepažymėtų duomenų žymėjimą, kuris vėliau naudojamas kitiems modeliams mokyti. Šis metodas išnaudoja dubliavimą keliuose duomenų rodiniuose, kad pagerintų mokymosi našumą.
Grafikais pagrįsti metodai taip pat paplitę pusiau prižiūrimo mokymosi metu. Šie metodai sudaro grafiką, kuriame mazgai žymi duomenų taškus, o briaunos – jų panašumus. Tada mokymosi užduotis performuluojama kaip grafika pagrįsta optimizavimo problema, kurios tikslas yra perkelti etiketes iš pažymėtų mazgų į nepažymėtus, išsaugant grafiko struktūrą. Šie metodai yra ypač veiksmingi srityse, kuriose duomenys natūraliai sudaro tinklą, pavyzdžiui, socialiniai tinklai arba biologiniai tinklai.
Kitas būdas derinti prižiūrimą ir neprižiūrimą mokymąsi yra mokymasis atliekant kelias užduotis. Mokantis iš kelių užduočių, kelios mokymosi užduotys sprendžiamos vienu metu, išnaudojant užduočių bendrumus ir skirtumus. Tai gali būti vertinama kaip indukcinio perdavimo forma, kai vienos užduoties metu įgytos žinios padeda pagerinti kitos užduotį. Mokymasis atliekant kelias užduotis gali būti ypač naudingas, kai tarp užduočių yra bendra vaizdavimo ar funkcijų erdvė, leidžianti perduoti informaciją.
Praktinis pusiau prižiūrimo mokymosi pavyzdys yra natūralios kalbos apdorojimo (NLP) srityje. Apsvarstykite jausmų analizės užduotį, kurios tikslas yra priskirti tekstą teigiamai arba neigiamai. Pažymėti duomenys, pvz., atsiliepimai su nuotaikų etiketėmis, gali būti riboti. Tačiau yra daug nepažymėto teksto. Iš dalies prižiūrimas mokymosi metodas galėtų apimti nuotaikų klasifikatoriaus mokymą pagal pažymėtus duomenis ir jį naudojant numatant nepažymėtų duomenų nuotaikas. Tada šios prognozės gali būti naudojamos kaip papildomi treniruočių duomenys, pagerinantys klasifikatoriaus veikimą.
Dar vieną pavyzdį galima rasti vaizdų klasifikacijoje. Daugeliu atvejų paženklintų vaizdų gavimas yra daug darbo jėgos ir brangus, o nepažymėtų vaizdų yra daug. Iš dalies prižiūrimas metodas gali apimti nedidelį pažymėtų vaizdų rinkinį pradiniam modeliui parengti. Tada šį modelį būtų galima pritaikyti nepažymėtiems vaizdams, kad būtų sukurtos pseudoetiketės, kurios vėliau naudojamos modeliui perkvalifikuoti.
Prižiūrimo ir neprižiūrimo mokymosi integravimas per pusiau prižiūrimą mokymąsi ir susijusias metodikas yra galingas mašininio mokymosi metodas. Išnaudojus abiejų paradigmų stipriąsias puses, galima pasiekti reikšmingų modelio našumo patobulinimų, ypač tose srityse, kuriose pažymėtų duomenų yra nedaug, bet nepažymėtų duomenų yra daug. Šis metodas ne tik padidina modelių gebėjimą apibendrinti iš ribotų duomenų, bet ir suteikia tvirtesnę sistemą, leidžiančią suprasti pagrindinę sudėtingų duomenų rinkinių struktūrą.
Kiti naujausi klausimai ir atsakymai apie EITC/AI/GCML „Google Cloud Machine Learning“:
- Jei kas nors naudoja „Google“ modelį ir moko jį savarankiškai, ar „Google“ išlaiko patobulinimus, padarytus iš mokymo duomenų?
- Kaip žinoti, kurį ML modelį naudoti prieš jį mokant?
- Kas yra regresijos užduotis?
- Kaip galima pereiti tarp Vertex AI ir AutoML lentelių?
- Ar galima naudoti Kaggle įkelti finansinius duomenis ir atlikti statistinę analizę bei prognozes naudojant ekonometrinius modelius, tokius kaip R kvadratas, ARIMA arba GARCH?
- Ar mašininis mokymasis gali būti naudojamas prognozuojant koronarinės širdies ligos riziką?
- Kokie yra faktiniai pokyčiai dėl „Google Cloud Machine Learning“ prekės ženklo pakeitimo į „Vertex AI“?
- Kokie yra modelio našumo vertinimo metrikai?
- Kas yra tiesinė regresija?
- Ar įmanoma derinti skirtingus ML modelius ir sukurti pagrindinį AI?
Peržiūrėkite daugiau klausimų ir atsakymų EITC/AI/GCML Google Cloud Machine Learning