Mašininio mokymosi kontekste, ypač aptariant pradinius žingsnius, susijusius su mašininio mokymosi projektu, svarbu suprasti veiklos, kuria galima užsiimti, įvairovę. Ši veikla sudaro mašininio mokymosi modelių kūrimo, mokymo ir diegimo stuburą. , ir kiekvienas iš jų atlieka unikalų tikslą neapdorotus duomenis paverčiant veiksmingomis įžvalgomis. Toliau pateikiamas išsamus šių veiklų sąrašas kartu su paaiškinimais, siekiant išsiaiškinti jų vaidmenis mašininio mokymosi sistemoje.
1. Duomenų rinkimas: Tai yra pagrindinis bet kurio mašininio mokymosi projekto žingsnis. Duomenų rinkimas apima neapdorotų duomenų rinkimą iš įvairių šaltinių, įskaitant duomenų bazes, žiniatinklio rinkimą, jutiklių duomenis arba vartotojo sukurtą turinį. Surinktų duomenų kokybė ir kiekis tiesiogiai įtakoja mašininio mokymosi modelio veikimą. Pavyzdžiui, jei kuriamas modelis, skirtas prognozuoti būsto kainas, duomenys gali būti renkami iš nekilnojamojo turto sąrašų, istorinių pardavimo įrašų ir ekonominių rodiklių.
2. Duomenų paruošimas: Surinkus duomenis, jie turi būti paruošti analizei. Šis veiksmas apima duomenų valymą, siekiant pašalinti triukšmą ir klaidas, tvarkyti trūkstamas reikšmes ir paversti duomenis tinkamu formatu. Duomenų paruošimas taip pat apima funkcijų inžineriją, kai iš esamų duomenų sukuriamos naujos funkcijos, siekiant pagerinti modelio veikimą. Pavyzdžiui, klientų operacijų duomenų rinkinyje galima sukurti funkciją, atspindinčią vidutinę kiekvieno kliento operacijos vertę.
3. Duomenų tyrinėjimas: Taip pat žinomas kaip tiriamoji duomenų analizė (EDA), šis veiksmas apima duomenų analizę, siekiant atskleisti modelius, ryšius ir įžvalgas. Duomenų vizualizavimo įrankiai ir statistiniai metodai naudojami norint suprasti duomenų pasiskirstymą, aptikti anomalijas ir nustatyti koreliacijas. Ši veikla padeda priimti pagrįstus sprendimus dėl išankstinio duomenų apdorojimo ir funkcijų pasirinkimo. Pavyzdžiui, sudarydami histogramas arba sklaidos diagramas, galite atskleisti duomenų pasiskirstymą ir galimus iškrypimus.
4. Modelio pasirinkimas: Šiame etape parenkami tinkami mašininio mokymosi algoritmai, atsižvelgiant į nagrinėjamą problemą ir duomenų pobūdį. Modelio pasirinkimas yra labai svarbus, nes skirtingi algoritmai turi skirtingas stipriąsias ir silpnąsias puses. Dėl klasifikavimo problemų galima apsvarstyti sprendimų medžius, paramos vektorines mašinas arba neuroninius tinklus. Regresijos užduotims gali tikti tiesinė regresija arba atsitiktiniai miškai. Modelio atrankos procesas dažnai apima kelių modelių palyginimą, kad būtų galima rasti tą, kuris geriausiai atitinka duomenis.
5. Modelių mokymas: Pasirinkus modelį, jis turi būti apmokytas naudojant paruoštus duomenis. Modelio mokymas apima modelio parametrų koregavimą, kad būtų sumažinta klaida tarp numatytų ir faktinių rezultatų. Paprastai tai pasiekiama naudojant optimizavimo metodus, tokius kaip gradiento nusileidimas. Mokymo metu modelis išmoksta duomenų modelius ir ryšius. Pavyzdžiui, neuroninio tinklo mokymas apima tinklo svorio ir paklaidų reguliavimą, kad būtų sumažinta praradimo funkcija.
6. Modelio įvertinimas: Po mokymo modelio veikimas turi būti įvertintas, siekiant užtikrinti, kad jis gerai apibendrintų nematomus duomenis. Tai atliekama naudojant atskirą patvirtinimo arba bandymo duomenų rinkinį, kuris nebuvo naudojamas treniruočių metu. Įprastos vertinimo metrikos apima tikslumą, tikslumą, atšaukimą, klasifikavimo užduočių F1 balą ir regresijos užduočių vidutinę kvadratinę paklaidą arba R kvadratą. Modelio įvertinimas padeda nustatyti tokias problemas kaip per didelis pritaikymas arba nepakankamas pritaikymas, kai modelis per gerai veikia su mokymo duomenimis, bet prastai su naujais duomenimis, arba atitinkamai nepavyksta užfiksuoti pagrindinių duomenų tendencijų.
7. Modelio diegimas: Paskutinis veiksmas apima išmokyto ir įvertinto modelio diegimą gamybinėje aplinkoje, kur jis gali numatyti naujų duomenų. Diegimas gali būti atliekamas įvairiais būdais, pavyzdžiui, integruojant modelį į žiniatinklio programą, įdiegiant jį kaip REST API arba įterpiant į programą mobiliesiems. Nuolatinis stebėjimas yra būtinas siekiant užtikrinti, kad modelis išliktų tikslus laikui bėgant, nes realūs duomenys gali keistis, todėl modelis nukrypsta.
Be šios pagrindinės veiklos, yra keletas specializuotų mašininio mokymosi užduočių, kurias verta paminėti:
- klasifikacija: ši veikla apima etikečių priskyrimą įvesties duomenims pagal išmoktus modelius. Klasifikavimo užduotys vyrauja įvairiose programose, tokiose kaip šiukšlių aptikimas, nuotaikų analizė ir vaizdų atpažinimas. Pavyzdžiui, šlamšto aptikimo sistema el. laiškus klasifikuoja kaip šlamštą arba ne, atsižvelgdama į tokias funkcijas kaip siuntėjo adresas, el. pašto turinys ir metaduomenys.
- Regresija: Regresijos užduotys apima nenutrūkstamo išvesties kintamojo numatymą pagal įvesties ypatybes. Tai dažniausiai naudojama tokiose programose kaip būsto kainų prognozavimas, akcijų rinkos tendencijos arba pardavimų prognozės. Tikslas yra modeliuoti ryšį tarp nepriklausomų kintamųjų ir nuolatinio priklausomo kintamojo.
- grupavimas: Klasterizavimas yra neprižiūrimas mokymosi metodas, naudojamas panašiems duomenų taškams grupuoti. Tai naudinga norint atrasti pagrindinius duomenų šablonus ar struktūras be iš anksto nustatytų etikečių. Klasterizacijos programos apima klientų segmentavimą, vaizdo glaudinimą ir anomalijų aptikimą. K-means ir hierarchinis klasterizavimas yra populiarūs šios užduoties algoritmai.
- Matmenų mažinimas: ši veikla apima įvesties kintamųjų arba funkcijų skaičiaus sumažinimą duomenų rinkinyje išsaugant pagrindines jo charakteristikas. Matmenų mažinimo metodai, tokie kaip pagrindinių komponentų analizė (PCA) ir paskirstytasis stochastinis kaimynų įterpimas (t-SNE), naudojami modeliams supaprastinti, skaičiavimo laikui ir matmenų prakeiksmui sušvelninti.
- Anomalijų nustatymas: Anomalijų aptikimas – tai retų ar neįprastų duomenų, kurie neatitinka numatomo elgesio, nustatymo procesas. Tai ypač naudinga nustatant sukčiavimą, tinklo saugumą ir gedimų aptikimą. Anomalijų aptikimo užduotims dažnai naudojami tokie metodai kaip izoliaciniai miškai ir automatiniai kodavimo įrenginiai.
- Stiprinimo mokymasis: Skirtingai nuo prižiūrimo ir neprižiūrimo mokymosi, sustiprinamas mokymasis apima mokymo modelius, kad būtų galima priimti sprendimų sekas sąveikaujant su aplinka. Modelis arba agentas mokosi pasiekti tikslą gaudamas grįžtamąjį ryšį atlygio ar nuobaudų pavidalu. Sustiprinimo mokymosi programos apima žaidimų žaidimą, robotiką ir savarankišką vairavimą.
- Gamtos kalbos apdorojimas (NLP): NLP apima įvairias veiklas, susijusias su kompiuterių ir žmonių kalbos sąveika. Tai apima tokias užduotis kaip teksto klasifikavimas, nuotaikų analizė, kalbos vertimas ir įvardinto objekto atpažinimas. NLP modeliai dažnai naudoja tokius metodus kaip prieigos raktas, stemingas ir iš anksto parengtų kalbos modelių, tokių kaip BERT arba GPT, naudojimas.
Ši veikla atspindi įvairias užduotis, kurias praktikai atlieka dirbdami su mašininiu mokymusi. Kiekviena veikla reikalauja gilaus supratimo apie pagrindinius principus ir metodus, kad būtų galima efektyviai kurti, įgyvendinti ir įdiegti mašininio mokymosi sprendimus. Įvaldę šią veiklą, galima panaudoti mašininio mokymosi galią sprendžiant sudėtingas problemas ir skatinant naujoves įvairiose srityse.
Kiti naujausi klausimai ir atsakymai apie EITC/AI/GCML „Google Cloud Machine Learning“:
- Ar mašininio mokymosi procese galima taikyti daugiau nei vieną modelį?
- Ar mašininis mokymasis gali pritaikyti, kurį algoritmą naudoti, priklausomai nuo scenarijaus?
- Koks yra paprasčiausias būdas visiškai pradedančiajam, neturinčiam programavimo patirties, žingsnis po žingsnio apmokyti ir įdiegti pagrindinį didaktinio dirbtinio intelekto modelį „Google“ dirbtinio intelekto platformoje, naudojant nemokamą bandomąją versiją/GUI konsolę?
- Kaip praktiškai apmokyti ir diegti paprastą dirbtinio intelekto modelį „Google Cloud AI Platform“ platformoje naudojant GCP konsolės grafinę sąsają žingsnis po žingsnio vadove?
- Kokia yra paprasčiausia, nuosekli paskirstyto dirbtinio intelekto modelio mokymo „Google Cloud“ sistemoje procedūra?
- Koks yra pirmasis modelis, su kuriuo galima dirbti, pateikiant keletą praktinių pasiūlymų pradžiai?
- Ar algoritmai ir prognozės yra pagrįsti žmogaus pateikta informacija?
- Kokie yra pagrindiniai natūralios kalbos apdorojimo modelio kūrimo reikalavimai ir paprasčiausi metodai? Kaip sukurti tokį modelį naudojant turimus įrankius?
- Ar norint naudotis šiais įrankiais, reikia mėnesinės ar metinės prenumeratos, ar yra tam tikras nemokamo naudojimo kiekis?
- Kas yra epocha mokymo modelio parametrų kontekste?
Peržiūrėkite daugiau klausimų ir atsakymų EITC/AI/GCML Google Cloud Machine Learning