Mašininio mokymosi srityje, ypač dirbant su tokiomis platformomis kaip „Google Cloud Machine Learning“, duomenų paruošimas ir valymas yra svarbus veiksmas, kuris tiesiogiai veikia jūsų kuriamų modelių našumą ir tikslumą. Šis procesas apima kelis etapus, kurių kiekvienas skirtas užtikrinti, kad mokymui naudojami duomenys būtų aukštos kokybės, tinkami ir tinkami numatytai mašininio mokymosi užduočiai. Panagrinėkime išsamius duomenų paruošimo ir valymo veiksmus prieš mokydami mašininio mokymosi modelį.
Duomenų paruošimo ir valymo svarbos supratimas
Duomenų paruošimas ir valymas yra pagrindiniai mašininio mokymosi etapai. Duomenų kokybė gali turėti didelės įtakos mašininio mokymosi modelių našumui. Dėl prastai paruoštų duomenų modeliai gali būti netikslūs, o gerai parengti duomenys gali padidinti modelio tikslumą, sutrumpinti mokymo laiką ir pagerinti rezultatų aiškinamumą. Duomenų paruošimo ir valymo procesas yra kartotinis ir gali tekti pakartotinai peržiūrėti kelis kartus per visą modelio kūrimo ciklą.
Duomenų paruošimo ir valymo žingsniai
1. Duomenų rinkimas ir integravimas
Pradinis duomenų rengimo žingsnis yra duomenų rinkimas iš įvairių šaltinių. Tai gali būti duomenų bazės, skaičiuoklės, API, žiniatinklio rinkimas, daiktų interneto įrenginiai ir kt. Surinkus duomenis reikia integruoti į vieną duomenų rinkinį. Integravimo metu svarbu užtikrinti, kad duomenys iš skirtingų šaltinių būtų suderinami ir nuoseklūs. Tai gali apimti problemų, pvz., skirtingų duomenų formatų, matavimo vienetų ir duomenų tipų, sprendimą.
Pavyzdys: Tarkime, kad kuriate nuspėjamąjį klientų mažėjimo modelį, naudodami duomenis iš kelių skyrių, pvz., pardavimo, palaikymo ir rinkodaros. Šiuos duomenų rinkinius turėsite sujungti į vientisą duomenų rinkinį, kuris atspindėtų holistinį kliento kelionės vaizdą.
2. Duomenų valymas
Duomenų valymas apima duomenų rinkinio klaidų ir neatitikimų nustatymą ir taisymą. Šis žingsnis yra būtinas siekiant užtikrinti duomenų tikslumą ir patikimumą. Duomenų valymo užduotys apima:
- Trūkstamų vertybių tvarkymas: Trūksta duomenų dėl įvairių priežasčių, pvz., duomenų įvedimo klaidų, įrangos gedimo ar duomenų sugadinimo. Įprastos trūkstamų verčių tvarkymo strategijos yra šios:
- išbraukta: pašalinami įrašai su trūkstamomis reikšmėmis, jei jų yra nedaug ir jie neturi reikšmingos įtakos duomenų rinkiniui.
- Priskyrimas: trūkstamų verčių užpildymas naudojant statistinius metodus, pvz., vidurkį, medianą arba režimą, arba sudėtingesnius metodus, pvz., K-artimiausius kaimynus arba regresinę imputaciją.
- Dublikatų pašalinimas: pasikartojantys įrašai gali iškreipti analizę, todėl juos reikia identifikuoti ir pašalinti. Tai ypač svarbu duomenų rinkiniuose, kur kiekvienas įrašas turėtų atstovauti unikaliam objektui.
- Neatitikimų taisymas: Tai apima duomenų įrašų, kurie turėtų būti vienodi, standartizavimą, pvz., datos formatus, kategorines etiketes arba teksto didžiąsias ir mažąsias raides.
Pavyzdys: duomenų rinkinyje, kuriame yra klientų informacija, stulpelyje „Amžius“ galite rasti trūkstamų reikšmių. Galite pasirinkti užpildyti šias trūkstamas reikšmes duomenų rinkinio amžiaus mediana, kad išlaikytumėte paskirstymą.
3. Duomenų transformavimas
Duomenų transformavimas apima duomenų konvertavimą į formatą, tinkamą analizei ir modeliavimui. Šis veiksmas gali apimti:
- Normalizavimas ir standartizavimas: Šie metodai naudojami skaitmeninėms ypatybėms pakeisti į bendrą diapazoną arba paskirstymą, o tai ypač svarbu algoritmams, jautriems funkcijų mastelio keitimui, pvz., „Support Vector Machines“ arba „K-Means“ klasterizavimui.
- Normalizavimas: funkcijų skalės keitimas iki [0, 1] diapazono, naudojant min-max mastelio keitimą.
- Standartizacija: ypatybių transformavimas, kad vidurkis būtų 0, o standartinis nuokrypis – 1.
- Kategorinių kintamųjų kodavimas: Mašininio mokymosi algoritmams reikalinga skaitmeninė įvestis. Todėl kategoriniai kintamieji turi būti konvertuojami į skaitines reikšmes. Technika apima:
- Etikečių kodavimas: kiekvienai kategorijai priskiriamas unikalus sveikasis skaičius.
- Vienkartinis kodavimas: Dvejetainių stulpelių kūrimas kiekvienai kategorijai, o tai pageidautina, kai tarp kategorijų nėra eilės ryšio.
- Funkcijų inžinerija: naujų funkcijų kūrimas arba esamų modifikavimas, siekiant pagerinti modelio veikimą. Tai gali apimti:
- Polinominės savybės: sąveikos terminų arba daugianario terminų generavimas iš esamų funkcijų.
- Rozdzielników: nuolatinių kintamųjų konvertavimas į kategoriškus, sugrupuojant juos į dėžes.
Pavyzdys: duomenų rinkinyje su stulpeliu „Miestas“, kuriame yra kategoriniai duomenys, galite naudoti vienkartinę kodavimą, kad kiekvienam miestui sukurtumėte dvejetainius stulpelius, kad modelis galėtų juos interpretuoti kaip skaitines įvestis.
4. Duomenų mažinimas
Duomenų mažinimo metodai naudojami siekiant sumažinti duomenų kiekį išlaikant jų vientisumą. Tai gali pagerinti skaičiavimo efektyvumą ir modelio našumą. Metodai apima:
- Matmenų mažinimas: Metodai, tokie kaip pagrindinių komponentų analizė (PCA) arba paskirstytasis stochastinis kaimynų įterpimas (t-SNE), naudojami siekiant sumažinti funkcijų skaičių, išsaugant duomenų dispersiją arba struktūrą.
- Funkcijos pasirinkimas: identifikuoti ir išlaikyti tik pačias svarbiausias ypatybes, pagrįstas statistiniais testais, koreliacijos analize arba modeliais pagrįstomis svarbos matavimais.
Pavyzdys: jei duomenų rinkinyje yra 100 ypatybių, PCA galima sumažinti iki mažesnio pagrindinių komponentų rinkinio, kuris užfiksuoja didžiąją dispersiją, taip supaprastinant modelį neprarandant didelio informacijos.
5. Duomenų skaidymas
Prieš mokydami mašininio mokymosi modelį, labai svarbu padalyti duomenis į atskirus rinkinius, skirtus mokymui, patvirtinimui ir testavimui. Tai užtikrina, kad modelio veikimas gali būti įvertintas pagal neregėtus duomenis, o tai sumažina permontavimo riziką.
- Treniruočių rinkinys: modeliui mokyti naudojama duomenų dalis.
- Patvirtinimo rinkinys: atskiras poaibis, naudojamas modelio parametrams derinti ir sprendimams dėl modelio architektūros priimti.
- Bandymo rinkinys: galutinis pogrupis, naudojamas modelio veikimui įvertinti po mokymo ir patvirtinimo.
Įprasta naudoti 70-15-15 padalijimą, tačiau tai gali skirtis priklausomai nuo duomenų rinkinio dydžio ir konkrečių projekto reikalavimų.
6. Duomenų papildymas
Tam tikrų tipų duomenims, ypač vaizdams ir tekstui, duomenų papildymas gali būti naudojamas dirbtinai padidinti mokymo duomenų rinkinio dydį sukuriant modifikuotas esamų duomenų versijas. Tai gali padėti pagerinti modelio patikimumą ir apibendrinimą. Technika apima:
- Vaizdo padidinimas: transformacijų, tokių kaip sukimas, mastelio keitimas, apvertimas ir spalvų reguliavimas, taikymas, kad būtų sukurti nauji treniruočių pavyzdžiai.
- Teksto papildymas: naudojant tokius metodus kaip sinonimų pakeitimas, atsitiktinis įterpimas arba atgalinis vertimas naujiems tekstiniams duomenims generuoti.
Pavyzdys: Vykdydami vaizdų klasifikavimo užduotį, galite pritaikyti atsitiktinius vaizdų pasukimus ir apvertimus, kad sukurtumėte įvairesnį treniruočių rinkinį ir padėtų modeliui geriau apibendrinti nematomus duomenis.
Duomenų paruošimo ir valymo įrankiai ir platformos
„Google Cloud“ siūlo keletą įrankių ir paslaugų, palengvinančių duomenų paruošimą ir valymą:
- „Google Cloud Dataprep“.: vizualinis įrankis, skirtas duomenims tyrinėti, valyti ir paruošti analizei. Ji suteikia intuityvią sąsają ir automatizuotus pasiūlymus, kaip supaprastinti duomenų rengimo procesą.
- „BigQuery“: visiškai valdoma duomenų saugykla be serverio, leidžianti greitai atlikti SQL užklausas dideliuose duomenų rinkiniuose. Jis gali būti naudojamas iš anksto apdoroti ir išvalyti duomenis prieš pateikiant juos į mašininio mokymosi modelius.
- Debesų duomenų laboratorija: interaktyvus duomenų tyrinėjimo, analizės ir vizualizavimo įrankis, kurį galima naudoti duomenims paruošti ir išvalyti naudojant Python ir SQL.
- Debesies duomenų srautas: visiškai valdoma srautinio ir paketinio duomenų apdorojimo paslauga, kurią galima naudoti kuriant sudėtingus duomenų paruošimo vamzdynus.
Duomenų paruošimo ir valymo procesas yra svarbi mašininio mokymosi darbo eigos dalis. Tai apima kelis veiksmus, įskaitant duomenų rinkimą, valymą, transformavimą, mažinimą, padalijimą ir papildymą. Kiekvienas veiksmas reikalauja atidžiai apsvarstyti ir taikyti atitinkamus metodus, siekiant užtikrinti, kad duomenys būtų aukštos kokybės ir tinkami tvirtiems ir tiksliems mašininio mokymosi modeliams ugdyti. Naudodami įrankius ir platformas, tokias kaip siūlomos „Google Cloud“, duomenų mokslininkai ir mašininio mokymosi inžinieriai gali supaprastinti ir optimizuoti šį procesą, o tai galiausiai padės sukurti veiksmingesnį ir efektyvesnį modelį.
Kiti naujausi klausimai ir atsakymai apie EITC/AI/GCML „Google Cloud Machine Learning“:
- Jei kas nors naudoja „Google“ modelį ir moko jį savarankiškai, ar „Google“ išlaiko patobulinimus, padarytus iš mokymo duomenų?
- Kaip žinoti, kurį ML modelį naudoti prieš jį mokant?
- Kas yra regresijos užduotis?
- Kaip galima pereiti tarp Vertex AI ir AutoML lentelių?
- Ar galima naudoti Kaggle įkelti finansinius duomenis ir atlikti statistinę analizę bei prognozes naudojant ekonometrinius modelius, tokius kaip R kvadratas, ARIMA arba GARCH?
- Ar mašininis mokymasis gali būti naudojamas prognozuojant koronarinės širdies ligos riziką?
- Kokie yra faktiniai pokyčiai dėl „Google Cloud Machine Learning“ prekės ženklo pakeitimo į „Vertex AI“?
- Kokie yra modelio našumo vertinimo metrikai?
- Kas yra tiesinė regresija?
- Ar įmanoma derinti skirtingus ML modelius ir sukurti pagrindinį AI?
Peržiūrėkite daugiau klausimų ir atsakymų EITC/AI/GCML Google Cloud Machine Learning