Žodžių maišelio metodas yra dažniausiai naudojamas natūralios kalbos apdorojimo (NLP) metodas, skirtas žodžius paversti skaitiniais vaizdais. Šis požiūris pagrįstas mintimi, kad žodžių tvarka dokumente nėra svarbi, o svarbus tik žodžių dažnumas. Žodžių maišelio modelis vaizduoja dokumentą kaip žodžių rinkinį, neatsižvelgiant į gramatiką, žodžių tvarką ir kontekstą.
Norint paversti žodžius skaitiniais vaizdiniais, naudojant žodžių maišelio metodą, reikia atlikti kelis veiksmus. Išsamiai aptarkime kiekvieną žingsnį.
1. Ženklinimas: pirmas žingsnis yra teksto suskirstymas į atskirus žodžius arba žetonus. Šis procesas paprastai apima skyrybos ženklų pašalinimą, visų žodžių pavertimą mažosiomis raidėmis ir teksto padalijimą į žetonus pagal tarpą.
Pavyzdžiui, apsvarstykite tokį sakinį: „Greita rudoji lapė peršoka per tinginį šunį“. Po tokenizacijos gauname tokius žetonus: ["the", "quick", "ruda", "lapė", "šokinėja", "per", "the", "tinginys", "šuo"].
2. Žodyno kūrimas: Kitas žingsnis yra sukurti žodyną, kuris yra unikalus visų žodžių, esančių dokumentų korpuse arba rinkinyje, rinkinys. Kiekvienam žodyno žodžiui priskiriamas unikalus indeksas arba identifikatorius.
Naudojant aukščiau pateiktą pavyzdį, žodynas būtų toks: ["the", "greitas", "rudas", "lapė", "šokinėja", "per", "tinginys", "šuo"].
3. Vektorizavimas: kai turime žodyną, galime pavaizduoti kiekvieną dokumentą kaip skaičių vektorių. Vektoriaus ilgis yra lygus žodyno dydžiui, o kiekvienas vektoriaus elementas parodo žodžio dažnumą arba buvimą dokumente.
Pavyzdžiui, panagrinėkime sakinį „Greita rudoji lapė šokinėja“. Naudodami aukščiau pateiktą žodyną, šį sakinį galime pavaizduoti kaip vektorių: [1, 1, 1, 1, 1, 0, 0, 0]. Čia pirmieji penki elementai reiškia žodžių "the", "quick", "ruda", "lapė" ir "šuolis" dažnį sakinyje, o paskutiniai trys elementai reiškia žodžių "per" nebuvimą. , „tinginys“ ir „šuo“.
4. Termino dažnio ir atvirkštinio dokumento dažnio (TF-IDF) svoriai: be pagrindinio žodžių atvaizdavimo paketo, gali būti taikomas TF-IDF svoris, kad būtų suteikta daugiau reikšmės retiems žodžiams ir mažiau svarbos įprastiems žodžiams. TF-IDF yra statistinis matas, įvertinantis žodžio svarbą dokumente, palyginti su dokumentų rinkiniu.
TF-IDF apskaičiuojamas padauginus žodžio termino dažnį (TF) dokumente iš atvirkštinio žodžio dokumento dažnio (IDF) visame korpuse. IDF apskaičiuojamas logaritmą iš bendro dokumentų skaičiaus padalijus iš dokumentų, kuriuose yra žodis, skaičiaus.
Pavyzdžiui, apsvarstykite dviejų dokumentų korpusą: „Greita rudoji lapė“ ir „Tingus šuo“. TF-IDF žodis „greitai“ pirmame dokumente būtų didesnis nei antrajame dokumente, nes jis rodomas tik pirmame dokumente.
Žodžių maišelio metodas paverčia žodžius skaitiniais vaizdais, ženklindamas tekstą, sukurdamas žodyną ir vektorizuodamas dokumentus pagal žodžių dažnumą ar buvimą. TF-IDF svoriai gali būti taikomi norint suteikti didesnę reikšmę retiems žodžiams ir mažesnę svarbą bendriems žodžiams.
Kiti naujausi klausimai ir atsakymai apie EITC/AI/GCML „Google Cloud Machine Learning“:
- Kas yra reguliavimas?
- Ar yra AI modelio mokymo tipas, kuriame tuo pačiu metu įgyvendinami ir prižiūrimi, ir neprižiūrimi mokymosi metodai?
- Kaip vyksta mokymasis neprižiūrimose mašininio mokymosi sistemose?
- Kaip naudoti Fashion-MNIST duomenų rinkinį Google Cloud Machine Learning/AI platformoje?
- Kokių tipų mašininio mokymosi algoritmai yra ir kaip juos pasirinkti?
- Kai branduolys yra sujungtas su duomenimis, o originalas yra privatus, ar šakotasis branduolys gali būti viešas ir jei taip, tai nėra privatumo pažeidimas?
- Ar NLG modelio logika gali būti naudojama ne NLG, o kitiems tikslams, pavyzdžiui, prekybos prognozavimui?
- Kokie yra išsamesni mašininio mokymosi etapai?
- Ar TensorBoard yra labiausiai rekomenduojamas modelio vizualizavimo įrankis?
- Kaip išvalyti duomenis, kaip užtikrinti, kad duomenys nebūtų šališki?
Peržiūrėkite daugiau klausimų ir atsakymų EITC/AI/GCML Google Cloud Machine Learning