Tiesinės regresijos kontekste parametras (paprastai vadinama geriausiai tinkančios linijos y susikirtimu) yra svarbus tiesinės lygties komponentas
, Kur
reiškia linijos nuolydį. Jūsų klausimas susijęs su ryšiu tarp y pertraukos
, priklausomo kintamojo vidurkis
ir nepriklausomas kintamasis
, ir nuolydis
.
Norėdami atsakyti į užklausą, turime apsvarstyti tiesinės regresijos lygties išvedimą. Tiesine regresija siekiama modeliuoti ryšį tarp priklausomo kintamojo ir vienas ar daugiau nepriklausomų kintamųjų
stebimiems duomenims pritaikant tiesinę lygtį. Taikant paprastą tiesinę regresiją, kuri apima vieną prognozuojamąjį kintamąjį, ryšys modeliuojamas pagal lygtį:
Čia (šlaitas) ir
(y-pertrauka) yra parametrai, kuriuos reikia nustatyti. Šlaitas
rodo pasikeitimą
už vieno vieneto pakeitimą
, o y pertrauka
reiškia vertę
kada
yra nulis.
Norėdami rasti šiuos parametrus, paprastai naudojame mažiausių kvadratų metodą, kuris sumažina stebimų verčių ir modelio numatytų verčių skirtumų kvadratu sumą. Taikant šį metodą gaunamos tokios nuolydžio formulės ir y pertrauka
:
Čia ir
yra priemonės
ir
vertės, atitinkamai. Terminas
reiškia kovariaciją
ir
, O
reiškia dispersiją
.
Y pertraukos formulė galima suprasti taip: kartą nuolydis
yra nustatytas, y pertrauka
apskaičiuojamas imant vidurkį
vertes ir atėmus nuolydžio sandaugą
ir vidurkis
vertybes. Tai užtikrina, kad regresijos linija eina per tašką
, kuris yra duomenų taškų centroidas.
Norėdami tai iliustruoti pavyzdžiu, apsvarstykite duomenų rinkinį su šiomis reikšmėmis:
Pirmiausia apskaičiuojame priemones ir
:
Toliau apskaičiuojame nuolydį :
Galiausiai apskaičiuojame y tarpą :
Todėl šio duomenų rinkinio tiesinės regresijos lygtis yra tokia:
Šis pavyzdys rodo, kad y pertrauka iš tikrųjų yra lygus visų vidurkiui
vertės atėmus nuolydžio sandaugą
ir visų vidurkis
reikšmės, kurios sutampa su formule
.
Svarbu pažymėti, kad y-pertrauka nėra tiesiog visų vidurkis
vertės plius nuolydžio sandauga
ir visų vidurkis
vertybes. Vietoj to, reikia atimti nuolydžio sandaugą
ir visų vidurkis
vertės nuo visų vidurkio
vertės.
Šių parametrų išvedimo ir reikšmės supratimas yra būtinas aiškinant tiesinės regresijos analizės rezultatus. Y pertrauka suteikia vertingos informacijos apie priklausomo kintamojo pradinį lygį
kai nepriklausomas kintamasis
yra nulis. Šlaitas
, kita vertus, nurodo santykių kryptį ir stiprumą
ir
.
Praktikoje linijinė regresija plačiai naudojama prognozuojamajam modeliavimui ir duomenų analizei. Jis naudojamas kaip pagrindinė technika įvairiose srityse, įskaitant ekonomiką, finansus, biologiją ir socialinius mokslus. Pritaikę tiesinį modelį prie stebimų duomenų, mokslininkai ir analitikai gali daryti prognozes, nustatyti tendencijas ir atskleisti ryšius tarp kintamųjų.
Python, populiari duomenų mokslo ir mašininio mokymosi programavimo kalba, teikia keletą bibliotekų ir įrankių, skirtų tiesinei regresijai atlikti. Pavyzdžiui, biblioteka „scikit-learn“ siūlo tiesioginį tiesinės regresijos įgyvendinimą naudojant „LinearRegression“ klasę. Štai pavyzdys, kaip atlikti tiesinę regresiją naudojant „scikit-learn“ programoje Python:
python import numpy as np from sklearn.linear_model import LinearRegression # Sample data x = np.array([1, 2, 3, 4, 5]).reshape((-1, 1)) y = np.array([2, 3, 5, 4, 6]) # Create and fit the model model = LinearRegression() model.fit(x, y) # Get the slope (m) and y-intercept (b) m = model.coef_[0] b = model.intercept_ print(f"Slope (m): {m}") print(f"Y-intercept (b): {b}")
Šiame pavyzdyje „LinearRegression“ klasė naudojama tiesinės regresijos modeliui sukurti. „Fit“ metodas iškviečiamas norint parengti modelį pagal pavyzdinius duomenis, o atributai „coef_“ ir „intercept_“ naudojami atitinkamai nuolydžiui ir y-interceptui gauti.
Y pertrauka tiesinėje regresijoje nėra lygus visų vidurkiui
vertės plius nuolydžio sandauga
ir visų vidurkis
vertybes. Vietoj to, jis yra lygus visų vidurkiui
vertės atėmus nuolydžio sandaugą
ir visų vidurkis
reikšmės, pateiktos pagal formulę
.
Kiti naujausi klausimai ir atsakymai apie EITC/AI/MLP mašininis mokymasis su „Python“:
- Kokį vaidmenį vaidina paramos vektoriai apibrėžiant SVM sprendimo ribą ir kaip jie atpažįstami mokymo proceso metu?
- Kokia yra svorio vektoriaus „w“ ir poslinkio „b“ reikšmė SVM optimizavimo kontekste ir kaip jie nustatomi?
- Koks yra „vizualizavimo“ metodo tikslas diegiant SVM ir kaip jis padeda suprasti modelio veikimą?
- Kaip „numatymo“ metodas SVM diegime nustato naujo duomenų taško klasifikaciją?
- Koks yra pagrindinis „Support Vector Machine“ (SVM) tikslas mašininio mokymosi kontekste?
- Kaip tokios bibliotekos kaip scikit-learn gali būti naudojamos SVM klasifikacijai įdiegti Python ir kokios yra pagrindinės funkcijos?
- Paaiškinkite apribojimo (y_i (mathbf{x}_i cdot mathbf{w} + b) geq 1) reikšmę SVM optimizavime.
- Koks yra SVM optimizavimo uždavinio tikslas ir kaip jis matematiškai suformuluotas?
- Kaip funkcijų rinkinio klasifikacija SVM priklauso nuo sprendimo funkcijos ženklo (text{sign}(mathbf{x}_i cdot mathbf{w} + b))?
- Koks yra hiperplokštumos lygties (mathbf{x} cdot mathbf{w} + b = 0) vaidmuo palaikymo vektorių mašinų (SVM) kontekste?
Peržiūrėkite daugiau klausimų ir atsakymų EITC/AI/MLP mašininio mokymosi naudojant Python