Vyhľadať

JAMOVI – Regresná analýza lineárna jednoduchá

Matematikmi boli vytvorené rôzne typy regresných analýz v závislosti od typu premenných do nich vstupujúcich, alebo od charakteru dát s ktorými analýza pracuje. Tu je krátky prehľad vybraných regresných analýz používaných začínajúcimi užívateľmi.

  • Jednoduchá lineárna regresná analýza
  • Viacnásobná lineárna regresná analýza
  • Hierarchická regresná analýza
  • Logistická regresná analýza
    • Pre 2 výstupy (binominálna)
    • Pre N výstupov (multinominálna)
  • S ordinálnym výstupom

Regresná analýza skúma príčinné vzťahy medzi premennými. Tento vzťah aj regresia dokáže matematicky vyčísliť pomocou regresnej rovnice na rozdiel od korelácie, ktorá len konštatuje, že nejaký vzťah existuje. Pri regresnej analýze pracujeme s dvomi premennými: nezávislou a závislou premennou. Nezávislá premenná (Independent variable – IV, označovaná aj X) je premenná, ktorá ovplyvňuje závislú premennú. Nazýva sa tiež prediktor alebo determinant. Môžeme mať 1 prediktor vtedy hovoríme o jednoduchej regresnej analýze, alebo viac prediktorov a vtedy hovoríme o viacnásobnej regresnej analýze. Závislá premenná (Dependent variable -DV, označovaná aj Y) je premenná, ktorá závisí od nezávislej premennej.

Pred aplikáciou a následne prijatím výsledkov regresnej analýzy je nevyhnutné overiť tieto predpoklady a podmienky aplikácie, aby sme výsledky analýzy mohli považovať za platné:

  • Najskôr si dôkladne premyslíme a skontrolujeme, či nami stanovená nezávislá premenná môže z hľadiska logickej racionálnej úvahy kauzálne, príčinne vplývať na našu závislú premennú.  Následne si overíme , aký typ je moja závislá premenná, či je nominálna, ordinálna alebo kardinálna. Potom aplikujeme konkrétnu metódu regresnej analýzy.
  • Miera autokorelácie rezidúií, meraná pomocou Durbin Watsonovho testu = DW. Používaným pravidlom je, že testovacie štatistické hodnoty v rozsahu 1,5 až 2,5 sú relatívne normálne. Dôležité je, aby test nebol štatisticky významný (p>0,05). Následne, ak je toto splnené, môžeme interpretovať výsledky samotnej regresnej analýzy. Keby sme mali porušený tento predpoklad, tak na dané dáta používam následne logistickú regresnú analýzu.
  • Tolerancia = T – meria multikolinearitu. Používa sa pri viacnásobnej regresnej analýze.

Vysoká tolerancia (napr. 0,84 a viac až k 1) = nízka multikolinearita

Nízka tolerancia (napr. 0,19) = vysoká (závažná) multikolinearita

  • Inflačný faktor rozptylu = VIF – rovnako meria multikolinearitu a používa sa pri viacnásobnej regresnej analýze. VIF 1 znamená, že medzi j-tým prediktorom a ostatnými premennými prediktora neexistuje žiadna korelácia. Všeobecným pravidlom je, že hodnoty VIF presahujúce 4 vyžadujú ďalšie skúmanie, zatiaľ čo hodnoty VIF presahujúce 10 sú znakmi vážnej multikolinearity vyžadujúcej korekciu.
  • Ak je moja závislá premenná nominálna vždy používam logistickú regresnú analýzu: binominálnu (2 kategórie závislej premennej), alebo multinominálnu (viac kategórií závislej premennej).
  • Ak je moja závislá premenná ordinálna alebo kardinálna aplikujem lineárnu regresnú analýzu. Pri jej aplikácii, však musím skontrolovať vyššie uvedené predpoklady – Assumption checks (autokoreláciu, mulitikolinearitu, normalitu, Q – Q graf). Ak sú porušené tieto predpoklady, potom znova robím logistickú regresnú analýzu.

Príklad spracujte v súbore s názvom:

Zadanie:

Preskúmajte vplyv vysokoškolského vzdelania otca, (premenná: Otec VŠ vzdelanie) na zámer študentov začať podnikať (premenná Zámer začať podnikať). Skontrolujte či sú splnené podmienky na aplikáciu jednoduchej regresnej analýzy.

Predpoklad: Očakávame, že vysokoškolského vzdelania vlastného otca bude mať pozitívny vplyv na zámer študentov – jeho syna/dcéry začať podnikať.

Hypotézy:

  • H0: Vysokoškolské vzdelanie vlastného otca nemá štatisticky významný pozitívny vplyv na zámer jeho detí – študentov začať podnikať.
  • H1: Vysokoškolské vzdelanie otca štatisticky významne ovplyvňuje zámer jeho detí – študentov začať podnikať.
Obr. 1. Regresná analýza lineárna jednoduchá - spustenie testu
Obr. 2. Sprievodca testom pri realizácii regresie
Obr. 3. Sprievodca testom pri realizácii regresie - nastavenie testov

Závislá premenná- do Dependent variable presunieme (Zámer začať podnikať).

Nezávislá premennú presunieme ak je to nominálna premenná, čo je náš prípad – do Factors (Otec Vš vzdelanie) a ak je to: kardinálna alebo ordinálna tak by sme ju presunuli do Covariates.

Obr. 4. Testy predpokladov regresnej analýzy
Obr. 5. Collinearity Statistics
Obr. 6. Normality Test (Shapiro-Wilk)

Podľa tabuliek na obrázku 4 až 6 skontrolujeme, či máme splnené predpoklady. Výsledky pre Durbin–Watson test sú ideálne, nie sú štatisticky významné. Test miery autokorelácie v tomto prípade nemá význam, pretože máme len jeden prediktor a tak VIF aj tolerancia nadobúdajú ideálne hodnoty. Hoci je test normality (Shapiro-Wilkov test) štatisticky významný, čo znamená, že dáta nie sú rozložené normálne, táto podmienka nie je taká významná aby sme museli prejsť na Logistickú regresnú analýzu. Môžeme preto pokračovať v Lineárnej regresnej analýze.

Obr. 7. Výsledky lineárnej regresnej analýzy 1

Podľa výsledkov na obr. 7 vidíme, že hladina významnosti  je p > 0,05. To znamená, že test nie je štatisticky významný. Môžeme konštatovať, že to, či otec je vysokoškolsky vzdelaný neovplyvňuje jeho syna/dcéru v tom, či chce začať podnikať.

Interpretácia: Prijímame nulovú hypotézu H0, a zamietame alternatívnu hypotézu H1.

  • Uvádzanie výsledkov: Vysokoškolského vzdelanie otca štatisticky významne neovplyvňuje zámer jeho syna/dcéry – študentov začať podnikať, kde upravené R2 = 1.449 * 10 -6; F(1; 244) =1,0; p= 0,32 so štandardizovanou β = 0,138.
  • Regresná rovnica: Y = b0 + b1 * X + e po dosadení našich premenných by bola nasledovná: Zámer syna/dcéry – študentov začať podnikať = 3,11 + 0,151 * Vysokoškolské vzdelanie otca. Teda ak by otec nemal vysokoškolské vzdelanie (kódované číslom 0) potom by rovnica vyzerala nasledovne: Zámer syna/dcéry – študentov začať podnikať = 3,11  + 0,151 * 0, teda Zámer syna/dcéry – študentov začať podnikať = 3,11. Ak by otec mal vysokoškolské vzdelanie  (kódované číslom 1), potom  by rovnica vyzerala:   Zámer syna/dcéry – študentov začať podnikať = 3,11  + 0,151 * 1, a teda Zámer syna/dcéry – študentov začať podnikať = 3,261.

Spracovala Nina Kocúrová, Január 2022