Vyhľadať

PSPP: Analýza rozptylu (ANOVA – Analysis of Variance)

Je parametrická štatistická metóda vytvorená na vzájomné porovnávanie skupín, ktorých počet je viac než dve. Zjednodušene by sme mohli povedať, že je to t test pre viac ako dve skupiny. Existuje viacero typov analýzy rozptylu  ( viacero ANOV), no my sa v tejto časti zameriame na základnú a najjednoduchšiu z nich – ANOVU pre 1 faktor (One way ANOVA). Pri tejto ANOVE porovnávame viacero skupín (viac než 2) a hľadáme či sa štatisticky významne odlišujú len v 1 faktore.

Zadanie:

V príklade č. 7. Canvas metódy a startup je opísaný podnikateľský zámer pomocou metódy Canvas. Podnikatelia, žiadajúci o financie od nezávislých investorov, opísali svoj zámer a ten bol následne obodovaný metodikou Canvas. Podľa toho ako dobre, podrobne a odborne opísali svoj zámer, dostávali body za jednotlivé kategórie ako napríklad segmenty zákazníkov, ponúkaná hodnota a ostatné, ktoré sa sčítali a vzniklo Celkové skóre Canvas, ktoré je v našom príklade č. 7 posledný stĺpec s názvom: Canvas_total_score. Čím je toto skóre vyššie, tým podrobnejší, odbornejší a kvalitnejší podnikateľský plán predložili. Rôzni podnikatelia mali za sebou rôzne skúsenosti a pre väčšinu z nich bol tento ich zámer vôbec prvým pokusom začať podnikať. Iní už vlastnili existujúcu firmu a niektorí mali aj dve, či dokonca tri firmy. V stĺpci s názvom: N je uvedený počet firiem, ktoré podnikatelia založili v minulosti. Na základe počtu založených firiem rozdelíme podnikateľov do 4 skupín (0 – nemá firmu, 1 – založil jednu firmu, 2 – dve firmy, 3 – tri firmy). Zaujíma nás, či tí, ktorí majú skúsenosti v podnikaní (založili 1 alebo viac firiem), dokážu lepšie vypracovať podnikateľské zámery a plány. Predpokladáme, že  premenná:  Celkové Canvas skóre sa bude medzi skupinami líšiť. Na základe týchto predpokladov sme si stanovili nasledovné hypotézy:

H1: Podnikatelia rozdelení do štyroch skupín podľa počtu založených firiem sa štatisticky významne líšia v Celkovom Canvas skóre.

H0 : Neexistuje štatisticky významný rozdiel v Celkovom Canvas skóre medzi podnikateľmi, ktorí založili rôzny počet firiem.

Riešenie:

Postup riešenia je nasledovný:

  1. Krok: Overiť normalitu rozloženia dát u skúmanej premennej (Celkové Canvas skóre).
  2. Krok: Ak sú dáta rozložené normálne použijeme parametrickú metódu na porovnanie skupín, v našom prípade Analýzu rozptylu – ANOVU, ak nie sú potom použijeme neparametrickú metódu pre viac skupín než dve, a tou je Kruskal – Walisov Test.

Prvým krokom je teda overiť normalitu rozloženia dát. Použijeme na to Kolmogorov – Smirnov test. Postup pri tomto teste opisujeme napríklad v záložke na stránke s názvom: Meranie vzájomných vzťahov u ordinálnych premenných. A preto tu uvádzame už iba výsledok. Z výsledku vidíme, že hodnota Sigma je 0,476, čo je oveľa viac než hladina významnosti 0,05, čo znamená, že dáta sú rozložené normálne.

Obr.1 Výsledok Kolmogorovho – Smirnovho testu.

Krok 2. Nakoľko z výsledkov Kolmogorovho – Smirnovho testu usudzujeme, že dáta sú rozložené normálne, potom môžeme aplikovať parametrický test na porovnanie skupín ANOVA. Postup je nasledovný.

Klikneme na Analyzovať (Analyze) a potom na  Porovnať priemery (Compare Means) a vyberieme Jednofaktorovú Analýzu rozptylu (One – Way ANOVA). V sprievodcovi presunieme premennú Canvas_total_score do okna Závislé premenné  (Dependent variable(s)). Ďalej vyberieme premennú Počet založených firiem v minulosti – N a presunieme ju do políčka Faktor (Factor). V zaškrtávacích políčkach dole zaškrtneme Opisné štatistiky (Descriptives) a test Homogenity dát (Homogeneity). Na záver klikneme Ok.

Obr. 2 Sprievodca Analýzou rozptylu (ANOVA)

Výsledky:

Program PSPP ako výsledok vytvorí tri tabuľky. V prvej tabuľke sa nachádzajú opisné štatistiky pre každú skupinu. Máme 4 skupiny žiadateľov čo sa týka ich predchádzajúcich skúseností v podnikaní. Prvá skupina je najpočetnejšia (n = 136), označili sme ju 0,  a táto nezaložila v minulosti žiaden podnik. Ich priemerné skóre v bodovaní Canvas je: M = 32,13 bodu, smerodajná odchýlka SD = 14,63 a v riadku sú uvedené aj ďalšie opisné štatistiky pre skupinu 0. V druhom riadku sú uvedené opisné štatistiky pre Celkové Canvas skóre u skupiny podnikateľov, ktorí založili 1 firmu a treťom i štvrtom riadku je princíp rovnaký ako v prvých dvoch.  Keď porovnáme priemery (stĺpec Mean v prvej tabuľke) vidíme, že skupiny sa medzi sebou pomerne výrazne líšia v priemerných hodnotách z Celkového Canvas skóre, otázkou však je, či tieto rozdiely sú aj štatisticky významné. Na to nám odpovie tretia tabuľka.

V druhej tabuľke sú výsledky testu pre normalitu rozloženia dát, v tomto prípade výsledky Levenovho testu = 0,3 pri hladine významnosti p = 0,992. Táto úroveň hladiny významnosti je vysoko nad podmienkou p < 0,05, a teda test je nevýznamný, čo znamená, že dáta pre premennú  Celkové skóre canvas sú rozložené normálne. Tieto výsledky sú doplnením Kolmogorovho – Smirnovho testu a sú s ním v zhode. Z praktického hľadiska stačí použiť jeden z nich.

Tretia tabuľka obsahuje výsledky samotnej ANOVY a je pre nás najdôležitejšia. Hovorí nám o tom, či sa naše 4 skupiny medzi sebou štatisticky významne líšia. V poslednom stĺpci Sig. je uvedená hladina významnosti, ktorá je menej než 0,001, čo znamená, že skupiny sa medzi sebou štatisticky významne líšia čo sa týka premenej: Celkové skóre Canvas. Na základe týchto výsledkov prijímame prvú hypotézu H1  a zamietame nulovú hypotézu.

Obr. 3 Výsledok analýzy rozptylu (ANOVA)

Veľkosť účinku (effect size)

Vypočítame ju z nasledovného vzorca, kde dáta použijeme z poslednej tabuľky výsledkov, kde rozptyl medzi skupinami (Between Groups) sa označuje aj ako SSM = 4783,82 a celkový rozptyl (Total) SST = 46 607,87. Dosadením do vzorca  a vypočítaním dostaneme hodnotu r  = 0,32, čo je stredná hodnota účinku ( je väčšia ako 0,3).

Obr. 4 Veľkosť účinku (effect size) vzorec

Uvádzanie výsledkov:

Jednotlivé skupiny podnikateľov, vytvorené podľa počtu založených firiem v minulosti, sa vzájomne štatisticky významne líšia v tom, aké Celkové skóre Canvas dosiahol nimi predložený podnikateľský plán, F(3,196)= 7,47, p < 0.001, so stredným efektom účinku r = 0,32.

Spracoval Róbert Hanák, November 2016