Veľkosť vzorky a výberová chyba
Pri zadávaní prieskumu sa často stretávame s názorom, že čím väčšia vzorka, tým lepšie. Nie zriedka ešte zaznie aj názor, že kým vzorka nie je aspoň n=1000 respondentov, výsledky prieskumu treba brať s veľkou rezervou. V mnohých prípadoch naozaj potrebujeme väčšie vzorky, aby sme mohli „ísť“ pri analýzach do podrobných triedení (napríklad pohľad na kraje či okresy alebo analýzy za jednotlivé vekové kategórie, sociálne triedy…). Inokedy nám stačia aj menšie vzorky (napr. n=500 respondentov), ktoré bývajú vzhľadom na ciele prieskumu dostatočné a výsledky štatisticky relevantné.
Skôr ako určíme veľkosť vzorky (výberový štatistický súbor), je veľmi dôležité zadefinovať cieľovú skupinu, jej zastúpenie v populácii (základný štatistický súbor), ale aj počet podskupín, resp. aké triedenia budeme požadovať a aké typy údajov očakávame od prieskumu.
Príklad: Ak vopred vieme, že výsledky prieskumu budeme chcieť zobrazovať aj podľa jednotlivých krajov SR, navyše budeme požadovať detailnejšie členenie podľa vekových kategórií, prípadne podľa klientstva alebo iných parametrov, menšie vzorky nám tieto analýzy neumožnia. Inokedy nám postačia pri výstupoch agregácie jednotlivých kategórií (napríklad namiesto 8 krajov použiť 3 regióny – západ, stred, východ alebo zlúčené vekové intervaly a pod.) – vtedy prichádzajú do úvahy aj menšie vzorky.
Pred finálnym nadizajnovaním a spustením prieskumu odporúčame pre jednotlivé varianty veľkosti vzorky vypočítať výberovú chybu. Do výpočtu okrem už spomínaného vstupuje aj veľkosť základného štatistického súboru (populácie, cieľovej skupiny), miera spoľahlivosti a očakávaná hodnota skúmaného parametra.
Príklad 1: Reprezentatívna dospelá populácia SR, ľudia vo veku nad 18 rokov
Základný štatistický súbor | 4 500 000 | 4 500 000 |
Miera spoľahlivosti | 95% | 95% |
Výberový štatistický súbor (vzorka) | n=1000 | n=600 |
Nameraná hodnota A (napr. znalosť značky) |
70% | 70% |
Výberová chyba A | 2,84 | 3,67 |
Interpretácia A | Pri vzorke n=1000 môžeme s 95% pravdepodobnosťou tvrdiť, že znalosť značky je v intervale 67,16 – 72,84 | Pri vzorke n=600 môžeme s 95% pravdepodobnosťou tvrdiť, že znalosť značky je v intervale 66,33 – 73,67 |
Nameraná hodnota B (napr. znalosť značky) |
25% | 25% |
Výberová chyba B | 2,68 | 3,46 |
Interpretácia B | Pri vzorke n=1000 môžeme s 95% pravdepodobnosťou tvrdiť, že znalosť značky je v intervale 22,32 – 27,68 | Pri vzorke n=1000 môžeme s 95% pravdepodobnosťou tvrdiť, že znalosť značky je v intervale 21,54 – 28,46 |
Príklad 2: Živnostníci SR, kvótny výber podľa regiónu
Základný štatistický súbor | 370 000 | 370 000 |
Miera spoľahlivosti | 95% | 95% |
Výberový štatistický súbor (vzorka) | n=600 | n=400 |
Nameraná hodnota A (napr. využíva úver) |
70% | 70% |
Výberová chyba A | 3,66 | 4,49 |
Interpretácia A | Pri vzorke n=600 môžeme s 95% pravdepodobnosťou tvrdiť, že využívanie úveru je v intervale 66,34 – 73,66 | Pri vzorke n=400 môžeme s 95% pravdepodobnosťou tvrdiť, že využívanie úveru je v intervale 65,51 – 74,49 |
Nameraná hodnota B (napr. využíva úver) |
25% | 25% |
Výberová chyba B | 3,46 | 4,24 |
Interpretácia B | Pri vzorke n=1000 môžeme s 95% pravdepodobnosťou tvrdiť, že využívanie úveru je v intervale 21,54 – 28,46 | Pri vzorke n=1000 môžeme s 95% pravdepodobnosťou tvrdiť, že využívanie úveru je v intervale 20,76 – 29,24 |