Pred izbore (3): Kako čitati ankete

Marketing

Vjerojatno će u slijedećim danima biti objavljeni rezultati još bar jedne ankete javnoga mnjenja, pred izbore slijedeće nedjelje.

U međuvremenu, pogledajmo još malo što možemo zaključiti iz prethodne ankete, koju je provela agencija Promocija Plus, a naručila RTL. Što nam ankete kažu i što na osnovu njih možemo predviđati?

Prije daljih promišljanja, međutim, na osnovu iskustva diskusija koje sam o tome vodio posljednjih godina, i mog vlastitog učenja te problematike (koja mi je hobi, a imam određena predznanja iz teorije vjerojatnosti i matematičke statistike), napisat ću neka objašnjenja o istraživanjima javnoga mnjenja (aketama), o podacima koje daju i kako ih interpretirati.

Detaljni podaci te ankete objavljeni su na stranici "Statistički centar" na mrežnom sjedištu RTL-a.

Podaci i njihova interpretacija

Anketa je provedena po izbornim jedinicama, na uzorku od 1.000 ispitanika u svakoj izbornoj jedinici. Nije sve provedeno jednovremeno, nego se išlo od jedne do druge izborne jedinice, između 3. i 21. listopada. To unosi određenu nesigurnost, moguće je da dio birača promijeni stav u tijeku 16 dana.

To je samo jedno od ograničenja koja treba imati u vidu kad se promatraju rezultati anketa. Rezultate treba interpetirati; oni nisu sami po sebi jasni. Sadrže, kao i svako zaključivanje na temelju teorije vjerojatnosti, određenu nesigurnost.

Preveliko povjerenje u ankete može dovesti do suprotnoga učinka - potpunoga razočaranja i tvrdnje da "svi lažu" ili da su sve ankete beskorisne.

Proračun mandata: kako se osramotila Agencija 2X1

Mandati, koje svaka lista osvaja u Saboru, u Hrvatskoj se računaju posebno u svakoj izbornoj jedinici; faktički, kao da se održava deset nezavisnih izbora.

D'Hondtova metoda podjele je matematički vrlo jednostavna. Podjela mandata može se izračunati na osnovu dobivenih glasova, ili na osnovu postotaka koje su liste dobile u anketi.

U tome se, kako sam pisao prije, osramotila Agencija 2X1, kod objave rezultata u 6. IJ. Više je ljudi to primijetilo. Agencija je upozorena na grešku na njihovoj facebook stranici, ali odgovorili su uvredom i ignoriranjem. Grešku su ponovili pri objavi rezultata za 1. IJ. (Usput, vlasnik agencije pojavio se na izborima kao kandidat HDZ-ove koalicije.)

Objasnit ću zašto je ovo bitno - ako netko od čitatelja, kao i odgovorni u Agenciji 2X1, ne razumije lanac zaključivanja.

Anketa je dala rezultat, da je od svih ispitanika 31,5% reklo da će glasati za listu A, 30,8% za listu B, 4,8% za listu C i 4,6% za listu D (a ostale liste osvajaju manje od 3%). Kako je izborni prag 5% (postotak, pri kojem se lista uzima u obzir u daljoj raspodjeli mandata po D'Hondovoj metodi), na prvi pogled, liste C i D treba isključiti.

Kako bi se opredijelili neopredjeljeni?

Međutim, ako želimo zasnovano pretpostaviti, kakvi bi bili rezultati izbora da su se stvarno održali u to vrijeme, moramo prihvatiti neku pretpostavku o tome, kako bi se raspodjelili glasovi onih 17,6% neodlučnih; jer, ne možete doći na izbore i reći da ste neodlučni (možete ne predati listić ili ga učiniti nevažećim - oni se onda naprosto ne uračunavaju).

Listi C nedostaje samo 0,2% do praga, a listi D 0,4%. Razumno je pretpostaviti, da bi bar neki od onih 17,6% dali glas ovim listama, pa bi one mogle preći prag.

Koja je pretpostavka najvjerojatnija za raspodjelu tih 17,6% glasova? U nekim anketama (u svijetu postoji ogromno iskustvo u anketiranju), ljudima su postavljali potpisanja: iako ste neodlučni, koja vam je stranka ipak najbliža?; ili: kolebate li se možda između samo dvije?, isl.. Pa ako netko kaže da se koleba npr. između lista B i C, dodijelimo po pola glasa svakoj od tih lista.

Ovdje (koliko znamo) nije bilo potpitanja. Ako nemamo dodatnih podataka, jedino opravdano jest, pretpostaviti da bi se glasovi neodlučnih raspodjelili u istom omjeru, kao i glasovi onih, koji su već odlučili. Dakle, da će 31,5% od onih 17,6% dati glas listi A, itd..

Ili, matematički ekvivalentno, kako sam pisao 23. listopada, postotke preračunamo u odnosu samo prema onima, koji su se izjasnili, tj. svaki postotak pomnožimo sa 100/(100-N), gdje je "N" broj neizjašnjenih. (O tome ću još pisati kasnije, kod diskusije o prognozi rezultata izbora na osnovu anketa.)

Po tome, u navedenom slučaju, da liste C i D osvajaju po jedan mandat.

Proračun mandata online

Ako se želite zabavljati proračunavanjem mandata, uz varijacije broja odnosno postotka glasova, na Svemrežju je dostupan Election calculus simulator based on the modified D'Hondt method. Morate unijeti koliko se mandata dijeli, te postoji li i koliki je izborni prag. Ne morate nužno unijeti ukupan broj listića (kalkulator pretpostavi da je jednak zbroju glasova koje ste unijeli za sve liste) niti broj praznih ili nevažećih listića (ne utiču na rezultat).

Morate unijeti neki rezultat za bar dvije liste. Postotke pomnožite s deset ili sto, tako da dobijete cijeli broj. Ne morate unositi podatke za liste koje nisu prešle prag (uz provjeru navedenu gore da stvarno nisu prešle prag); one ne utječu na raspodjelu mandata.

Uz samo malo više vještine, možete u excell ili MS Works tablici unijeti u odgovarajuća polja formule za računjanje diobe broja glasova ili postotaka s 2, 3 itd., ili to sažeti prema izvornom D'Hondovom postupku. Onda "pješke" gledate koji su rezultati najveći i donose mandate. Tako vam je pred očima kako se pojedini rezultati kreću (i kad je granični slučaj, pa jedan glas više ili manje mijenja raspodjelu mandata).

Možete varirati rezultate da vidite promjene, ili recimo pretpostaviti da je cijela zemlja jedna izborna jedinica (unesite da se dijeli 140 mandata umjesto 14), ili da se u svakoj IJ dijeli recimo 10 mandata a ne 14, ili da po dvije jedinice spojimo pa se u svakoj dijeli 28 mandata uz prag 3% isl..

Granice (ne)pozdanosti 1: slučajne varijacije

Rezultati ankete nisu apsolutno pouzdani, ali nisu ni bezvrijedni. Zaključivanje na osnovu njih zasniva se na matematičkoj statistici: analiza slučajne raspodjele i teorija uzoraka.

Ispitali smo 1000 ljudi, iz populacije od recimo 350.000 (toliko otprilike ima birača u svakoj teritorijalnoj izbornoj jedinici u Hrvatskoj), bi li izašli na izbore i za koga bi glasali da su izbori danas. Njih 300 odnosno 30,0% je reklo da bi izašlo i da bi glasalo za stranku A. Na osnovu toga, možemo li zaključiti nešto o raspoloženju svih 350.000?

Prije svega, uzorak mora biti reprezentativan. Pretpostavljam da je to otprilike jasno pa ostavljam po strani.

Matematička analiza ovakvih problema ilustrira se problemom vađenja kuglica različitih boja iz kutije (takvim razmatranjima bavili su se veliki matematičari 17. i 18. stoljeća).

Vađenje kuglica iz kutije

Recimo da u kutiji ima deset kuglica, a od njih su tri plave. Kolika je vjerojatnost da slučajnim izborom izvučemo plavu? Naravno, 30% odnosno 0,3.

E sad, pretpostavimo da u kutiji ima vrlo velik broj kuglica, recimo 100.000, od kojih je 30% plavih. Ako slučajnim izborom izvučemo 1.000 kuglica, koliko će među njima biti plavih?

Intuicija nam kaže, da će najvjerovatnije biti 300 plavih; i to jest točno. To je srednja vrijednost. Ali, očito, zapravo je malo vjerojatno da će biti točno 300. Možda će biti 301, ili 322, ili 278.

Matematički, može se točno izračunati vjerojatnost za svaki pojedini rezultat - da se izvuče 300 plavih, ili 301, 299 itd.. Postoji načelno jednostavna formula (binomni teorem); računjanje može biti vrlo komplicirano jer se radi s ogromnim brojevima gdje i računalo ima problema, ali na sreću postoji dobra približna formula.

Međutim nas toliko preciznost zapravo ne zanima. U praksi se postavljaju pitanja poput "kolika je vjerojastnost, da se izvuče između 290 i 310 kuglica?", ili "kolika je vjerojatnost da odstupanje rezultata od srednje vrijednosti bude više od 3%?" isl.

Za taj izračun postoje gotove tablice, kao i on-line kalkulatori.

E sad, ključan korak jest da obrnemo problem. Postavimo ovako: u kutiji ima velik broj kuglica, od kojih je nepoznat broj plavih. Izvukli smo 1.000 kuglica, od koji je bilo 300 plavih. Koliki je postotak plavih kuglica u kutiji?

Opet, intuitivno je očita pretpostavka da ih najvjerovatnije ima 30%, ali da je mala vjerojatnost da je to točno baš 30,000%. I dalje onda vrijedi ista matematika, kao gore.

Interval pouzdanosti

Onaj tko je imao strpljenja pročitati prethodno, vjerojatno je već došao na pomisao, da je problem interpretacije rezultata ankete matematički jednak. Ako smo pitali 1.000 ljudi, i 300 je reklo da bi glasalo za stranku/listu A, koliki je postotak ljudi u ukupnoj populaciji koj su spremni glasati za listu A?

Oko 30% naravno. Malo manje ili više. Vjerojatno nije baš 40% ili 20% (iako nije apsolutno nemoguće, samo je vjerojatnost jako mala). Koliko manje ili više?

U praksi se obično navodi interval vrijednosti takav, da se stvarna vrijednost nalazi unutar tog intervala s vjerojatnosti od 95%.

Za takav izračun, na Svemrežju je dostupan Population Confidence Interval Calculator. (Na mrežnom sjedištu ncalculators.com postoje i razni drugi kalkulatori za statističke veličine.)

Tu unesete prvo koliku razinu pouzdanosti želite - 90%, 95% ili 99%. Zatim veličinu uzorka (npr. 1000) i "Frequency", odnosno broj onih koji bi glasali za stranku A (npr. 300). Kliknite na "Calculate" i dobit ćete kao rezultat "Confidence Interval Proportion", tj. donju i gornju granicu za željenu pouzdanost, izraženu kao postotak. Rezultat je simetričan u odnosu na srednju vrijednost (u ovom slučaju 0,3).

Interval mogućih odstupanja stvarnih vrijednosti od anketnih

I to je to, što nas zanima! U prezentaciji rezultata ankete Promocije plus, na vrhu stranice piše: »Standardna greška uzorka: - 3.09 % uz razinu pouzdanosti od 95%«.

Ovih 3,09 odnosi se na slučaj da je srednja vrijednost 0,50. Gornji kalkulator dat će vam, da je u tom slučaju vrijednost, s pouzdanosti od 95%, između 0,469 i 0,531.

Ukoliko je pak anketom dobiveni postotak ispod 50%, onda je i greška mjerenja manja, ali ne u istom omjeru. Omjer greške mjerenja i rezultata u anketi je to veći, što je rezultat manji.

Ovo je matematička vrijednost. U praksi, granice nesigurnosti mogu biti nešto šire, zbog toga što uzorak nikad nije apsolutno reprezentativan.

Ugrubo (dovoljno za praktične svrhe, da ne računate sve točno): ako je anketom dobivena vrijednost oko 30%, onda su granice pouzdanosti oko 3%, tj. stvarna potpora toj listi u ukupnoj populaciji, u trenutku provođenja ankete, je s vjerojatnosti od 95% između, otprilike, 27% i 33% (a za pouzdanost od 99%, granica pouzdanosti je oko 4%).

Vidimo da je to prilično velik raspon. U prezentaciji anketa u medijima tek u posljednjih godinu dana počelo se više upozoravati na tu nesigurnost. Ako je anketa dala rezutat da lista A dobiva 32%, a lista B 29%, a na izborima rezultat bude obrnut, ne znači da je u provođenju ankete napravljena greška; to može biti slučajna varijacija. (No, moguće je da je bila neka sistemska greška mjerenja; kao i to, da se dio birača predomislio u vremenu između provođenja ankete i samih izbora.)

Za anketom dobivene vrijednosti od oko 10%, granica 95%-ne pouzdanosti je oko 2%. A za vrijednost 5%, iznosi oko 1,5%.

Postoji dakle znatna nesigurnost i to treba imati u vidu. Ljudi generalno vole da nešto bude jasno i sigurno, pa prihvaćaju predočene postotke kao da se radi o egzaktnom mjerenju, a mediji ih u tome često dovode u zabludu. Ili pak ljudi, kad jednom vide neslaganja, ne vjeruju ničemu.

Što je veći uzorak, moguća odstupanja su manja (ali ne u istom omjeru - deset puta veći uzorak ne daje deset puta manju granicu pouzdanosti, nego je poboljšanje manje).

Granice pouzdanosti ne ovise o broju stanovnika

Postoji još jedan važan čimbenik, koji proizlazi iz matematike, a proturječi intuciji (i mene je iznenadilo, kad sam to prvi put proučavao, iako sam već imao predznanja iz matematičke statistike).

Gore pišem o granicama pouzdanosti ovisno o veličini uzorka, a da ne spominjem veličinu populacije. Granice za uzorak od 1.000 ispitanika ne ovise o tome, je li ukupna populacija 100.000, milijun ili čak sto milijuna.

Zbog toga se čak i ankete pred izbore u zemljama koje imaju puno više stanovnika od Hrvatske obavljaju, i smatraju relevantnim, na uzorku od oko 1.000 ispitanika (uz podrazumijevani kriterij reprezentativnosti uzorka).

Zašto je tako? Sjetimo se gornjeg jednostavnog primjera, da su u kutiji deset kuglica, od toga tri plave. Ako izvučemo jednu kuglicu, vjerojatnost da bude plava je 0,3%. A kolika je vjerojatnost, ako izvučemo dvije kuglice, da obje budu plave?

Tu moramo uzeti u obzir, ako smo izvukli jednu kuglicu, vjerojatnost da i druga bude plava više nije 3/10, nego 2/9. Međutim, ako smo prvu kuglicu vratili, pa ponovo kuglice promiješali, vjerojatnost je ponovo 3/10.

Ako pak ima vrlo mnogo kuglica u odnosu na uzorak, onda tu razliku možemo zanemariti. Ako ima 1000 kuglica, vjerojatnost da prva bude plava je 300/1000, a za drugu je 299/999, a to je zanemariva razlika.

Tu smo pretpostavku radili i gore, iako se pretpostavlja da isti ispitanik neće biti zvan dvaput. U statistici se kaže, da promjenu vjerojatnosti ovisno o rezultatima prethodnih izvlačenja možemo zanemariti, ako je ukupna populacija barem deset puta veća od uzorka; a u pravilu je to i znatno više.

Evo, toliko zasad; nadam se da će bar nekome biti poučno i zanimljivo. Sutra nastavak.

Izvorno objavljeno na blogu Zelena politika

Post je objavljen 01.11.2015. u 12:02 sati.

Pregled posta

Marketing

Pred izbore (3): Kako čitati ankete