Kontakta författare

Vända ett mynt: Är det rättvist?

Att testa nollhypotesen (att ett mynt är rättvist) kommer att berätta sannolikheten för att få 10 huvuden i rad. Är myntkastet riggat? Du bestämmer! |

Ett problem med sannolikhet: Ett nollt exempel på hypotesen

Två små ligalag bestämmer sig för att vända ett mynt för att avgöra vilket lag som ska slå först. Den bästa av tio klaffar vinner myntkastet: det röda laget väljer huvud och det blå laget väljer svansar. Myntet vänds tio gånger och svansarna kommer upp hela tio gånger. Det röda laget gråter foul och förklarar att myntet måste vara orättvist.

Det röda teamet har kommit med hypotesen att myntet är partiskt för svansar. Vad är sannolikheten för att ett rättvist mynt skulle dyka upp som "svansar" i tio av tio klaffar?

Eftersom myntet borde ha 50% chans att landa som huvuden eller svansar på varje vipp, kan vi testa sannolikheten för att få svansar i tio av tio vippor med binomialfördelningsekvationen.

I fallet med myntkastning skulle sannolikheten vara:

(0, 5) 10 = 0, 0009766

Med andra ord, sannolikheten för att ett rättvist mynt kommer upp som svansar tio gånger av tio är mindre än 1/1000. Statistiskt sett skulle vi säga att P <0, 001 för tio svansar inträffar i tio myntkast. Så var myntet rättvist?

Nullhypotes: Bestämma sannolikheten för en mätbar händelse.

Vi har två alternativ: antingen myntkastet var rättvist och vi observerade en sällsynt händelse, eller så var myntkastningen orättvis. Vi måste fatta ett beslut om vilket alternativ vi tror - den grundläggande statistiska ekvationen kan inte bestämma vilket av de två scenarierna som är korrekta.

De flesta av oss valde dock att tro att myntet var orättvist. Vi skulle avvisa hypotesen om att myntet var rättvist (dvs hade en ½ chans att vända svansar mot huvuden), och vi skulle avvisa den hypotesen på 0, 001 betydelse. De flesta skulle tro att myntet var orättvist, snarare än att tro att de hade bevittnat en händelse som inträffar mindre än 1/1000 gånger.

Nullhypotesen: Bestämma förspänning

Tänk om vi ville testa vår teori om att myntet var orättvist? För att studera om ”orättvis mynt” -teorin är sant måste vi först undersöka teorin om att myntet är rättvist. Vi kommer att undersöka om myntet är rättvist först, eftersom vi vet vad vi kan förvänta oss med ett rättvist mynt: sannolikheten kommer att vara ½ av kastarna kommer att leda till huvuden, och ½ av kastarna kommer att resultera i svansar. Vi kan inte undersöka möjligheten att myntet var orättvist eftersom sannolikheten för att få huvud eller svansar är okänd för ett partiskt mynt.

Nullhypotesen är den teori vi kan testa direkt. När det gäller myntkastning skulle nollhypotesen vara att myntet är rättvist och har 50% chans att landa som huvud eller svans för varje kast av myntet. Nollhypotesen förkortas vanligtvis till H 0 .

Den alternativa hypotesen är den teori som vi inte kan testa direkt. När det gäller myntkastning skulle den alternativa hypotesen vara att myntet är partiskt. Den alternativa hypotesen förkortas vanligtvis till H 1 .

I det lilla exemplet med lilla myntkastning ovan, vet vi att sannolikheten för att få 10/10 svansar i en myntkastning är mycket osannolik: chansen att något sådant skulle hända är mindre än 1/1000. Detta är en sällsynt händelse: vi skulle avvisa Nullhypotesen (att myntet är rättvist) på P <0, 001 betydelse. Genom att avvisa nollhypotesen, accepterar vi den alternativa hypotesen (dvs. myntet är orättvist). I huvudsak bestäms godtagandet eller avslaget av nollhypotesen av signifikansnivån: bestämningen av en händels sällsynthet.

Förstå hypotesttester

Ett andra exempel: Nollhypotesen på jobbet

Tänk på ett annat scenario: det lilla ligalaget har ett nytt myntkast med ett annat mynt och vänder 8 svansar av 10 myntkast. Är myntet partiskt i detta fall?

Med hjälp av binomialfördelningsekvationen finner vi att sannolikheten för att få två huvuden av 10 kast är 0, 044. Avvisar vi nollhypotesen att myntet är rättvist på 0, 05-nivån (en 5% signifikansnivå)?

Svaret är nej av följande skäl:

(1) Om vi ​​betraktar sannolikheten för att få 2/10 myntkast som sällsynta huvuden, måste vi också överväga möjligheten att få myntkast från 1/10 och 0/10 som sällsynta huvuden. Vi måste överväga den sammanlagda sannolikheten för (0 av 10) + (1 av 10) + (2 av 10). De tre sannolikheterna är 0, 0009766 + 0, 0097656 + 0, 0439450. När man lägger ihop är sannolikheten för att få 2 (eller färre) myntkast som huvud på tio försök 0, 0547. Vi kan inte avvisa detta scenario på en 0, 05 konfidensnivå, eftersom 0, 0547> 0, 05.

(2) Eftersom vi överväger sannolikheten för att få 2/10 myntkastningar som huvuden, måste vi också överväga sannolikheten för att få 8/10 huvuden istället. Det är lika troligt som att få 2/10 huvuden. Vi undersöker nollhypotesen att myntet är rättvist, så vi måste undersöka sannolikheten för att få 8 av tio kastar som huvuden, 9 av tio kastar som huvuden och 10 av tio kastar som huvuden. Eftersom vi måste undersöka detta tvåsidiga alternativ är också sannolikheten för att få 8 av 10 huvuden 0, 0547. Den hela bilden är att sannolikheten för denna händelse är 2 (0, 0547), vilket motsvarar 11%.

Att få två huvuden av 10 myntkast kan inte omöjligt beskrivas som en rare -händelse, såvida vi inte kallar något som händer 11% av tiden som rare. I det här fallet skulle vi acceptera Nullhypotesen att myntet är rättvist.

Nivåer av betydelse

Det finns många nivåer av betydelse i statistik - vanligtvis förenklas signifikansnivån till en av några få nivåer. De typiska nivåerna av betydelse är P <0, 001, P <0, 01, P <0, 05 och P <0, 10. Om den faktiska signifikansnivån till exempel är 0, 024, skulle vi säga P <0, 05 för beräkningsändamål. Det är möjligt att använda den faktiska nivån (0, 024), men de flesta statistiker skulle använda den näst största signifikansnivån för att underlätta beräkningen. I stället för att beräkna sannolikheten för 0, 0009766 för myntkastningen skulle 0, 001-nivån användas.

För det mesta används en signifikansnivå på 0, 05 för att testa hypoteser.

Definiera sällsynta: Betydelse nivåer för nollhypotesen

Nivåerna av betydelse som används för att bestämma om Nullhypotesen är sann eller falsk är i huvudsak nivåer för att bestämma hur sällsynt en händelse kan vara. Vad är sällsynt? Är 5% en acceptabel felnivå? Är 1% en acceptabel felnivå?

Felens acceptans varierar beroende på applikationen. Om du till exempel tillverkar leksakstoppar kan till exempel 5% vara en acceptabel felnivå. Om mindre än 5% av leksakstopparna vinglar under testning, kan leksaksföretaget förklara det som acceptabelt och skicka ut produkten.

En konfidensnivå på 5% skulle emellertid vara helt oacceptabel för medicinsk utrustning. Om en hjärtpacemaker misslyckades 5% av tiden, till exempel, skulle enheten dras från marknaden omedelbart. Ingen skulle acceptera en 5% -fel för en implanterbar medicinsk utrustning. Konfidensnivån för den här typen av enheter måste vara mycket, mycket högre: en konfidensnivå på 0, 001 skulle vara ett bättre avbrott för denna typ av enhet.

En och två Tailed Tests

Ett test med en stjärna koncentrerar 5% i en svans med en normalfördelning (z-poäng på 1.645 eller högre). Samma kritiska värde på 5% är +/- 1, 96, eftersom 5% består av 2, 5% i vart och ett av de två svansarna. |

En-Tailed vs. Två Tailed Tests

Ett sjukhus vill bestämma om traumateamets genomsnittliga responstid är lämplig. Läkarmottagningen påstår att de svarar på ett rapporterat trauma med en genomsnittlig responstid på minst 5 minuter.

Om sjukhuset vill bestämma den kritiska avstängningen för endast en parameter (responstiden måste vara snabbare än x sekunder), kallar vi detta ett ett-tailed test . Vi kan använda detta test om vi inte bryr oss om hur snabbt teamet svarade i bästa fall, men bara brydde oss om huruvida de svarade långsammare än fem minuters anspråk. Läkarmottagningen vill bara avgöra om responstiden är sämre än påståendet. Ett test med en hala utvärderar i huvudsak om uppgifterna visar att något är "bättre" kontra "värre".

Om sjukhuset vill bestämma om responstiden är snabbare eller långsammare än den angivna tiden på 5 minuter, skulle vi använda ett två-svansat test . I detta fall skulle vi värden som är för stora eller för små. Detta eliminerar utfallet av responstid i båda ändarna av klockkurvan och gör att vi kan utvärdera om genomsnittstiden är statistiskt lik den påstådda 5 minuters tiden. Ett två-svansat test utvärderar i huvudsak om något är "annorlunda" kontra "inte annorlunda."

Det kritiska värdet för ett enstansat test är 1.645 för en normalfördelning på 5% -nivå: du måste avvisa Nullhypotesen om z> 1.645.

Det kritiska värdet för ett två-tailed test är + 1, 96: du måste avvisa Nullhypotesen om z> 1.96 eller om z <-1.96.

Beräknar z-poäng

Z-poängen är ett tal som säger hur många standardavvikelser dina data är från medelvärdet. För att använda en z-tabell måste du först beräkna din z-poäng. Ekvationen för beräkning av az-poäng är:

(x-μ) / σ = z

Var:

x = provet

μ = medelvärdet

σ = standardavvikelsen

En annan formel för att beräkna z-poängen är:

z = (x-μ) / s / √n

Var:

x = det observerade medelvärdet

μ = det förväntade medelvärdet

s = standardavvikelse

n = provstorleken

Ett exempel på ett svans

Med hjälp av akut-exemplet ovan observerade sjukhuset 40 traumer. I det första scenariot var den genomsnittliga responstiden 5, 8 minuter för de observerade traumorna. Provvariansen var 3 minuter för alla registrerade traumer. Nollhypotesen är att responstiden är fem minuter eller bättre. För detta test använder vi en signifikansnivå på 5% (0, 05). Först måste vi beräkna en z-poäng:

Z = 5, 8 min 5, 0 min = 1, 69

3 ( 40)

Z-poängen är -1, 69: med en z-poängtabell får vi numret 0, 9545. Sannolikheten för att provmedlet är 5 minuter är 0, 0455, eller 4, 55%. Sedan 0, 0455 <0, 05 avvisar vi att den genomsnittliga responstiden är 5 minuter (nollhypotesen). Svarstiden på 5, 8 minuter är statistiskt signifikant: den genomsnittliga responstiden är sämre än påståendet.

Nullhypotesen är att svarsteamet har en genomsnittlig responstid på fem minuter eller mindre. I detta en-tailed test fann vi att responstiden var sämre än den påstådda tiden. Nullhypotesen är falsk.

Om laget emellertid hade en responstid på 5, 6 minuter i genomsnitt, skulle följande observeras:

Z = 5, 6 min 5, 0 min = 1, 27

3 ( 40)

Z-poängen är 1, 27, vilket motsvarar 0, 8980 på z-bordet. Sannolikheten för att provmedlet är 5 minuter eller mindre är 0, 102 eller 10, 2 procent. Sedan 0, 102> 0, 05 är nollhypotesen sann. Den genomsnittliga responstiden är statistiskt sett fem minuter eller mindre.

Eftersom detta exempel använder en normalfördelning kan man också helt enkelt titta på det "kritiska antalet" på 1.645 för ett test med en hala och omedelbart bestämma att z-poängen som resulterar från responstiden på 5, 8 minuter är statistiskt sämre än det påstådda medlet, medan z-poängen från den genomsnittliga responstiden på 5, 6 minuter är acceptabel (statistiskt sett).

En mot två Tailed Tests

Ett två-tailed testexempel

Vi kommer att använda akut-exemplet ovan och bestämma om responstiderna är statistiskt annorlunda än det angivna medelvärdet.

Med en responstid på 5, 8 minuter (beräknad ovan) har vi en z-poäng på 1, 69. Med en normalfördelning kan vi se att 1, 69 inte är större än 1, 96. Det finns alltså ingen anledning att tvivla på akutmottagarens påstående att deras responstid är fem minuter. Nollhypotesen i detta fall är sant: akutavdelningen svarar med en genomsnittlig tid på fem minuter.

Detsamma gäller för responstiden på 5, 6 minuter. Med en z-poäng på 1, 27 förblir nollhypotesen sann. Akutdepartementets påstående om en 5-minuters responstid skiljer sig inte statistiskt från den observerade responstiden.

I ett två-svansat test observerar vi om uppgifterna är statistiskt olika eller statistiskt lika. I detta fall visar ett två-svansat test att både en responstid på 5, 8 minuter och en responstid på 5, 6 minuter inte statistiskt skiljer sig från anspråket på 5 minuter.

Missbruk av hypotesundersökning

Alla tester är föremål för fel. Några av de vanligaste misstagen i experiment (för att felaktigt ge ett betydande resultat) inkluderar:

  1. Publicera testen som stöder din slutsats och dölja data som inte stöder din slutsats.
  2. Utför endast en eller två test med stor provstorlek.
  3. Designa experimentet för att ge de data du önskar.

Ibland vill forskare inte visa någon signifikant effekt och kan:

  1. Publicera endast de uppgifter som stöder ett påstående om "ingen effekt."
  2. Utför många tester med en mycket liten provstorlek.
  3. Utforma experimentet så att det har få gränser.

Experimentörer kan ändra den valda signifikansnivån, ignorera eller inkludera outliers eller ersätta ett två-svansat test med ett en-tailed test för att få de resultat de önskar. Statistik kan manipuleras, varför experimenten måste vara repeterbara, peer-granskade och bestå av en tillräcklig provstorlek med adekvat repetition.