Hypotheseonderzoek uitvoeren
- Nulhypothese: H0: ρ = 0
- Alternatieve Hypothese: Ha: ρ ≠ 0
- Nul Hypothese H0: De correlatiecoëfficiënt van de populatie IS NIET significant verschillend van nul. Er IS GEEN significant lineair verband (correlatie) tussen X1 en X2 in de populatie.
- Alternatieve Hypothese Ha: De correlatiecoëfficiënt van de populatie is significant verschillend van nul. Er is een significant lineair verband (correlatie) tussen X1 en X2 in de populatie.
Trekken van een conclusieEr zijn twee methoden om de beslissing over de hypothese te nemen. De teststatistiek om deze hypothese te toetsen is:
Waarbij de tweede formule een equivalente vorm is van de teststatistiek, n de steekproefgrootte is en de vrijheidsgraden n-2 zijn. Dit is een t-statistiek en werkt op dezelfde manier als andere t-tests. Bereken de t-waarde en vergelijk die met de kritieke waarde uit de t-tabel bij de juiste vrijheidsgraden en het betrouwbaarheidsniveau dat u wilt aanhouden. Als de berekende waarde in de staart ligt, kan de nulhypothese dat er geen lineair verband is tussen deze twee onafhankelijke willekeurige variabelen niet worden aanvaard. Als de berekende t-waarde NIET in de staart ligt, kan de nulhypothese dat er geen lineair verband tussen de twee variabelen is, niet worden verworpen.
Een snelle steno manier om correlaties te testen is het verband tussen de steekproefgrootte en de correlatie. Als:
dit betekent dat de correlatie tussen de twee variabelen aantoont dat er een lineair verband bestaat en statistisch significant is op ongeveer het significantieniveau van 0,05. Zoals de formule aangeeft, is er een omgekeerd evenredig verband tussen de steekproefgrootte en de vereiste correlatie voor significantie van een lineair verband. Met slechts 10 waarnemingen is de vereiste correlatie voor significantie 0,6325, bij 30 waarnemingen daalt de vereiste correlatie voor significantie tot 0,3651 en bij 100 waarnemingen is het vereiste niveau slechts 0,2000.
Correlaties kunnen nuttig zijn bij het visualiseren van de gegevens, maar zijn niet geschikt om een relatie tussen twee variabelen te “verklaren”. Misschien wordt geen enkele statistiek meer misbruikt dan de correlatiecoëfficiënt. Het noemen van correlaties tussen gezondheidsaandoeningen en alles van woonplaats tot oogkleur heeft het effect dat een oorzaak-gevolgrelatie wordt geïmpliceerd. Dit kan eenvoudigweg niet worden bereikt met een correlatiecoëfficiënt. De correlatiecoëfficiënt is natuurlijk onschuldig aan deze verkeerde interpretatie. Het is de plicht van de analist om een statistiek te gebruiken die ontworpen is om oorzakelijke verbanden te testen en alleen die resultaten te rapporteren als hij van plan is een dergelijke bewering te doen. Het probleem is dat het moeilijk is om deze strengere test te doorstaan, zodat luie en/of gewetenloze “onderzoekers” terugvallen op correlaties wanneer zij hun zaak niet op een legitieme manier kunnen verdedigen.
Definieer een t-toets van een regressiecoëfficiënt, en geef een uniek voorbeeld van het gebruik ervan.
Definitie:
Een t-toets wordt verkregen door een regressiecoëfficiënt te delen door zijn standaardfout en het resultaat vervolgens te vergelijken met de kritische waarden voor Students’ t met Error df. Hiermee wordt de bewering getoetst dat wanneer alle andere variabelen in het relevante regressiemodel zijn opgenomen.
Voorbeeld:
Voorstel dat 4 variabelen worden verdacht van invloed op een of andere respons. Stel dat de resultaten van fitting omvatten:
Variabele | Regressiecoëfficiënt | Standaardafwijking van regelmatige coëfficiënt |
1 | -3 | |
.4 | 2 | +2 |
.02 | 3 | +1 |
.6 | 4 | -.5 |
t berekend voor variabelen 1, 2, en 3 zou 5 of groter zijn in absolute waarde, terwijl die voor variabele 4 kleiner zou zijn dan 1. Voor de meeste significantieniveaus zou de hypothese worden verworpen. Maar, merk op dat dit voor het geval is wanneer , en in de regressie zijn opgenomen. Voor de meeste significantieniveaus zou de hypothese worden doorgetrokken (behouden) voor het geval waarin , en in de regressie zijn opgenomen. Vaak zal dit patroon van resultaten resulteren in het berekenen van een andere regressie met alleen , en onderzoek van de t-verhoudingen die dat oplevert.
De correlatie tussen scores op een neuroticisme-test en scores op een angst-test is hoog en positief; dus
- angst veroorzaakt neuroticisme
- degenen die laag scoren op de ene test hebben de neiging hoog te scoren op de andere.
- diegenen die laag scoren op de ene test hebben de neiging laag te scoren op de andere.
- er kan geen zinvolle voorspelling worden gedaan van de ene test naar de andere.
c. diegenen die laag scoren op de ene test hebben de neiging laag te scoren op de andere test.