Courtesy of pxhere

Tests für unabhängige Stichproben - Lösungen

Daten einlesen

setwd("...")  
load("fb22.rda")

Daten aufbereiten

Prüfe zunächst, ob die Variablen Faktoren sind.

is.factor(fb22$fach)
## [1] FALSE
is.factor(fb22$ort)
## [1] FALSE
is.factor(fb22$geschl)
## [1] FALSE

Falls nicht:

# Lieblingsfach als Faktor - falls es noch keiner war
fb22$fach <- factor(fb22$fach, 
                    levels = 1:5,
                    labels = c('Allgemeine', 'Biologische', 'Entwicklung',
                               'Klinische', 'Diag./Meth.'))

# Wohnort als Faktor - falls es noch keiner war
fb22$ort <- factor(fb22$ort, 
                   levels = c(1, 2),
                   labels = c('Frankfurt', 'anderer'))


# Geschlecht als Faktor - falls es noch keiner war
fb22$geschl <- factor(fb22$geschl, 
                      levels=c(1,2,3), 
                      labels=c('weiblich', 'maennlich', 'anderes'))

Aufgabe 1

Unterscheiden sich Studierende, die sich für Allgemeine Psychologie (Variable “fach”) interessieren, im Persönlichkeitsmerkmal Intellekt (auch: Offenheit für neue Erfahrungen, “intel”) von Studierenden, die sich für Klinische Psychologie interessieren? Normalverteilung des Merkmals in der Population darf angenommen werden.

Lösung

Deskriptivstatistische Beantwortung der Fragestellung: grafisch

data1 <- fb22[ (which(fb22$fach=="Allgemeine"|fb22$fach=="Klinische")), ]
data1$fach <- droplevels(data1$fach)
boxplot(data1$intel ~ data1$fach,
        xlab="Interessenfach", ylab="Intellekt", 
        las=1, cex.lab=1.5, 
        main="Interessenfach und Intellekt")

Deskriptivstatistische Beantwortung der Fragestellung: statistisch

# Überblick

library(psych)
describeBy(data1$intel, data1$fach)
## 
##  Descriptive statistics by group 
## group: Allgemeine
##    vars  n mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 19 3.79 0.48   3.75    3.76 0.37   3   5     2 0.59     0.08 0.11
## ------------------------------------------------------------ 
## group: Klinische
##    vars  n mean   sd median trimmed  mad  min  max range  skew kurtosis   se
## X1    1 57 3.54 0.63   3.75    3.56 0.37 1.75 4.75     3 -0.63     0.34 0.08
# Berechnung der empirischen Standardabweichung

intel.A <- data1$intel[(data1$fach=="Allgemeine")]
sigma.A <- sd(intel.A)
n.A <- length(intel.A[!is.na(intel.A)])
sd.A <- sigma.A * sqrt((n.A-1) / n.A)
sd.A 
## [1] 0.4677997
intel.B <- data1$intel[(data1$fach=="Klinische")]
sigma.B <- sd(intel.B)
n.B <- length(intel.B[!is.na(intel.B)])
sd.B <- sigma.B * sqrt((n.B-1) / n.B)
sd.B
## [1] 0.6255499

Mittelwert der Allgemeinen Psychologen (M = 3.79, SD = 0.47) unterscheidet sich deskriptivstatistisch vom Mittelwert der Klinischen (M = 3.54, SD = 0.63).

Voraussetzungsprüfung: Normalverteilung

Nicht nötig, da Normalverteilung in Population angenommen werden darf (s. Aufgabenstellung).

Hypothesen

  • Art des Effekts: Unterschiedshypothese
  • Richtung des Effekts: Ungerichtet \(\rightarrow\) ungerichtete Hypothesen
  • Größe des Effekts: Unspezifisch

Hypthesenpaar (statistisch):

  • \(H_0\): \(\mu_\text{Allgemeine} = \mu_\text{Klinische}\)
  • \(H_1\): \(\mu_\text{Allgemeine} \ne \mu_\text{Klinische}\)

Spezifikation des Signifikanzniveaus

\(\alpha = .05\)

Voraussetzungsprüfung: Varianzhomogenität

library(car)
leveneTest(data1$intel ~ data1$fach)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  1  1.3813 0.2437
##       74

F(1, 74) = 1.38, p = 0.244 \(\rightarrow\) Das Ergebnis ist nicht signifikant, die \(H_0\) wird beibehalten und Varianzhomogenität angenommen.

Durchführung des t-Tests

t.test(data1$intel ~ data1$fach,           # abhängige Variable ~ unabhängige Variable
       paired = F,                   # Stichproben sind unabhängig 
       alternative = "two.sided",         # zweiseitige Testung
       var.equal = T,                # Varianzhomogenität ist gegeben (-> Levene-Test)
       conf.level = .95)             # alpha = .05 
## 
## 	Two Sample t-test
## 
## data:  data1$intel by data1$fach
## t = 1.6058, df = 74, p-value = 0.1126
## alternative hypothesis: true difference in means between group Allgemeine and group Klinische is not equal to 0
## 95 percent confidence interval:
##  -0.0612611  0.5700330
## sample estimates:
## mean in group Allgemeine  mean in group Klinische 
##                 3.789474                 3.535088

Formales Berichten des Ergebnisses

Es wurde untersucht, ob sich Studierende, die sich für Allgemeine Psychologie interessieren, im Persönlichkeitsmerkmal ‘Intellekt’ (auch: Offenheit für neue Erfahrungen) von Studierenden, die sich für Klinische Psychologie interessieren, unterscheiden. Deskriptiv liegt ein solcher Unterschied vor: Die Mittelwerte betragen 3.79 (Allgemeine, SD = 0.47) und 3.54 (Klinische, SD = 0.63). Der entsprechende t-Test zeigt jedoch ein nicht signifikantes Ergebnis (t(df = 74, zweis.) = 1.61, p = 0.113). Die Nullhypothese konnte nicht verworfen werden und wird beibehalten. Die Studierenden sind im Persönlichkeitsmerkmal ‘Intellekt’ unabhängig davon, ob sie sich für Allgemeine Psychologie oder für Klinische Psychologie interessieren.

Aufgabe 2

Sind Studierende, die außerhalb von Frankfurt wohnen (“ort”), unzufriedener im Leben (“lz”) als diejenigen, die innerhalb von Frankfurt wohnen?

Lösung

Deskriptivstatistische Beantwortung der Fragestellung: grafisch

boxplot(fb22$lz ~ fb22$ort,
        xlab="Wohnort", ylab="Lebenszufriedenheit", 
        las=1, cex.lab=1.5, 
        main="Wohnort und Lebenszufriedenheit")

Deskriptivstatistische Beantwortung der Fragestellung: statistisch

library(psych)
describeBy(fb22$lz, fb22$ort)
## 
##  Descriptive statistics by group 
## group: Frankfurt
##    vars  n mean   sd median trimmed  mad min max range  skew kurtosis   se
## X1    1 95  4.8 1.15      5     4.9 1.19 1.4 6.6   5.2 -0.77     0.14 0.12
## ------------------------------------------------------------ 
## group: anderer
##    vars  n mean   sd median trimmed  mad min max range  skew kurtosis   se
## X1    1 53 4.68 0.91    4.8    4.75 0.89   2 6.2   4.2 -0.73     0.19 0.13
summary(fb22[which(fb22$ort=="Frankfurt"), "lz"])
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##     1.4     4.2     5.0     4.8     5.7     6.6       1
summary(fb22[which(fb22$ort=="anderer"), "lz"])
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   2.000   4.200   4.800   4.683   5.400   6.200       1

Mittelwert der Nicht-Frankfurter:innen ist deskriptiv niedriger als der der Frankfurter:innen.

Voraussetzungsprüfung: Normalverteilung

par(mfrow=c(1,2))
lz.F <- fb22[which(fb22$ort=="Frankfurt"), "lz"]
hist(lz.F, xlim=c(1,9), ylim=c(0,.5), main="Lebenzufriedenheit\n(Frankfurter)", xlab="", ylab="", las=1, prob=T)
curve(dnorm(x, mean=mean(lz.F, na.rm=T), sd=sd(lz.F, na.rm=T)), col="red", lwd=2, add=T)
qqnorm(lz.F)
qqline(lz.F, col="red")

\(\rightarrow\) Entscheidung: Normalverteilung wird nicht angenommen

par(mfrow=c(1,2))
lz.a <- fb22[which(fb22$ort=="anderer"), "lz"]
hist(lz.a, xlim=c(1,9), main="Lebenszufriedenheit\n(Nicht-Frankfurter)", xlab="", ylab="", las=1, prob=T)
curve(dnorm(x, mean=mean(lz.a, na.rm=T), sd=sd(lz.a, na.rm=T)), col="red", lwd=2, add=T)
qqnorm(lz.a)
qqline(lz.a, col="red")

\(\rightarrow\) Entscheidung: Normalverteilung wird nicht angenommmen

Hypothesen

  • Art des Effekts: Unterschiedshypothese
  • Richtung des Effekts: Gerichtet \(\rightarrow\) gerichtete Hypothesen
  • Größe des Effekts: Unspezifisch

Hypthesenpaar (statistisch):

  • \(H_0\): \(\eta_\text{Frankfurter} \le \eta_\text{nicht-Frankfurter}\)
  • \(H_1\): \(\eta_\text{Frankfurter} > \eta_\text{nicht-Frankfurter}\)

Spezifikation des Signifikanzniveaus

\(\alpha = .05\)

Durchführung des Wilcoxon-Tests

wilcox.test(fb22$lz ~ fb22$ort,           # abhängige Variable ~ unabhängige Variable
       paired = F,                   # Stichproben sind unabhängig 
       alternative = "greater",         # einseitige Testung: Gruppe1 (Frankfurter:innen) > Gruppe2 (Nicht-Frankfurter:innen) 
       conf.level = .95)             # alpha = .05 
## 
## 	Wilcoxon rank sum test with continuity correction
## 
## data:  fb22$lz by fb22$ort
## W = 2775, p-value = 0.1515
## alternative hypothesis: true location shift is greater than 0

Formales Berichten des Ergebnisses

Es wurde untersucht, ob außerhalb von Frankfurt wohnende Studierende unzufriedener im Leben sind als die in Frankfurt wohnenden. Deskriptiv zeigt sich das erwartete Muster: die Nicht-Frankfurter:innen sind weniger zufrieden (Mdn = 4.8, IQB = [4.2 ; 5.4]) als die Frankfurter:innen (Mdn = 5, IQB = [4.2 ; 5.7]). Jedoch ist das Ergebnis des einseitigen Wilcoxon-Tests nicht signifikant (W = 2775, p = 0.151). Die Nullhypothese konnte nicht verworfen werden und wird beibehalten.

Aufgabe 3

Ist die Wahrscheinlichkeit dafür, innerhalb von Frankfurt zu wohnen, die gleiche für weibliche wie für männliche Erstsemester-Studierende der Psychologie?

Lösung

Beide Variablen sind nominalskaliert \(\rightarrow \chi^2\)-Test

Voraussetzungen

  1. Die einzelnen Beobachtungen sind voneinander unabhängig \(\rightarrow\) ok
  2. Jede Person lässt sich eindeutig einer Kategorie bzw. Merkmalskombination zuordnen \(\rightarrow\) ok
  3. Zellbesetzung für alle \(n_{ij}\) > 5 \(\rightarrow\) Prüfung anhand von Häufigkeitstabelle
fb22$geschlecht <- fb22$geschl
fb22$geschlecht[fb22$geschlecht=="anderes"] <- NA #Umkodieren von "anderes" in fehlenden Wert
fb22$geschlecht <- droplevels(fb22$geschlecht) #Level "anderes" wird eliminiert
tab <- table(fb22$geschlecht, fb22$ort)
tab
##            
##             Frankfurt anderer
##   weiblich         79      46
##   maennlich        15       8

\(\rightarrow n_{ij}\) > 5 in allen Zellen gegeben

Hypothesen

  • Art des Effekts: Zusammenhangshypothese
  • Richtung des Effekts: Ungerichtet
  • Größe des Effekts: Unspezifisch

Hyothesenpaar (inhaltlich):

  • \(H_0\): Weibliche und männliche Studierende der Psychologie wohnen mit gleicher Wahrscheinlichkeit innerhalb bzw. außerhalb von Frankfurt.
  • \(H_1\): Weibliche und männliche Studierende der Psychologie unterscheiden sich in der Wahrscheinlichkeit, innerhalb bzw. außerhalb von Frankfurt zu wohnen.

Hypothesenpaar (statistisch):

  • \(H_0\): \(\pi_{ij} = \pi_{i\bullet} \cdot \pi_{\bullet j}\)
  • \(H_1\): \(\pi_{ij} \neq \pi_{i\bullet} \cdot \pi_{\bullet j}\)

Durchführung des \(\chi^2\)-Test in R

chisq.test(tab, correct=FALSE)
## 
## 	Pearson's Chi-squared test
## 
## data:  tab
## X-squared = 0.034116, df = 1, p-value = 0.8535

\(\chi^2\) = 0.034, df = 1, p = 0.853 \(\rightarrow H_0\)

Effektstärke Phi (\(\phi\))

library(psych)
phi(tab)
## [1] -0.02

Ergebnisinterpretation

Es wurde untersucht, ob sich männliche und weibliche Studierende in ihrem Wohnort (Frankfurt vs. außerhalb) unterscheiden. Zur Beantwortung der Fragestellung wurde ein Vierfelder-Chi-Quadrat-Test für unabhängige Stichproben berechnet. Der Zusammenhang zwischen Wohnort und Geschlecht ist nicht signifikant (\(\chi^2\)(1) = 0.034, p = 0.853), somit wird die Nullhypothese beibehalten. Der Effekt ist von vernachlässigbarer Stärke (\(\phi\) = -0.02). Männliche und weibliche Studierende wohnen also mit gleicher Wahrscheinlichkeit in Frankfurt bzw. außerhalb von Frankfurt.

Ähnliches