Vorbereitung
Laden Sie zunächst den Datensatz
fb23
von der pandar-Website. Alternativ können Sie die fertige R-Daten-Datei hier herunterladen. Beachten Sie in jedem Fall, dass die Ergänzungen im Datensatz vorausgesetzt werden. Die Bedeutung der einzelnen Variablen und ihre Antwortkategorien können Sie dem Dokument Variablenübersicht entnehmen.
Prüfen Sie zur Sicherheit, ob alles funktioniert hat:
dim(fb23)
## [1] 179 42
Der Datensatz besteht aus 179 Zeilen (Beobachtungen) und 42 Spalten (Variablen). Falls Sie bereits eigene Variablen erstellt haben, kann die Spaltenzahl natürlich abweichen.
Aufgabe 1
Ihr womöglich erstes Semester des Psychologie Studiums neigt sich dem Ende entgegen und die Klausuren rücken somit immer näher. Als vorbildliche*r Student*in sind Sie bereits fleißig am Lernen.
Jedoch beobachten Sie in manchen Kommilitoninnen und Kommilitonen, dass diese nicht so fleißig sind und eher vor sich hin prokrastinieren.
Sie vermuten, dass bestimmte Persönlichkeitsmerkmale die Prokrastinationstendenz (prok
) vorhersagen könnten. Konkret vermuten Sie einen positiven Zusammenhang mit Neurotizismus (neuro
) und einen negativen Zusammenhang mit Gewissenhaftigkeit (gewis
). Im weiteren Verlauf sollen aber alle Eigenschaften aus dem Big Five Modell überprüft werden.
Dafür reduzieren Sie zunächst Ihren Datensatz auf die relevanten Variablen und entfernen sämtliche fehlende Werte:
fb23_short <- subset(fb23, select = c("extra", "vertr", "gewis", "neuro", "offen", "prok"))
fb23_short <- na.omit(fb23_short)
Exkurs: Warum machen wir das?
Zum einen fällt es uns so leichter den Überblick über unsere Daten zu behalten.
Zum anderen ist uns bereits im Kapitel Multiple Regression eine Fehlermeldung bei der Verwendung des Befehls anova()
in Kombination mit fehlenden Werten (NA
) begegnet.
Da wir im Folgenden erneut mit den Big Five Variablen arbeiten, gehen wir dieser Fehlermeldung bereits im Vorhinein aus dem Weg.
#Gibt es mindestens ein fehlenden Wert auf den 6 Variablen?
anyNA(fb23[, c("extra", "vertr", "gewis", "neuro", "offen", "prok")])
## [1] TRUE
#Auf welcher Variable und wie viele NA's gibt es?
summary(fb23[, c("extra", "vertr", "gewis", "neuro", "offen", "prok")])
## extra vertr gewis neuro offen prok
## Min. :1.000 Min. :1.000 Min. :1.500 Min. :1.000 Min. :1.50 Min. :1.500
## 1st Qu.:2.500 1st Qu.:3.000 1st Qu.:3.000 1st Qu.:2.500 1st Qu.:3.00 1st Qu.:2.200
## Median :3.000 Median :3.500 Median :3.500 Median :3.500 Median :4.00 Median :2.500
## Mean :3.268 Mean :3.463 Mean :3.531 Mean :3.355 Mean :3.74 Mean :2.545
## 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.50 3rd Qu.:2.950
## Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.00 Max. :3.800
## NA's :1
#ein NA auf vertr
Stellen Sie das oben beschriebene lineare Regressionsmodell auf.
Überprüfen Sie die Voraussetzungen für die multiple lineare Regression.
Neurotizismus (
neuro
) und Gewissenhaftigkeit (gewis
) bilden bereits zwei der fünf Persönlichkeitsdimensionen nach dem Big Five Modell ab. Gibt es unter den verbleibenden drei Dimensionen einen weiteren signifikanten Prädiktor für die Prokrastinationstendenz (prok
)? Gehen Sie schrittweise vor, indem Sie Ihr vorhandenes Modell um eine Persönlichkeitsdimension erweitern und dann testen, ob deren Inkrement signifikant ist.Interpretieren Sie das Regressionsgewicht von Gewissenhaftigkeit (
gewis
).Wie viel Varianz (in %) erklärt das finale Modell?
Aufgabe 2
Gehen Sie für die folgende Aufgabe von dem finalen Modell aus Aufgabe 1 aus.
Falls Sie dort Schwierigkeiten hatten, benutzen Sie das Kontrollergebnis.
Kontrollergebnis
mod_final <- lm(prok ~ neuro + gewis + extra, data = fb23_short)
Welcher Prädiktor trägt am meisten zur Prognose der Prokrastinationstendenz (
prok
) bei?Welche Prokrastinationstendenz (
prok
) sagt das finale Modell für eine Person hervor, die auf allen inkludierten Prädiktoren genau in der Mitte der Stichprobe (fb23
) liegt (Mittelwerte)?