Regression

Multiple Regression

In diesem Beitrag wird zur Auffrischung eine multiple Regression in R durchgeführt. Dabei wird an einem praktischen Beispiel erläutert, wie ein Regressionsmodell in R erstellt und der entsprechende R-Output interpretiert werden kann. Außerdem werden die Annahmen und mögliche Erweiterungen für die multiple Regression behandelt.

Martin Schultze

Zuletzt aktualisiert am 20. März. 2025 KliPPs

Einführung in lavaan

Einleitung

Im Verlauf dieses Seminars soll neben der Einführung in die Theorie und die Hintergründe multivariater Verfahren auch eine Einführung in deren Umsetzung gegeben werden, sodass Sie in der Lage sind, diese Verfahren in Ihrem zukünftigen akademischen und beruflichen Werdegang zu nutzen. Diese Umsetzung möchten wir Ihnen mit lavaan zeigen - dem meistverbreiteten Paket für multivariate Verfahren wie z.B. konfirmatorische Faktorenanalyse (CFA), Pfadanalyse oder Strukturgleichungsmodellierung (SEM) in R. Das Paket wird derzeit pro Woche ca. 12500 mal herunter geladen; es wird in allen Bereichen der psychologischen Forschung genutzt und wurde in über 23 000 wissenschaftlichen Veröffentlichungen zitiert.

Martin Schultze, Julien P. Irmer

Zuletzt aktualisiert am 23. Apr.. 2025 FuE II

Nutzung von Paketen und Bestimmung Deskriptivstatistiken

Nachdem wir im letzten Skript die Grundlagen von R und RStudio kennengelernt haben, wollen wir uns nun mit der Nutzung von Paketen und der Bestimmung von Deskriptivstatistiken beschäftigen. Hierfür wollen wir mit einem leicht angepassten Datensatz aus einer Studie von Pennington et al. aus dem Jahre 2021 (Link zum Artikel) arbeiten.

Kai J. Nehler

Zuletzt aktualisiert am 10. März. 2025 Fdz

Einführung in lineare Modelle in R

Vorbereitung

Zunächst müssen wir das haven-Paket wieder aktivieren und einen Teil des Code aus dem letzten Tutorial wieder durchführen.

library(haven)
setwd("~/Pfad/zu/Ordner")
data <- read_sav(file = "fb22_mod.sav")
data$geschl_faktor <- factor(data$geschl,                                   # Ausgangsvariable
                             levels = c(1, 2, 3),                           # Faktorstufen
                             labels = c("weiblich", "männlich", "anderes")) # Label für Faktorstufen
data$nr_ges <- rowMeans(data[,c("nr1", "nr2", "nr3", "nr4", "nr5", "nr6")])
data$prok <- rowMeans(data[,c("prok1", "prok4", "prok6", "prok9", "prok10")])

data$wohnen_faktor <- factor(data$wohnen,                                   
                             levels = c(1, 2, 3, 4),                                
                             labels = c("WG", "bei Eltern", "alleine", "sonstiges"))

lineare Modellierung

Die Grundlage für die spätere hierarchische Ansetzung ist das lineares Modell ohne Hierarchie, dem wir uns demnach im Folgenden widmen werden.

Kai J. Nehler, Zarah Schreiner

Zuletzt aktualisiert am 7. Feb.. 2025 KiJu

Multiple Regression und Ausreißerdiagnostik

In diesem Beitrag wird eine multiple Regression in R exemplarisch durchgeführt. Dabei wird erläutert, wie ein Regressionsmodell in R erstellt und der entsprechende R-Output interpretiert werden kann. Außerdem werden die Voraussetzungen für die multiple Regression behandelt. Der Fokus liegt dabei auf der Prüfung der Multikollinearität sowie der Identifikation möglicher Ausreißern und einflussreicher Datenpunkte.

Kai J. Nehler, Julien P. Irmer, Johannes Hartig

Zuletzt aktualisiert am 7. Feb.. 2025 KliPPs-Legacy

Regression und Ausreißerdiagnostik

In der Einführungssitzung hatten wir etwas über das Einlesen von Datensätzen, einfache Deskriptivstatistiken und den $t$ -Test gelernt und in diesem Rahmen einige Grundlagen der Statistik wiederholt. Nun wollen wir mit etwas komplexeren, aber bereits bekannten, Methoden weitermachen und eine multiple Regression in R durchführen. Hierbei werden wir auch die zu diesem Verfahren notwendigen Voraussetzungen prüfen sowie das Vorliegen von Ausreißern untersuchen.

Julien P. Irmer, Johannes Hartig

Zuletzt aktualisiert am 7. Feb.. 2025 FuE I

Basisfunktionen zur Grafikerstellung und lineare Modelle

Vorbereitung

Zunächst müssen wir das readxl, forcats und das dplyr Paket wieder aktivieren und einen Teil des Code aus dem letzten Tutorial und den letzten Aufgaben wieder durchführen.

# Paket einladen
library(readxl)
library(dplyr)
library(forcats)
# Pfad setzen
rstudioapi::getActiveDocumentContext()$path |>
  dirname() |>
  setwd()
# Daten einladen
data <- read_excel("Pennington_2021.xlsx", sheet = "Study_Data")
# Faktoren erstellen
data$Gender <- factor(data$Gender, 
                         levels = c(1, 2),
                         labels = c("weiblich", "männlich"))
data$Year <- as.factor(data$Year)
# Faktoren Rekodieren
data$Year <- fct_recode(data$Year, 
                        "7. Schuljahr" = "Year7",
                        "8. Schuljahr" = "Year8")
data$Ethnicity <- as.factor(data$Ethnicity)
# NA-Werte ersetzen
data <- data %>%
  mutate(across(where(is.numeric), ~ na_if(.x, -9)))
# Skalenwerte erstellen
data <- data %>%
  mutate(Total_Competence = rowMeans(data[,c("Total_Competence_Maths", "Total_Competence_English", "Total_Competence_Science")]))
data$Total_SelfConcept <- rowMeans(data[, c("Total_SelfConcept_Maths", "Total_SelfConcept_Science", "Total_SelfConcept_English")]) 
# Gruppierungsvariablen erstellen
data <- data %>%
  mutate(Achiever = case_when(
    Total_Competence_Maths >= 4 & 
    Total_Competence_English >= 4 & 
    Total_Competence_Science >= 4 ~ "High Achiever",
    
    Total_Competence_Maths == 1 & 
    Total_Competence_English == 1 & 
    Total_Competence_Science == 1 ~ "Low Achiever",
    
    TRUE ~ "Medium Achiever"  # Alle anderen Fälle
  ))
data <- data %>%
  mutate(Career_Recommendation = case_when(
    Maths_AttainmentData > 10 |
    Science_AttainmentData > 10 |
    Eng_AttainmentData > 10 |
    Computing_AttainmentData > 10 ~ "Empfohlen",
    
    TRUE ~ "Nicht empfohlen"
  ))  # Erstellen der neuen Variable

Falls Sie nicht am Workshop teilnehmen und daher keine lokale Version des Datensatzes haben, verwenden Sie diesen Code.

Kai J. Nehler

Zuletzt aktualisiert am 12. März. 2025 Fdz

ANCOVA

Inhaltsverzeichnis

Einleitung

Die ANalysis of COVAriance hatten wir bereits im 2. Semester der Bachelorstudiengangs behandelt und dabei schon vorausahnen lassen, dass wir uns das Ganze im Rahmen des KliPPs-Masters noch einmal detaillierter angucken werden. Dieser Spannungsbogen soll nun hier abgeschlossen werden.

Martin Schultze, Kai J. Nehler, Julien P. Irmer

Zuletzt aktualisiert am 7. Feb.. 2025 KliPPs

Einführung in gemischte Modelle mit lme4

Vorbereitung

Datenbeispiel

International College Survey (Diener, Kim-Pietro, Scollon, et al., 2001)
Wohlbefinden in unterschiedlichen Ländern

load(url('https://pandar.netlify.app/post/kultur.rda'))
head(kultur)[, 1:8] # alle Zeilen und Spalten 1-8 für die ersten 6 Personen

##   nation female auf_e kla_e lezu       pa    na         bal
## 1 Turkey   male   3.0   3.0  4.0 4.333333 4.250  0.08333333
## 2 Turkey female   2.5   2.5  5.6 5.333333 7.375 -2.04166667
## 3 Turkey female   3.0   3.0  4.0 5.666667 2.000  3.66666667
## 4 Turkey female   3.5   3.0  2.4 3.833333 5.000 -1.16666667
## 5 Turkey female   3.5   2.5  2.0 5.666667 6.125 -0.45833333
## 6 Turkey   male   3.0   3.0  4.4 6.666667 4.500  2.16666667

Lebenszufriedenheit (lezu)
- 5 Items auf einer Skala von 1 (“strongly disagree”) bis 7 (“strongly agree”)
- z.B. “I am satisfied with my life”
Positiver Affekt (pa) & negativer Affekt (na)
- “For the following list of emotions, please rate how often you felt each of the emotions in the last week”
- Skala von 1 (“not at all”) bis 7 (“all the time”)
- Für positiven Affekt: Pleasant, Happy, Cheerful, etc.
- Für negativen Affekt: Unpleasant, Sad, Anger, etc.
Klarheit eigener Gefühle (kla_e)
Aufmerksamkeit auf eigene Gefühle (auf_e)
Schachtelung in Nationen (nation)

levels(kultur$nation) # Übersicht über alle vorkommenden Nationen

##  [1] "Turkey"      "Korea"       "Slovenia"    "Nigeria"    
##  [5] "Japan"       "Chile"       "China"       "Thailand"   
##  [9] "Australia"   "Hong Kong"   "Iran"        "Greece"     
## [13] "Philippines" "Nepal"       "Cyprus"      "Indonesia"  
## [17] "Mexico"      "Belgium"     "Portugal"    "Uganda"     
## [21] "Singapore"   "Netherlands" "Malaysia"    "Georgia"    
## [25] "Croatia"     "Ghana"       "Bulgaria"    "Bangladesh" 
## [29] "Russia"      "Slovakia"    "Zimbabwe"    "Germany"    
## [33] "Kuwait"      "Columbia"    "Brazil"      "Cameroon"   
## [37] "Canada"      "India"       "S. Africa"   "Austria"

dim(kultur) # Anzahl Zeilen und Spalten des ganzen Datensatzes

## [1] 7194   16

Regressionsergebnisse im Beispiel

mod <- lm(lezu ~ 1 + pa, kultur) # Interzept wird hier explizit angefordert
summary(mod)

## 
## Call:
## lm(formula = lezu ~ 1 + pa, data = kultur)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.4262 -0.7588  0.1076  0.7743  3.0413 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.225025   0.049592   44.87   <2e-16 ***
## pa          0.400132   0.008679   46.10   <2e-16 ***
## ---
## Signif. codes:  
## 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.086 on 7139 degrees of freedom
##   (53 Beobachtungen als fehlend gelöscht)
## Multiple R-squared:  0.2294,	Adjusted R-squared:  0.2293 
## F-statistic:  2126 on 1 and 7139 DF,  p-value: < 2.2e-16

Darstellung der Ergebnisse (siehe ggplotting unter Extras)

library(ggplot2)
ggplot(kultur, aes(x = pa, y = lezu)) + 
  geom_point() +
  geom_abline(intercept = coef(mod)[1], slope = coef(mod)[2], color = 'blue') +
  theme_minimal()

## Warning: Removed 53 rows containing missing values
## (`geom_point()`).

Martin Schultze

Zuletzt aktualisiert am 7. Feb.. 2025 KiJu

ANOVA vs. Regression

In diesem Beitrag geht es um den Zusammenhang von ANOVA und Regression. Zunächst wird gezeigt, wie man Regressionsmodelle miteinander vergleicht. Dann betrachten wir die einfaktorielle und die zweifaktorielle ANOVA genauer an. Dabei gehen wir auf die verschiedenen Typen von Quadratsummen ein, die bei der zweifaktoriellen ANOVA zur Überprüfung unterschiedlicher Hypothesen verwendet werden. Der Beitrag verdeutlicht, dass Regression und ANOVA zu denselben Ergebnis kommen, wenn dieselben Hypothesen geprüft werden.

Julien P. Irmer

Zuletzt aktualisiert am 7. Feb.. 2025 KliPPs-Legacy