Vorbereitung
Laden Sie zunächst die benötigten Pakete und das Datenset Prestige aus dem Paket carData. Sollten Sie einzelne Pakete noch nicht installiert haben, installieren Sie diese über install.packages().
# Pakete laden
library(car)
library(carData)
library(lm.beta) # Für standardisierte Regressionskoeffizienten
library(lmtest) # für die Testung der Regressionsgewichte
library(sandwich) # für die Berechnung der HC3 Standardfehler
# Daten laden
data("Prestige", package = "carData")
Aufgabe 1: Modellaufstellung und erste Diagnose
- Schätzen Sie ein multiples Regressionsmodell mit prestige als Kriterium und education, income, women als Prädiktoren.
- Welche der vier Prädiktoren sind statistisch Signifikant?
- Ermitteln Sie zusätzlich die standardisierte Regressionskoeffizienten.
- Was sagen die die stand. Gewichte aus?
- Erstellen Sie die vier Standarddiagnoseplots.
- Welcher der Plots kann zur Diagnostik welcher Vorrausetzung herangezogen wrden?
Aufgabe 2: Homoskedastizität prüfen
Diagnostik
- Prüfen Sie grafisch die Homoskedastizität der Residuen.
- Führen Sie zusätzlich einen geeigneten Test durch, um zu Prüfen, ob die Varianz der Residuen signifikant linear mit den vorhergesagten Werten zusammenhängt.
Umgang mit Heteroskedastizität
- Im Falle von Heteroskedastizität können robuste, korrigierte Standardfehler als eine Möglichkeit herangezogen werden, um dem “Problem” entgegenzuwirken. Bestimmten Sie bitte die korrigerte Standardfehler (
HC3). Auch falls die Homoskedastizitätannahme nicht verletzt sein sollte (Zu Übungszwecken).
Aufgabe 3: Normalverteilung der Residuen prüfen
Diagnostik
- Erstellen Sie ein Histogramm und einen Q–Q-Plot der Residuen.
- Führen Sie zusätzlich den Shapiro–Wilk-Test durch
Umgang mit Abweichungen der Normalverteilung
- Unabhänghig davon ob die Normalverteilungsannahme in dieser Übung verletzt sein sollte, führen Sie bitte eine geeignete Transformation der AV durch. Wie im zugehörigen PandaR Beitrag beschrieben, stellt dies eine der Möglichkeiten zum Umgang bei Vorrausetzungsverletzung dar.
Aufgabe 4: Multikollinearität prüfen
- Erstellen Sie eine Korrelationsmatrix der Prädiktoren, um festzustellen, ob zwei oder mehrere Prädiktoren hoch miteinander korrelieren (Multikollinearität).
- Berechnen Sie die Varianzinflationsfaktoren (
VIF) sowie die Toleranzwerte.
Aufgabe 5: Einflussreiche Beobachtungen identifizieren
- Erstellen Sie mit der Funktion
influencePlot()ein “Blasendiagramm” zur simultanen grafischen Darstellung von Hebelwerten, studentisierten Residuen und Cooks Distanz. - Ermitteln Sie mögliche Ausreiser bzw. auffälligen Fälle.
- Überlegen Sie anhand des zugehörigen PandaR Beitrages wie Sie mit diesen Fällen umgehen möchten.