1 of 13

Einführung in Data Science und maschinelles Lernen

Bedingungen für ein Leistungszertifikat oder ECTS

Von alle Teilnehmenden wird erwartet, dass sie ein Leistungszertifikat oder ECTS anstreben bzw. am Ende des Kurses die Bedingungen dafür erfüllen. Dies sind die folgenden drei Bedingungen:

Anwesenheit an mindestens 80% der Kurstermine (es darf an maximal zwei Terminen gefehlt werden)
Präsentation des vorgegebenen Auswertungsprojekts (siehe Beschreibung hier)
Dokumentation des Projektes über ein open Open Source GitHub-Repository (siehe ebenfalls Beschreibung hier), zu dem man alle Team-Mitglieder beigetragen haben müssen.

Vorbereitung

Vor dem ersten Kurstermin solltet Ihr ...

Euch Accounts erstellen für GitHub, ChatGPT und Claude.
über diesen Link VS Code bei Euch auf dem Rechner installieren.
bei datacamp das erste Kapitel des Kurses "Introduction to Python" durcharbeiten. Dazu müsst Ihr Euch ebenfalls einen (freien) Account bei datacamp registrieren. Ihr braucht nur das erste Kapitel des Kurses durcharbeiten, das kostenfrei ist.

Woche 1 - Einführung in Data Science

Diese Woche werdet Ihr...

eine Einführung zu den folgenden Themen bekommen:

Was ist Data Science?
R vs. Python vs. SPSS vs. ...
Jupyter Notebooks

Lernressourcen

Wenn Ihr Schüler:in, Student:in oder Lehrkraft seid, könnt Ihr Euch wie beschrieben gratis für GitHub Co-Pilot registrieren, das Ihr dann ggf. in VSCode, das wir uns in der nächsten Woche anschauen, integrieren könnt. Die Bezahlversion kostet aktuell 10 US-Dollar pro Monat.

Bis zur nächsten Woche solltet Ihr...

Optional: Euch wie beschrieben für GitHub Copilot anmelden und das 30-Tage-Probe-Abo nutzen, das gratis ist. Wenn Ihr Schüler:in, Student:in oder Lehrkraft seid, könnt Ihr Euch wie beschrieben gratis für GitHub Co-Pilot registrieren, das Ihr dann ggf. in VSCode, das wir uns in der nächsten Woche anschauen, integrieren könnt. Die Bezahlversion kostet aktuell 10 US-Dollar pro Monat.
zum Arbeiten mit Strings ansehen (16 Minuten).
zum Arbeiten mit Zahlen ("Numbers" und "Working With Numbers") ansehen (5 Minuten).
die ersten vier Kapitel zu Funktionen ansehen (12 Minuten).
zum Arbeiten mit Listen in Python ansehen (18 Minuten).
zur Einrichtung von VS Code speziell für Python und Data Science ansehen (22 Minuten).
die folgenden Aufgaben bearbeiten (siehe auch Präsentation):
- Importiere den Datensatz “wetter.csv”, den Du über folgenden Link herunterladen kannst: https://raw.githubusercontent.com/opencampus-sh/einfuehrung-in-data-science-und-ml/main/wetter.csv
- Berechne die Gesamtdurchschnittstemperatur.
- Berechne die Durchschnittstemperatur für den Monat Juli.
- Vergleiche, ob die Monate Juli und Mai sich in ihrer Durchschnittstemperatur signifikant unterscheiden.
Denkt daran, dass Ihr jederzeit Claude oder ChatGPT zur Unterstützung einsetzen könnt, gerade anhand vergleichsweise leichter Aufgaben kann man dabei gut lernen wie man Aufgabenstellungen lösen kann, die man vorher noch nie gemacht hat.

Woche 2 - Import und Visualisierung von Daten

Diese Woche werden wir...

folgende Themen behandeln:

VSCode und GitHub Code Spaces
KI-unterstützte Programmierung
Darstellung von unterschiedlichen Datenstrukturen
Einlesen von Daten aus externen Quellen
Diagramm- und Skalentypen

Lernressourcen

Optionale
für die grafische Darstellung von Daten

Bis zur nächsten Woche solltet Ihr...

ein Jupyter-Notebook oder Python-Skript erstellen, das
- den Datensatz "umsatzdaten_gekuerzt.csv" einliest und
- mit Hilfe eines Balkendiagramms den Zusammenhang der durschnittlichen Umsätze je Wochentag darstellt.
in einem zweiten Schritt zusätzlich Konfidenzintervalle der Umsätze je Wochentag hinzufügen.
in einem weiteren Schritt die Wochentage in der Abbildung von Montag bis Sonntag ordnet.

Woche 3 - Versionierung mit git (Teil 1) und Datenaufbereitung

Diese Woche werden wir...

folgende Themen behandeln:

Besprechung der Übungsaufgaben der vergangenen Woche
Einführung in die Versionierung mit git (Teil 1)
Datenaufebereitungsschritte für das maschinelle Lernen
Zusammenführung von Dataframes

Lernressourcen

Bis zur nächsten Woche solltet Ihr...

diesen Kurs bei datacamp zum Zusammenführen von Dataframes absolvieren
für eine Einführung in die Möglichkeiten von Regular Expressions, dieses Video (11 Minuten) schauen.
dieses Video (33 Minuten) zu Git in VS Code schauen.
dieses Video (3 Minuten) schauen und eine Person im Team bestimmen, die wie dort gezeigt, ein Team-Repository anlegt.
dieses Video (2 Minuten) schauen, um einen Github Codespace auf Basis Eures Team-Repositories anzulegen.
die Dateien umsatzdaten_gekuerzt.csv, kiwo.csv und wetter.csv und in einem Pandas Dataframe zusammenführen.
Euch im Team treffen und aufteilen, wer für welche Variablen deskriptive Statistiken und Visualisierungen erstellt.
deskriptive Statistiken und Visualisierungen zu den jeweiligen Variablen erstellen.

Woche 4 - Versionierung mit git (Teil 2) und aktuelle Entwicklungen im Bereich ML

Diese Woche werden wir...

folgende Themen behandeln:

Ergänzung der Teams für die Auswertungsprojekte
Besprechung der Aufgaben zu dieser Woche
Einführung in die Versionierung mit git (Teil 2)
Aktuelle KI-Anwendungen

Lernressourcen

Beispiel für die Relevanz von Interaktionseffekten

Bis zur nächsten Woche solltet Ihr...

das Kapitel „Creating Features“ dieses Kurses bei datacamp absolvieren.
die erste Woche des Kurses Supervised Machine Learning: Regression and Classification (ca. 2,5 Stunden) von Andrew Ng auf Coursera absolvieren.
Euch im Team treffen, um Ideen zur Umsatzvorhersage zu diskutieren und erste zusätzliche Variablen zu erstellen (auch, ob es Daten gibt, die ihr zusätzlich verwenden könnt).
das Verzeichnis "Data Import and Preparation" Eures Team Repositories ergänzen um:
- zusätzliche heruntergeladene oder selbst erstellte Daten (z.B. Listen mit Feiertagen)
- Code um alle Daten in einem Datensatz zusammenzuführen
- Code, um neuen Variablen zu erstellen bzw. bestehende Variablen für die Vorhersage aufzubereiten

Woche 5 - Einführung in das maschinelle Lernen

Diese Woche werden wir...

folgende Themen behandeln:

Charakteristika des maschinellen Lernens
Definition der linearen Regression
Kostenfunktionen
Optimierungsfunktionen

Lernressourcen

DataCamp Tutorial zur Linearen Regression
Link zum Template Repository

Bis zur nächsten Woche solltet Ihr...

Schaut die ersten drei Videos des Abschnitts „The problem of overfitting“ von Woche 3 des Kurses Supervised Machine Learning: Regression and Classification auf Coursera: - The Problem of Overfitting (12 Minuten) - Adressing Overfitting (8 Minuten) - Cost Function with Regularization (9 Minuten)
einen Account bei Kaggle erstellen.
Euren Datensatz weiter um zusätzliche Variablen ergänzen, die für die Schätzung des Umsatzes relevant sein könnten.
Euren Datensatz teilen in einen Trainingsdatensatz vom 01.07.2013 bis 31.07.2017 und einen Validierungsdatensatz vom 01.08.2017 bis 31.07.2018.
eine lineare Modellgleichung aufstellen, die das adjustierte R² für Euren Trainingsdatensatz maximiert.
im Verzeichnis „Baseline Model" Eures Team Repositories die Berechnung für die lineare Regression dokumentieren.

Woche 6 - Overfitting und Regularisierung

Diese Woche werden wir...

folgende Themen behandeln:

Overfitting und Regularisierung
Interaktionseffekte
Modellgütekriterien
Einführung in neuronale Netze

Lernressourcen

Grafisches Tool zur Definition und Schätzung von Neuronalen Netzen für unterschiedliche Beispieldatensätze
Beispiel für die Auswirkung von Overfitting und Regularisierung

Bis zur nächsten Woche solltet Ihr...

dieses Video (12 Minuten) zur Einführung in Neuronale Netze an anschauen.
Euren Datensatz weiter um zusätzliche Variablen ergänzen, die für die Schätzung des Umsatzes relevant sein könnten.
die Vorhersagegüte Eures linearen Modells hier auf Kaggle testen.
die Kursleitung zu Eurem Repo einladen oder, wenn es öffentlich ist, den Link zu Eurem Repo in einer privaten Nachricht schicken.

Woche 7 - Neuronale Netze

Diese Woche werden wir...

folgende Themen behandeln:

Hyperparameter in Neuronalen Netzen
Frameworks zur Implementierung von Neuronalen Netzen
Datenaufbereitung für TensorFlow
Optimierung eines neuronalen Netzes mit Python und TensorFlow

Lernressourcen

(12 Minuten) zur Einführung in Neuronale Netze
zur Datenaufbereitung für TensorFlow
zur Optimierung eines neuronalen Netzes
mit zusätzlichen Informationen zur Batch-Normalisierung

Bis zur nächsten Woche solltet Ihr...

alle Eure Modellvariablen auf die Existenz von fehlenden und unplausiblen Werten hin untersuchen.
Euren Datensatz aufebereiten, in dem ihr alle kategoriellen Features korrekt kodiert und alle Zeilen mit fehlenden Werten entfernt.
ein erstes Neuronales Netz optimieren.

Woche 8 - Fehlende Werte

Diese Woche werden wir...

folgende Themen behandeln:

Wiederholung Neuronaler Netze (NN)
Umsetzung eines Dropout Layer
Visualisierung von fehlenden Werten
Verschiedene Imputationsverfahren

Lernressourcen

Beispielnotebook zur Behandlung von fehlenden Werten
Lektion 1 dieses Kurses bei datacamp

Bis zur nächsten Woche solltet Ihr...

ein (bzw. verschiedene) Verfahren wählen, um fehlende Werte in Eurem Datensatz zu ersetzen.
Euch dieses Video (5 Minuten) zu Zeitreihenanalysen anschauen.
Euch die Aufgaben im Team gut aufteilen: Wer arbeitet an der Datenoptimierung, wer an der Modelloptimierung?

Woche 9 - Zeitreihenanalysen

Diese Woche werden wir...

folgende Themen behandeln:

Muster in Zeitreihenanalysen
Baseline Modelle
Naïve Forecasting

Lernressourcen

Video (5 Minuten) zu Zeitreihenanalysen
Beispielnotebook zur grafischen Auswertung von Zeitreihen
Hugging Face-Kurs zur Nutzung der Transformers Library

Bis zur nächsten Woche solltet Ihr...

anhand Eures besten Modells die Vorhersagen für den Testdatensatz der Kaggle Competition berechnen und dort hochladen.
Eure Abschlusspräsentation erstellen (siehe Vorgaben bei Woche 10 hier).

Woche 10 - Projektpräsentationen

Zur Präsentation anhand Eures besten Modells die Vorhersagen für den Testdatensatz der Kaggle Competition berechnen und dort hochladen!

Präsentation (Powerpoint, Keybote oder ähnliches)

Jedes Team hält eine 8 oder 10-minütige Abschlusspräsentation (genaue Info erfolgt in der Vorwoche - bitte darauf achten, dass Ihr die Länge einhaltet!) mit den folgenden Inhalten:

Euren Namen auf der Titelseite
Auflistung und kurze Beschreibung der selbst erstellten Variablen
Balkendiagramme mit Konfidenzintervallen für zwei selbst erstellte Variablen
Optimierung des linearen Modells: Modellgleichung und adjusted r²
Art der Missing Value Imputation
Optimierung des neuronalen Netzes:
- Source Code zur Definition des neuronalen Netzes
- Darstellung der Loss-Funktionen für Trainings- und Validierungsdatensatz
- MAPEs für den Validierungsdatensatz insgesamt und für jede Warengruppe einzeln
„Worst Fail“ / „Best Improvement“

Die Dokumentation des Leistungsnachweises erfolgt über das von Euch erstellte Repository, das wie in den READMEs angegeben vervollständigt werden muss. Anschließend muss ein Team-Mitglied das README des Hauptverzeichnisses wie hier beschrieben in der EduHub-Plattform hochladen.

Woche 10 - Projektpräsentationen

Zur Präsentation anhand Eures besten Modells die Vorhersagen für den Testdatensatz der Kaggle Competition berechnen und dort hochladen!

Präsentation (Powerpoint, Keybote oder ähnliches)

Jedes Team hält eine 8 oder 10-minütige Abschlusspräsentation (genaue Info erfolgt in der Vorwoche - bitte darauf achten, dass Ihr die Länge einhaltet!) mit den folgenden Inhalten:

Euren Namen auf der Titelseite
Auflistung und kurze Beschreibung der selbst erstellten Variablen
Balkendiagramme mit Konfidenzintervallen für zwei selbst erstellte Variablen
Optimierung des linearen Modells: Modellgleichung und adjusted r²
Art der Missing Value Imputation
Optimierung des neuronalen Netzes:
- Source Code zur Definition des neuronalen Netzes
- Darstellung der Loss-Funktionen für Trainings- und Validierungsdatensatz
- MAPEs für den Validierungsdatensatz insgesamt und für jede Warengruppe einzeln
„Worst Fail“ / „Best Improvement“

Woche 3 - Versionierung mit git (Teil 1) und Datenaufbereitung

Diese Woche werden wir...

folgende Themen behandeln:

Besprechung der Übungsaufgaben der vergangenen Woche
Einführung in die Versionierung mit git (Teil 1)
Datenaufebereitungsschritte für das maschinelle Lernen
Zusammenführung von Dataframes

Lernressourcen

Bis zur nächsten Woche solltet Ihr...

diesen Kurs bei datacamp zum Zusammenführen von Dataframes absolvieren
für eine Einführung in die Möglichkeiten von Regular Expressions, dieses Video (11 Minuten) schauen.
dieses Video (33 Minuten) zu Git in VS Code schauen.
dieses Video (3 Minuten) schauen und eine Person im Team bestimmen, die wie dort gezeigt, ein Team-Repository anlegt.
dieses Video (2 Minuten) schauen, um einen Github Codespace auf Basis Eures Team-Repositories anzulegen.
die Dateien umsatzdaten_gekuerzt.csv, kiwo.csv und wetter.csv und in einem Pandas Dataframe zusammenführen.
Euch im Team treffen und aufteilen, wer für welche Variablen deskriptive Statistiken und Visualisierungen erstellt.
deskriptive Statistiken und Visualisierungen zu den jeweiligen Variablen erstellen.

Woche 5 - Einführung in das maschinelle Lernen

Diese Woche werden wir...

folgende Themen behandeln:

Charakteristika des maschinellen Lernens
Definition der linearen Regression
Kostenfunktionen
Optimierungsfunktionen

Lernressourcen

DataCamp Tutorial zur Linearen Regression
Link zum Template Repository

Bis zur nächsten Woche solltet Ihr...

Schaut die ersten drei Videos des Abschnitts „The problem of overfitting“ von Woche 3 des Kurses Supervised Machine Learning: Regression and Classification auf Coursera: - The Problem of Overfitting (12 Minuten) - Adressing Overfitting (8 Minuten) - Cost Function with Regularization (9 Minuten)
einen Account bei Kaggle erstellen.
Euren Datensatz weiter um zusätzliche Variablen ergänzen, die für die Schätzung des Umsatzes relevant sein könnten.
Euren Datensatz teilen in einen Trainingsdatensatz vom 01.07.2013 bis 31.07.2017 und einen Validierungsdatensatz vom 01.08.2017 bis 31.07.2018.
eine lineare Modellgleichung aufstellen, die das adjustierte R² für Euren Trainingsdatensatz maximiert.
im Verzeichnis „Baseline Model" Eures Team Repositories die Berechnung für die lineare Regression dokumentieren.

Woche 6 - Overfitting und Regularisierung

Diese Woche werden wir...

folgende Themen behandeln:

Overfitting und Regularisierung
Interaktionseffekte
Modellgütekriterien
Einführung in neuronale Netze

Lernressourcen

Grafisches Tool zur Definition und Schätzung von Neuronalen Netzen für unterschiedliche Beispieldatensätze
Beispiel für die Auswirkung von Overfitting und Regularisierung

Bis zur nächsten Woche solltet Ihr...

dieses Video (12 Minuten) zur Einführung in Neuronale Netze an anschauen.
Euren Datensatz weiter um zusätzliche Variablen ergänzen, die für die Schätzung des Umsatzes relevant sein könnten.
die Vorhersagegüte Eures linearen Modells hier auf Kaggle testen.
die Kursleitung zu Eurem Repo einladen oder, wenn es öffentlich ist, den Link zu Eurem Repo in einer privaten Nachricht schicken.

Woche 8 - Fehlende Werte

Diese Woche werden wir...

folgende Themen behandeln:

Wiederholung Neuronaler Netze (NN)
Umsetzung eines Dropout Layer
Visualisierung von fehlenden Werten
Verschiedene Imputationsverfahren

Lernressourcen

Beispielnotebook zur Behandlung von fehlenden Werten
Lektion 1 dieses Kurses bei datacamp

Bis zur nächsten Woche solltet Ihr...

ein (bzw. verschiedene) Verfahren wählen, um fehlende Werte in Eurem Datensatz zu ersetzen.
Euch dieses Video (5 Minuten) zu Zeitreihenanalysen anschauen.
Euch die Aufgaben im Team gut aufteilen: Wer arbeitet an der Datenoptimierung, wer an der Modelloptimierung?

Woche 9 - Zeitreihenanalysen

Diese Woche werden wir...

folgende Themen behandeln:

Muster in Zeitreihenanalysen
Baseline Modelle
Naïve Forecasting

Lernressourcen

Video (5 Minuten) zu Zeitreihenanalysen
Beispielnotebook zur grafischen Auswertung von Zeitreihen
Hugging Face-Kurs zur Nutzung der Transformers Library

Bis zur nächsten Woche solltet Ihr...

anhand Eures besten Modells die Vorhersagen für den Testdatensatz der Kaggle Competition berechnen und dort hochladen.
Eure Abschlusspräsentation erstellen (siehe Vorgaben bei Woche 10 hier).

Woche 2 - Import und Visualisierung von Daten

Diese Woche werden wir...

folgende Themen behandeln:

VSCode und GitHub Code Spaces
KI-unterstützte Programmierung
Darstellung von unterschiedlichen Datenstrukturen
Einlesen von Daten aus externen Quellen
Diagramm- und Skalentypen

Lernressourcen

Optionale
für die grafische Darstellung von Daten

Bis zur nächsten Woche solltet Ihr...

zum Arbeiten mit Pandas durcharbeiten (nur Lektion 1).
zum Importieren von Daten als Pandas-Dataframe schauen (18 Minuten).
zum Erstellen von Visualisierungen mit Matplotlib durcharbeiten (nur Lektion 1).
(4 Minuten) anschauen, um die Relevanz von Konfidenz-Intervallen zu verstehen.
einen GitHub Codespace anlegen und dort die Dateien „kiwo.csv“, „umsatzdaten_gekuerzt.csv“ und „wetter.csv“ aus speichern.
ein Jupyter-Notebook oder Python-Skript erstellen, das
- den Datensatz "umsatzdaten_gekuerzt.csv" einliest und
- mit Hilfe eines Balkendiagramms den Zusammenhang der durschnittlichen Umsätze je Wochentag darstellt.
in einem zweiten Schritt zusätzlich Konfidenzintervalle der Umsätze je Wochentag hinzufügen.
in einem weiteren Schritt die Wochentage in der Abbildung von Montag bis Sonntag ordnet.

Woche 1 - Einführung in Data Science

Diese Woche werdet Ihr...

eine Einführung zu den folgenden Themen bekommen:

Was ist Data Science?
R vs. Python vs. SPSS vs. ...
Jupyter Notebooks

Lernressourcen

Wenn Ihr Schüler:in, Student:in oder Lehrkraft seid, könnt Ihr Euch wie beschrieben gratis für GitHub Co-Pilot registrieren, das Ihr dann ggf. in VSCode, das wir uns in der nächsten Woche anschauen, integrieren könnt. Die Bezahlversion kostet aktuell 10 US-Dollar pro Monat.

Bis zur nächsten Woche solltet Ihr...

Optional: Euch wie beschrieben für GitHub Copilot anmelden und das 30-Tage-Probe-Abo nutzen, das gratis ist. Wenn Ihr Schüler:in, Student:in oder Lehrkraft seid, könnt Ihr Euch wie beschrieben gratis für GitHub Co-Pilot registrieren, das Ihr dann ggf. in VSCode, das wir uns in der nächsten Woche anschauen, integrieren könnt. Die Bezahlversion kostet aktuell 10 US-Dollar pro Monat.
zum Arbeiten mit Strings ansehen (16 Minuten).
zum Arbeiten mit Zahlen ("Numbers" und "Working With Numbers") ansehen (5 Minuten).
die ersten vier Kapitel zu Funktionen ansehen (12 Minuten).
zum Arbeiten mit Listen in Python ansehen (18 Minuten).
zur Einrichtung von VS Code speziell für Python und Data Science ansehen (22 Minuten).
die folgenden Aufgaben bearbeiten (siehe auch Präsentation):
- Importiere den Datensatz “wetter.csv”, den Du über folgenden Link herunterladen kannst: https://raw.githubusercontent.com/opencampus-sh/einfuehrung-in-data-science-und-ml/main/wetter.csv
- Berechne die Gesamtdurchschnittstemperatur.
- Berechne die Durchschnittstemperatur für den Monat Juli.
- Vergleiche, ob die Monate Juli und Mai sich in ihrer Durchschnittstemperatur signifikant unterscheiden.
Denkt daran, dass Ihr jederzeit Claude oder ChatGPT zur Unterstützung einsetzen könnt, gerade anhand vergleichsweise leichter Aufgaben kann man dabei gut lernen wie man Aufgabenstellungen lösen kann, die man vorher noch nie gemacht hat.

Woche 7 - Neuronale Netze

Diese Woche werden wir...

folgende Themen behandeln:

Hyperparameter in Neuronalen Netzen
Frameworks zur Implementierung von Neuronalen Netzen
Datenaufbereitung für TensorFlow
Optimierung eines neuronalen Netzes mit Python und TensorFlow

Lernressourcen

(12 Minuten) zur Einführung in Neuronale Netze
zur Datenaufbereitung für TensorFlow
zur Optimierung eines neuronalen Netzes
mit zusätzlichen Informationen zur Batch-Normalisierung

Bis zur nächsten Woche solltet Ihr...

(7 Minuten) schauen, um die Eigenschaften von Dropout-Layern genauer zu verstehen.
(5 Minuten) schauen, um die Vorteile der Normalisierung besser zu verstehen.
alle Eure Modellvariablen auf die Existenz von fehlenden und unplausiblen Werten hin untersuchen.
Euren Datensatz aufebereiten, in dem ihr alle kategoriellen Features korrekt kodiert und alle Zeilen mit fehlenden Werten entfernt.
ein erstes Neuronales Netz optimieren.

Woche 4 - Versionierung mit git (Teil 2) und aktuelle Entwicklungen im Bereich ML

Diese Woche werden wir...

folgende Themen behandeln:

Ergänzung der Teams für die Auswertungsprojekte
Besprechung der Aufgaben zu dieser Woche
Einführung in die Versionierung mit git (Teil 2)
Aktuelle KI-Anwendungen

Lernressourcen

Beispiel für die Relevanz von Interaktionseffekten

Bis zur nächsten Woche solltet Ihr...

das Kapitel „Creating Features“ dieses Kurses bei datacamp absolvieren.
die erste Woche des Kurses Supervised Machine Learning: Regression and Classification (ca. 2,5 Stunden) von Andrew Ng auf Coursera absolvieren.
Euch im Team treffen, um Ideen zur Umsatzvorhersage zu diskutieren und erste zusätzliche Variablen zu erstellen (auch, ob es Daten gibt, die ihr zusätzlich verwenden könnt).
das Verzeichnis "Data Import and Preparation" Eures Team Repositories ergänzen um:
- zusätzliche heruntergeladene oder selbst erstellte Daten (z.B. Listen mit Feiertagen)
- Code um alle Daten in einem Datensatz zusammenzuführen
- Code, um neuen Variablen zu erstellen bzw. bestehende Variablen für die Vorhersage aufzubereiten