Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Von alle Teilnehmenden wird erwartet, dass sie ein Leistungszertifikat oder ECTS anstreben bzw. am Ende des Kurses die Bedingungen dafür erfüllen. Dies sind die folgenden drei Bedingungen:
eine Einführung zu den folgenden Themen bekommen:
Was ist Data Science?
R vs. Python vs. SPSS vs. ...
Jupyter Notebooks
Wenn Ihr Schüler:in, Student:in oder Lehrkraft seid, könnt Ihr Euch wie hier beschrieben gratis für GitHub Co-Pilot registrieren, das Ihr dann ggf. in VSCode, das wir uns in der nächsten Woche anschauen, integrieren könnt. Die Bezahlversion kostet aktuell 10 US-Dollar pro Monat.
folgende Themen behandeln:
Besprechung der Übungsaufgaben der vergangenen Woche
Einführung in die Versionierung mit git (Teil 1)
Zusammenführung von Dateien
Einführung in Tidyverse und die Datenaufbereitung
R-Notebook mit Beispielen zur Datenaufbereitung
Kapitel "Basic Workflow" des Kurses Introduction to Git bei Datacamp.
Zusätzliche Videos und Materialien zur Einführung in Git findet Ihr hier im Kurshandbuch.
Quiz zur eigenen Überprüfung des im Rahmen dieser Woche gelernten
folgende Themen behandeln:
VSCode und GitHub Code Spaces
KI-unterstützte Programmierung
Darstellung von unterschiedlichen Datenstrukturen
Einlesen von Daten aus externen Quellen
Diagramm- und Skalentypen
folgende Themen behandeln:
Muster in Zeitreihenanalysen
Baseline Modelle
Naïve Forecasting
Video (5 Minuten) zu Zeitreihenanalysen
Beispielcode zur grafischen Auswertung von Zeitreihen
Beispielcode zur Berechnung von Lag-Daten (für Gruppen)
die erste Woche des Kurses auf Coursera absolvieren.
zur Linearen Modellierung in R
zur linearen Regression
zum Thema Overfitting (9 Minuten) anschauen.
einen Account bei erstellen.
folgende Themen behandeln:
Hyperparameter in neuronalen Netzen
Frameworks zur Implementierung von NN
Datenaufbereitung für TensorFlow
Optimierung eines neuronalen Netzes mit Python und TensprFlow in Google Colab
Video (12 Minuten) zur Einführung in Neuronale Netze
R-Code zur Datenaufbereitung für TensorFlow
Jupyter Notebook zur Optimierung eines neuronalen Netzes in Google Colab
Blog mit zusätzlichen Informationen zur Batch-Normalisierung
Zusätzliche Resourcen für eine optionale lokale Installation von Python und ggf. Optimierung unter RStudio:
R-Code zur lokalen Installation von Python und Integration in RStudio
R-Code zur Schätzung eines neuronalen Netzes
zur Definition und Schätzung von Neuronalen Netzen für unterschiedliche Beispieldatensätze
für eine lineare Regression mit Regularisierung
die Vorhersagegüte Eures linearen Modells auf Kaggle testen.
(12 Minuten) zur Einführung in Neuronale Netze an anschauen.
die auf Kaggle lesen und die durchführen.
nutzen, um ein Google Colab Notebook zu öffnen (falls Ihr keinen Google-Account habt, müsst Ihr dazu ggf. zunächst einen anlegen). Auf der sich öffnenden Seite damm „Abbrechen“ klicken und das dargestellte Notebook durchlesen.
Zur Präsentation anhand Eures besten Modells die Vorhersagen für den Testdatensatz der Kaggle Competition berechnen und dort hochladen!
Jedes Team hält eine 8 oder 10-minütige Abschlusspräsentation (genaue Info erfolgt in der Vorwoche - bitte darauf achten, dass Ihr die Länge einhaltet!) mit den folgenden Inhalten:
Euren Namen auf der Titelseite
Auflistung und kurze Beschreibung der selbst erstellten Variablen
Balkendiagramme mit Konfidenzintervallen für zwei selbst erstellte Variablen
Optimierung des linearen Modells: Modellgleichung und adjusted r²
Art der Missing Value Imputation
Optimierung des neuronalen Netzes:
Source Code zur Definition des neuronalen Netzes
Darstellung der Loss-Funktionen für Trainings- und Validierungsdatensatz
MAPEs für den Validierungsdatensatz insgesamt und für jede Warengruppe einzeln
„Worst Fail“ / „Best Improvement“
Die Dokumentation des Leistungsnachweises erfolgt über das von Euch erstellte Repository, das wie in den READMEs angegeben vervollständigt werden muss. Anschließend muss ein Team-Mitglied das README des Hauptverzeichnisses wie hier beschrieben in der EduHub-Plattform hochladen.
folgende Themen behandeln:
Wiederholung Neuronaler Netze (NN)
Verschiedene Layer zur Implementierung eines NN
Hot-Deck-Imputation
Imputation durch Iterative Regression
Beispiel zur Behandlung von fehlenden Werten mit dem package VIM
Lektion 1 des Data Camp Kurses "Dealing with Missing Data in R"
Bonus:
Ressourcen zu Support-Vektor-Maschinen am Ende der PDF-Slides von dieser Woche
Beispiel zur Schätzung einer Support-Vektor-Maschine für Hauspreise