Glossar

Da man in dem Fachwortdschungel der Datenwissenschaft gerne mal verloren gehen kann, pflegen wir hier für Euch ein Glossar, das unsere Tutor:innen nach und nach für Euch mit wichtigen Begrifflichkeiten füllen werden.
Zusätzlich erstellen wir für Euch an dieser Stelle eine Übersicht zu den wichtigsten Syntaxregeln und Funktionen.

Zum Begriffsdschungel gab es bei uns übrigens schon einmal ein Open Online Data Meetup (OODM) - zur Aufzeichnung geht es hier.

Technische Fachbegriffe

Absolute Häufigkeit = Anzahl der Ausprägungen

API (Application Programming Interface, dt. Schnittstelle zur Programmierung von Anwendungen) = Schnittstelle, die ein System bereitstellt, um anderen Programmen die Interaktion zu ermöglichen

Ausreißer = Beobachtung, die von anderen Beobachtungen auffällig abweicht

Dashboard (zu dt. Instrumententafel) = Zusammenstellung von (zumeist) explorativen Datenanalyseelementen wie Visualisierungen und statistischen Kennwerten

Data Engineering = Erfassen, Übersetzen und Validieren von (unstrukturierten) Daten als Grundlage für die Analyse

Dataframe (zu dt. Datenrahmen) = tabellarisches Objekt, in dem Daten gespeichert werden

Data Science = Analyse, Test und Aufbereitung (strukturierter) Daten

Daten = formalisierte, idealerweise durch Binärcodierung maschinell lesbare Informationen

Datenwissenschaft = Werkzeug zur Verarbeitung von Daten, Denkweise (“Wie gehen wir an Herausforderungen heran?”) und Kompetenzbereich (“Welche analytischen, technischen und fachlichen Fähigkeiten sind notwendig?”)

Dimension eines Datensatzes = Anzahl an Beobachtungen (Zeilen) und Anzahl an Variablen (Spalten)

Dokumentation (von Code) = Abrufbare Informationen zu Packages, Funktionen und Argumenten

DSGVO = verfassungsrechtlich verankertes Grundrecht, das personenbezogene Daten vor Missbrauch schützt (Art. 1 Abs. 1 und Art. 2 Abs. 1 GG, Art. 1 - 4 ff. DSGVO)

Environment (RStudio) = Ort der IDE RStudio, in dem Objekte gespeichert werden

Explorative Datenanalyse = Teilgebiet der Statistik, um einen Datensatz z.B. mit Visualisierungen zu untersuchen und kennenzulernen

Framework = Grundgerüst zur Programmierung von Applikationen

Git = Kollaborationstool für Informatiker:innen, über das wir Code und Daten austauschen

Granularität = Konzept der Datenwissenschaft, nach dem Daten idealerweise pro individuellem Subjekt vorliegen (in unserem R Lernen Kurs also pro Teilnehmer:in) und nicht aggregiert (also z.B. als aggregierte Anzahl von Teilnehmer:innen pro Live Session)

Image Recognition (zu dt. Bilderkennung) = Automatisierte Verarbeitung und Interpretation von Bilddateien

Interquartilsabstand: Im Interquartilsabstand (kurz IQR), der zwischen dem 25%- und 75%-Quantil verortet ist, liegen 50% aller Messwerte

Integrierte Entwicklungsumgebung (kurz: IDE) = Umgebung für das Schreiben und die Interpretation von Code

JSON = textbasiertes, strukturiertes Dateiformat

Künstliche Intelligenz = Wenn Maschinen eine Aufgabe auf Basis von bestimmten Regeln (Algorithmen) bzw. auf Basis von Informationen erledigen, wird dieses intelligente Verhalten als Künstliche Intelligenz bezeichnet. Unterfälle von Künstlicher Intelligenz sind regelbasierte Systeme und maschinelles Lernen.

Loop (zu dt. Schleife) = Iteration über Instanzen zur wiederholten Ausführung einer Tätigkeit. Es gibt For Loops (zu dt. Für-Schleife) für eine bekannte Menge an Instanzen und While Loops (zu dt. Solange-Schleifen), die eine Aktion ausführen, bis eine Bedingung erreicht wurde.

Maschinelles Lernen = Als Machine Learning werden solche Regeln bezeichnet, die sich durch mehr Erfahrung bzw. Informationen verbessern.

Monitoring & Evaluation (M&E) = Anwendungsgebiet der Datenwissenschaft im Dritten Sektor, das sich fortlaufend mit dem Projektfortschritt auseinandersetzt (Monitoring) und die Wirkung von Interventionen in Programmen und Projekten evaluiert (Evaluation)

Median = robuster “Mittelpunkt” mehrerer Zahlen (50% der Ausprägungen sind kleiner oder größer)

Mittelwert = Durchschnittswert einer Menge aus mehreren Zahlen

Modus (auch: Modalwert) = häufigster Wert in einer Menge an Zahlen

NA = fehlender Wert (not available)

Open Source Software = frei nutzbare, unlizenzierte Software (aber eventuell mit Verpflichtung zur Autor:innenkennung)

Packages (zu dt. Pakete) = Bündel an programmierten, wiederverwendbaren Funktionalitäten

Pivoting = Umformen eines rechteckigen Datensatzes zwischen long- und wide-Format

Quantil = Anteil der Werte, die kleiner oder gleich einem bestimmten Wert sind (z.B. 25%-Quantil: 25% aller beobachteten Werte sind kleiner gleich dieser Wert)

Regex (Regular Expressions) = Reguläre Ausdrücke zur Bestimmung von bestimmten Zeichen(folgen)

Relative Häufigkeit = Prozentualer Anteil der Ausprägungen in einer Gruppe

R Markdown = RStudio-Dateiformat zur Kombination von Code und Text mit Exportfunktionalitäten zu PDF und HTML

Robustheit = Insensibilität gegenüber Ausreißern

RProject = Tool zur Dateibündelung von Codeskripten, Daten uvm. für das vereinfachte Teilen von Programmierprojekten

Shapefile = Kartographische Datei, die Koordinaten und Polygone enthält

Shiny Web App = Framework zur Programmierung von interaktiven Dashboards in R

Slicing = Zugriff auf bestimmte Daten in einem Dataframe

Spannweite = Differenz zwischen der minimalen Ausprägung und der maximalen Ausprägung einer Variablen

SQL (Structured Query Language, dt. Strukturierte Abfragesprache) = eine Sprache zur Definition, Bearbeitung und Abfrage von Daten aus Datenbanken

Standardabweichung = standardisiertes Maß für die Streuung um den Mittelwert in der selben Maßeinheit wie die Variable (auch: mittlere Abweichung), das der Wurzel aus der Varianz entspricht

Statuscode = Antwort eines Servers auf HTTP-Anfragen (über APIs)

Subsets = Teilmenge des Datensatzes

Regelbasierte Systeme = Systeme, die Aufgaben auf Basis von bestimmten, manuell festgesetzten Regeln erledigen. Diese Regeln werden häufig von Expert:innen festgesetzt.

Tidyverse = Sammlung an Packages zur Datenbereinigung, die aufeinander abgestimmt sind und dabei der selben Logik folgen

Variable Assignment (zu dt. Variablenzuweisung) = Benennung von Objekten (in R durch “objektname <- objekt)

Varianz = Streuung um den Mittelwert

Work Space (zu dt. Arbeitsspeicher) = Temporärer Arbeitsspeicher der IDE während der Programmierung (nie speichern)

Wichtiger Syntax in R

Code Chunk
Hinweis: Bei R Markdown - in einem simplen R Skript hingegen nicht nötig, um Code zu schreiben

```{r}
Dein Code hier
```

Funktion
Hinweis: Funktionen funktionieren auch ohne das package:: davor, aber für Nachvollziehbarkeit und die Verwendung einer Funktion aus einem spezifischen Package ist es sinnvoll, das Package immer anzugeben

package::funktion(argument1, argument2, ...)

Konditionale Statements

if ( test_expression1) { 
  statement1 
  } else if ( test_expression2) { 
  statement2
  } else if ( test_expression3) {
  statement3 
  } else {
  statement4
}

Logische Ausdrücke
Hinweis: Der Output von logischen Ausdrücken ergibt “TRUE” (wahr) oder “FALSE” (falsch)

Variable == "Ausdruck"  # ist gleich
Variable1 < Variable 2  # kleiner als
Variable1 <= Variable 2 # kleiner gleich
Variable1 > Variable 2  # größer als
Variable1 >= Variable 2 # größer gleich

Pipe-Operator (zum Zusammenfügen von Operationen)

%>% # im Rahmen des tidyverse
|>  #der generelle Pipeoperator

Variablenzuweisung

objektname <- objekt

Zugriff auf Daten/Zeilen/Spalten in Dataframes
Hinweis: In R fängt man bei 1 an zu zählen - nicht wie in anderen Programmiersprachen bei 0

dataframe[zeilennummer,spaltennummer]
dataframe[zeilennummer,]
dataframe[,spaltennummer]
dataframe[beginnzeile:endezeile, beginnspalte:endespalte]

Zugriff auf Variablen (Spalten) über den Namen in Dataframes

datensatz$variablenname
datensatz['variablenname']

Zugriff auf Subsets in Dataframes
Hinweis: In R fängt man bei 1 an zu zählen - nicht wie in anderen Programmiersprachen bei 0

dataframe[beginnzeile:endezeile, beginnspalte:endespalte]
subset(dataframe, ausdruck)

Wichtige Packages in R

Neben den Grundfunktionen (“baseR”) benötigt für Eure Arbeit in R oft weitere Funktionen. Diese findet Ihr in sog. Packages:

library(dplyr) - tidyverse-Package zur Datenbereinigung und Berechnung statistischer Kennzahlen
library(ggplot2) - tidyverse-Package zur Visualisierung von Daten
library(here) - Package zur Vereinfachung der Navigation in Orderstrukturen
library(httr) - Package zum Schreiben von eigenen API-Anfragen
library(readr) - tidyverse-Package zum Import von Daten
library(rio) - Package zum vereinfachten Laden von Daten
library(tidyverse) - Packagesammlung für die Datenwissenschaft

Wichtige Funktionen in R

Hinweis: Funktionen ohne Package-Angabe sind baseR-Funktionen, die meisten anderen Packages sind aus dem Tidyverse, dazu mehr in der Lektion zur Datentransformation!

Anzahl = n()

Auswahl von Spalten (Variablen) = dplyr::select()

Auswahl von Zeilen (Beobachtungen) nach Kriterien = dplyr::filter()

(minimale/maximale) Ausprägung einer Variablen = min()/max()

Berechnung neuer Spalten (Variablen) auf Basis vorhandener Variablen = dplyr::mutate()

Datenabfrage mit APIs und Statuscode = httr::GET()//httr::stop_for_status()

(Partiellen) Datensatz anzeigen = View()/head()/tail()

(tagesaktuelles) Datum = Sys.Date()

Dimension = dim()

Einlesen von Dateien = rio::import(), readr::read_csv(), readxl::read_excel(), jsonlite::read_json(), sf::st_read(), …

Gruppierung von Zeilen (Beobachtungen) nach Kriterien = dplyr::group_by()

Hilfe = help("")/?funktion

Installation von Packages = install.packages("")

Joins (Zusammenfügen von Datensätzen) = dplyr::full_join(), dplyr::inner_join(), dplyr::left_join(), dplyr::right_join()

Laden von Packages = library()

Mittelwert, Median und Modus = mean()/median()/mode()

Pivotierung (Umformung des Datensatzes) = tidyr::pivot_wider()/tidyr::pivot_longer()

Sortierung von Zeilen nach Kriterien = dplyr::arrange()

Spaltenanzahl = ncol()

Standardabweichung = sd()

String-Manipulation = stringr::str_replace/stringr::str_remove()

Subsets = subset()

Summe = sum()

Übersicht über Datensatz = summary()/str()/dplyr::glimpse()

Variablennamen anzeigen = colnames()

Varianz = var()

(Erstellung einer) Visualisierung = ggplot2:ggplot(data = , aes(x = , y = )), plot()

Zeilenanzahl = nrow()

Zusammenfassung von Werten zur Vereinfachung des Informationsgehalts = dplyr::summarize()