Glossar
Da man in dem Fachwortdschungel der Datenwissenschaft gerne mal verloren gehen kann, pflegen wir hier für Euch ein Glossar, das unsere Tutor:innen nach und nach für Euch mit wichtigen Begrifflichkeiten füllen werden.
Zusätzlich erstellen wir für Euch an dieser Stelle eine Übersicht zu den wichtigsten Syntaxregeln und Funktionen.
Zum Begriffsdschungel gab es bei uns übrigens schon einmal ein Open Online Data Meetup (OODM) - zur Aufzeichnung geht es hier.
Technische Fachbegriffe
Absolute Häufigkeit = Anzahl der Ausprägungen
API (Application Programming Interface, dt. Schnittstelle zur Programmierung von Anwendungen) = Schnittstelle, die ein System bereitstellt, um anderen Programmen die Interaktion zu ermöglichen
Ausreißer = Beobachtung, die von anderen Beobachtungen auffällig abweicht
Dashboard (zu dt. Instrumententafel) = Zusammenstellung von (zumeist) explorativen Datenanalyseelementen wie Visualisierungen und statistischen Kennwerten
Data Engineering = Erfassen, Übersetzen und Validieren von (unstrukturierten) Daten als Grundlage für die Analyse
Dataframe (zu dt. Datenrahmen) = tabellarisches Objekt, in dem Daten gespeichert werden
Data Science = Analyse, Test und Aufbereitung (strukturierter) Daten
Daten = formalisierte, idealerweise durch Binärcodierung maschinell lesbare Informationen
Datenwissenschaft = Werkzeug zur Verarbeitung von Daten, Denkweise (“Wie gehen wir an Herausforderungen heran?”) und Kompetenzbereich (“Welche analytischen, technischen und fachlichen Fähigkeiten sind notwendig?”)
Dimension eines Datensatzes = Anzahl an Beobachtungen (Zeilen) und Anzahl an Variablen (Spalten)
Dokumentation (von Code) = Abrufbare Informationen zu Packages, Funktionen und Argumenten
DSGVO = verfassungsrechtlich verankertes Grundrecht, das personenbezogene Daten vor Missbrauch schützt (Art. 1 Abs. 1 und Art. 2 Abs. 1 GG, Art. 1 - 4 ff. DSGVO)
Environment (RStudio) = Ort der IDE RStudio, in dem Objekte gespeichert werden
Explorative Datenanalyse = Teilgebiet der Statistik, um einen Datensatz z.B. mit Visualisierungen zu untersuchen und kennenzulernen
Framework = Grundgerüst zur Programmierung von Applikationen
Git = Kollaborationstool für Informatiker:innen, über das wir Code und Daten austauschen
Granularität = Konzept der Datenwissenschaft, nach dem Daten idealerweise pro individuellem Subjekt vorliegen (in unserem R Lernen Kurs also pro Teilnehmer:in) und nicht aggregiert (also z.B. als aggregierte Anzahl von Teilnehmer:innen pro Live Session)
Image Recognition (zu dt. Bilderkennung) = Automatisierte Verarbeitung und Interpretation von Bilddateien
Interquartilsabstand: Im Interquartilsabstand (kurz IQR), der zwischen dem 25%- und 75%-Quantil verortet ist, liegen 50% aller Messwerte
Integrierte Entwicklungsumgebung (kurz: IDE) = Umgebung für das Schreiben und die Interpretation von Code
JSON = textbasiertes, strukturiertes Dateiformat
Künstliche Intelligenz = Wenn Maschinen eine Aufgabe auf Basis von bestimmten Regeln (Algorithmen) bzw. auf Basis von Informationen erledigen, wird dieses intelligente Verhalten als Künstliche Intelligenz bezeichnet. Unterfälle von Künstlicher Intelligenz sind regelbasierte Systeme und maschinelles Lernen.
Loop (zu dt. Schleife) = Iteration über Instanzen zur wiederholten Ausführung einer Tätigkeit. Es gibt For Loops (zu dt. Für-Schleife) für eine bekannte Menge an Instanzen und While Loops (zu dt. Solange-Schleifen), die eine Aktion ausführen, bis eine Bedingung erreicht wurde.
Maschinelles Lernen = Als Machine Learning werden solche Regeln bezeichnet, die sich durch mehr Erfahrung bzw. Informationen verbessern.
Monitoring & Evaluation (M&E) = Anwendungsgebiet der Datenwissenschaft im Dritten Sektor, das sich fortlaufend mit dem Projektfortschritt auseinandersetzt (Monitoring) und die Wirkung von Interventionen in Programmen und Projekten evaluiert (Evaluation)
Median = robuster “Mittelpunkt” mehrerer Zahlen (50% der Ausprägungen sind kleiner oder größer)
Mittelwert = Durchschnittswert einer Menge aus mehreren Zahlen
Modus (auch: Modalwert) = häufigster Wert in einer Menge an Zahlen
NA = fehlender Wert (not available)
Open Source Software = frei nutzbare, unlizenzierte Software (aber eventuell mit Verpflichtung zur Autor:innenkennung)
Packages (zu dt. Pakete) = Bündel an programmierten, wiederverwendbaren Funktionalitäten
Pivoting = Umformen eines rechteckigen Datensatzes zwischen long- und wide-Format
Quantil = Anteil der Werte, die kleiner oder gleich einem bestimmten Wert sind (z.B. 25%-Quantil: 25% aller beobachteten Werte sind kleiner gleich dieser Wert)
Regex (Regular Expressions) = Reguläre Ausdrücke zur Bestimmung von bestimmten Zeichen(folgen)
Relative Häufigkeit = Prozentualer Anteil der Ausprägungen in einer Gruppe
R Markdown = RStudio-Dateiformat zur Kombination von Code und Text mit Exportfunktionalitäten zu PDF und HTML
Robustheit = Insensibilität gegenüber Ausreißern
RProject = Tool zur Dateibündelung von Codeskripten, Daten uvm. für das vereinfachte Teilen von Programmierprojekten
Shapefile = Kartographische Datei, die Koordinaten und Polygone enthält
Shiny Web App = Framework zur Programmierung von interaktiven Dashboards in R
Slicing = Zugriff auf bestimmte Daten in einem Dataframe
Spannweite = Differenz zwischen der minimalen Ausprägung und der maximalen Ausprägung einer Variablen
SQL (Structured Query Language, dt. Strukturierte Abfragesprache) = eine Sprache zur Definition, Bearbeitung und Abfrage von Daten aus Datenbanken
Standardabweichung = standardisiertes Maß für die Streuung um den Mittelwert in der selben Maßeinheit wie die Variable (auch: mittlere Abweichung), das der Wurzel aus der Varianz entspricht
Statuscode = Antwort eines Servers auf HTTP-Anfragen (über APIs)
Subsets = Teilmenge des Datensatzes
Regelbasierte Systeme = Systeme, die Aufgaben auf Basis von bestimmten, manuell festgesetzten Regeln erledigen. Diese Regeln werden häufig von Expert:innen festgesetzt.
Tidyverse = Sammlung an Packages zur Datenbereinigung, die aufeinander abgestimmt sind und dabei der selben Logik folgen
Variable Assignment (zu dt. Variablenzuweisung) = Benennung von Objekten (in R durch “objektname <- objekt)
Varianz = Streuung um den Mittelwert
Work Space (zu dt. Arbeitsspeicher) = Temporärer Arbeitsspeicher der IDE während der Programmierung (nie speichern)
Wichtiger Syntax in R
Code Chunk
Hinweis: Bei R Markdown - in einem simplen R Skript hingegen nicht nötig, um Code zu schreiben
```{r}
Dein Code hier
```
Funktion
Hinweis: Funktionen funktionieren auch ohne das package:: davor, aber für Nachvollziehbarkeit und die Verwendung einer Funktion aus einem spezifischen Package ist es sinnvoll, das Package immer anzugeben
::funktion(argument1, argument2, ...) package
Konditionale Statements
if ( test_expression1) {
statement1 else if ( test_expression2) {
}
statement2else if ( test_expression3) {
}
statement3 else {
}
statement4 }
Logische Ausdrücke
Hinweis: Der Output von logischen Ausdrücken ergibt “TRUE” (wahr) oder “FALSE” (falsch)
== "Ausdruck" # ist gleich
Variable < Variable 2 # kleiner als
Variable1 <= Variable 2 # kleiner gleich
Variable1 > Variable 2 # größer als
Variable1 >= Variable 2 # größer gleich Variable1
Pipe-Operator (zum Zusammenfügen von Operationen)
%>% # im Rahmen des tidyverse
|> #der generelle Pipeoperator
Variablenzuweisung
<- objekt objektname
Zugriff auf Daten/Zeilen/Spalten in Dataframes
Hinweis: In R fängt man bei 1 an zu zählen - nicht wie in anderen Programmiersprachen bei 0
dataframe[zeilennummer,spaltennummer]
dataframe[zeilennummer,]
dataframe[,spaltennummer]:endezeile, beginnspalte:endespalte] dataframe[beginnzeile
Zugriff auf Variablen (Spalten) über den Namen in Dataframes
$variablenname
datensatz'variablenname'] datensatz[
Zugriff auf Subsets in Dataframes
Hinweis: In R fängt man bei 1 an zu zählen - nicht wie in anderen Programmiersprachen bei 0
:endezeile, beginnspalte:endespalte]
dataframe[beginnzeilesubset(dataframe, ausdruck)
Wichtige Packages in R
Neben den Grundfunktionen (“baseR”) benötigt für Eure Arbeit in R oft weitere Funktionen. Diese findet Ihr in sog. Packages:
library(dplyr)
- tidyverse-Package zur Datenbereinigung und Berechnung statistischer Kennzahlen
library(ggplot2)
- tidyverse-Package zur Visualisierung von Daten
library(here)
- Package zur Vereinfachung der Navigation in Orderstrukturen
library(httr)
- Package zum Schreiben von eigenen API-Anfragen
library(readr)
- tidyverse-Package zum Import von Daten
library(rio)
- Package zum vereinfachten Laden von Daten
library(tidyverse)
- Packagesammlung für die Datenwissenschaft
Wichtige Funktionen in R
Hinweis: Funktionen ohne Package-Angabe sind baseR-Funktionen, die meisten anderen Packages sind aus dem Tidyverse, dazu mehr in der Lektion zur Datentransformation!
Anzahl = n()
Auswahl von Spalten (Variablen) = dplyr::select()
Auswahl von Zeilen (Beobachtungen) nach Kriterien = dplyr::filter()
(minimale/maximale) Ausprägung einer Variablen = min()
/max()
Berechnung neuer Spalten (Variablen) auf Basis vorhandener Variablen = dplyr::mutate()
Datenabfrage mit APIs und Statuscode = httr::GET()
//httr::stop_for_status()
(Partiellen) Datensatz anzeigen = View()
/head()
/tail()
(tagesaktuelles) Datum = Sys.Date()
Dimension = dim()
Einlesen von Dateien = rio::import()
, readr::read_csv()
, readxl::read_excel()
, jsonlite::read_json()
, sf::st_read()
, …
Gruppierung von Zeilen (Beobachtungen) nach Kriterien = dplyr::group_by()
Hilfe = help("")
/?funktion
Installation von Packages = install.packages("")
Joins (Zusammenfügen von Datensätzen) = dplyr::full_join()
, dplyr::inner_join()
, dplyr::left_join()
, dplyr::right_join()
Laden von Packages = library()
Mittelwert, Median und Modus = mean()
/median()
/mode()
Pivotierung (Umformung des Datensatzes) = tidyr::pivot_wider()
/tidyr::pivot_longer()
Sortierung von Zeilen nach Kriterien = dplyr::arrange()
Spaltenanzahl = ncol()
Standardabweichung = sd()
String-Manipulation = stringr::str_replace
/stringr::str_remove()
Subsets = subset()
Summe = sum()
Übersicht über Datensatz = summary()
/str()
/dplyr::glimpse()
Variablennamen anzeigen = colnames()
Varianz = var()
(Erstellung einer) Visualisierung = ggplot2:ggplot(data = , aes(x = , y = ))
, plot()
Zeilenanzahl = nrow()
Zusammenfassung von Werten zur Vereinfachung des Informationsgehalts = dplyr::summarize()