Spaltenselektion in R
Scheinbar verschiedene Schreibweisen
Fangen wir mit etwas Banalem an, der Spaltenselektion in Dataframes. Sie wird natürlich in allen Einführungswerken behandelt, aber ich war ehrlich gesagt nicht immer von den Erläuterungen überzeugt. R unterscheidet drei Schreibweisen, um eine Spalte zu selektieren. Tatsächlich sind es nur zwei, nämlich...
data['spaltenname']
data[['spaltenname']]
data$spaltenname
Das hat mich zu Beginn immer etwas verwirrt. Die Schreibweise data$spaltenname ist natürlich die klar bevorzugte, da man nicht mit lästigen Klammern und Anführungszeichen hantieren muss. Noch wichtiger ist die Autovervollständigung unter R-Studio, wenn man STRG + SPACE drückt. Diese funktioniert halt nur so.
Nun habe ich ständig die Situation, in der ich den Namen einer Spalte als String in einem Skalar vorliegen habe, z.B. wenn ich eine Schleife über eine Liste von Variablen laufen lasse. Dort hab ich dann als Anfängerfehler häufig die Schreibweise data[spaltenNamenString] statt data[[spaltenNamenString]] gewählt, weil ich es aus anderen Programmiersprachen einfach so gewohnt bin. Manchmal funktioniert es trotzdem auf wundersame Weise, meistens aber wirft irgendetwas einen Fehler.
Die Variante mit doppelten Klammern ist technisch identisch mit der Variante mit $. Die Variante mit einfachen Klammern dagegen ist nicht wirklich ein Weg, um eine Spalte aus einem Dataframe zu extrahieren. In Tutorials und einem Buch hab ich die Erläuterung gefunden, dass damit ein neues Dataframe mit der genannten Spalte darin zurückgegeben wird. Das ist nur insofern richtig, als es nicht notwendigerweise ein Dataframe sein muss. Es kann auch irgendein anderer Datencontainer sein, der diese Schreibweise unterstützt.
Hintergründe der Selektion mit einfachen Klammern
Aber wozu eigentlich? Warum sollte ich mit data['spaltenName'] eine Kopie des ursprünglichen Dataframes mit nur einer Spalte ziehen? In dieser Form ist das Literal tatsächlich eher nutzlos, das liegt aber daran, dass es sich um einen Spezialfall eines anderen Anwendungsfalles handelt.
R bietet ja die Möglichkeit, ein Spaltensubset eines Dataframes zu selektieren, eben mit dieser Schreibweise, z.B. data[c('spalte_A', 'spalte_B', 'spalte_C')], oder auch nur über die Indizes, z.B. data[c(1,2,89,99)] oder data[1:10].
Nun ist R so gestrickt, dass es keine eigentlichen Variablen in dem Sinne eines typisierten singulären Wertes gibt. Es gibt stattdessen Skalare, also Vektoren mit Elementen des gleichen Typs. Wenn man spaltenName<-'spalte_a' schreibt, dann legt man eben einen Character-Vektor der Länge 1 an, gleichbedeutend mit spaltenName<-c('spalte_a').
dummy<-'dummyText'
dummy2<-c('dummyText')
identical(dummy, dummy2) ## Ergebnis True
Somit wird das Resultat von data['spaltenName'] verständlicher, da es data[c('spaltenName')] entspricht.
Kreuztabellen korrekt beschriftet
Früher habe ich Kreuztabellen immer so formuliert, da ich dann die Autovervollständigung in R-Studio beim Tippen nutzen konnte: table(datensatz$spalteA~datensatz$spalteB). Ich hab mich dann immer geärgert, dass ich am Output jedes Mal überlegen musste, was denn nun in den Spalten und was in den Zeilen gezählt wird, da die Beschriftung fehlte. Mit dem Wissen von oben ist es eigentlich klar, warum. Die Daten aus Spalte A und Spalte B werden aus dem Datensatz als Vektoren extrahiert, die an sich keine Namen haben.
Wenn ich die Kreuztabelle aber so schreibe: table(datensatz[c('spalteA', 'spalteB')]), dann übergebe ich nicht zwei anonyme Vektoren, sondern einen data.frame mit zwei Spalten, die ihre Namen behalten. Dann klappt es auch mit der Beschriftung.
Best Practice für Spaltenfilter
Abschließend möchte ich in diesem Zusammenhang noch eine Best-Practice-Empfehlung geben, und zwar: Die Schreibweisen mit der direkten Angabe von Indizes, wie data[1:10], sollte man besser gleich wieder vergessen, sie sind zu fehleranfällig und unleserlich. Ich definiere mittlerweile über verschiedene Wege immer einen Vektor mit den Spaltennamen, z.B. predictors_relevant = c('Predictor01','Predictor03','Predictor05','Predictor09') und wähle im Anschluss nur über diesen Vektor aus, z.B. data[predictors_relevant]. Das macht den Code dynamischer und ich weiß bei sprechenden Titeln sofort, was ich eigentlich gerade auswähle.
Genauso halte ich nicht viel von der Minus-Schreibweise, um Spalten auszuschließen. Ich verwende stattdessen setdiff, dann sind die beteiligten Spalten alle im Klartext leserlich, z.B. wenn ich alle Prädiktoren außer 'predictor03' verwenden will: Data[setdiff(predictors_relevant, c('Predictor03'))].