Kategoriale Variablen können in SPSS als ursprüngliche Texte verwendet werden, was bei größeren Datenmengen beträchtliche Performance-Einbrüche mit sich bringt, oder als numerische Codes mit Labels. Der zweite Weg ist nicht nur drastisch performanter, sondern auch der richtige Weg, weil es den Code in der SPSS-Syntax zwar schlechter lesbar macht, aber dafür völlig immun gegenüber Änderungen in Schreibweisen ist.
Inhaltsverzeichnis
In SPSS ist voreingestellt, ob man bei Ergebnisausgaben, z. B. beim FREQUENCIES-Befehl, als Beschriftung die Zahlencodes, die Labels oder beides angezeigt bekommt. Alles hat Vor- und Nachteile ...
Nur die Labels sind am schönsten, wenn man den Output als fertige Tabelle in ein Dokument einbettet.
Codes mit Labels gleichzeitig erleichtern die explorative Datenanalyse und das Entwickeln der Syntax, da man einerseits die Codes direkt z. B. für Filterbedingungen entnehmen kann, aber andererseits auch die Bedeutung daneben sofort sieht. Wenn man nun aber das Ergebnis z. B. für weitere Arbeitsschritte in Excel hineinkopiert, ist beides in einer Zelle vereint und lässt sich nur über Formeln oder händisch wieder trennen.
Nur die Codes sind daher am besten für die Weiterverarbeitung, aber sonst ist dieses Format für nichts wirklich geeignet.
Workaround in 'Optionen'
Man kann zwischen den verschiedenen Formaten in den Optionen wechseln. Unter "Bearbeiten -> Optionen -> Ausgabe" gibt es links den Bereich "Gliederungsbeschriftung". Hier kann man für die Variablennamen und die Variablenwerte über Pulldowns zwischen Labels, Werten/Namen und beidem wechseln.
Best Practice mit Syntax
Jetzt ist es schon recht umständlich, jedes Mal diesen Menüpunkt aufzurufen, um die Einstellungen nach Bedarf zu ändern. Einfacher geht es in der Syntax direkt mit Optionsbefehlen.
*** Bei Werten:
*** Wechsel auf "nur Codes":
SET TNUMBER VALUES.
*** Wechsel auf "nur Beschriftungen":
SET TNUMBER LABELS.
*** Wechsel auf beides:
SET TNUMBER BOTH.
*** Bei Variablen
*** Wechsel auf "nur Spaltenname":
SET TVAR NAMES.
*** Wechsel auf "nur Beschriftungen":
SET TVAR LABELS.
*** Wechsel auf beides:
SET TVAR BOTH.
Man kann also in einer laufenden Syntax schnell für eine einzelne Ausgabe zwischen zwei Schreibweisen wechseln:
FREQ spalteA spalteB spalteC.
SET TNUMBERS BOTH.
FREQ spalte_special.
SET TNUMBERS CODE.
FREQ spalteD spalteE spalteF.
Beispiel
Hier ein konkretes Beispiel mit Automarken. Die Spalte "Marke" im Datensatz enthält Automarken als numerischen Code mit Labels.
SET TNUMBERS VALUES.
FREQU marke.
SET TNUMBERS BOTH.
FREQU marke.
SET TNUMBERS LABELS.
FREQ marke.
Der oben ausgeführte Code führt zu folgenden drei Varianten in der Ausgabe:
Lass uns gemeinsam mehr aus Deinen Daten machen!
Du willst datengetrieben arbeiten, Prozesse optimieren oder innovative Technologien nutzen? Unser Blog gibt Dir wertvolle Impulse – aber Deine spezifischen Fragen klären wir am besten direkt.
Sprich mit uns – wir sind nur einen Klick entfernt!
Du hast Fragen? Kontaktiere uns
Your contact person
Dr. Sebastian Petry
Domain Lead Data Science & AI
Wer ist b.telligent?
Du willst den IoT Core durch eine Multi-Cloud-Lösung ersetzen und die Vorteile weiterer IoT-Services von Azure oder Amazon Web Services nutzen? Dann melde Dich bei uns und wir unterstützen Dich bei der Umsetzung mit unserer Expertise und dem b.telligent Partnernetzwerk.
Mit Snowflake Document AI können innerhalb der Datenplattform ganz einfach Informationen aus Dokumenten, zum Beispiel Rechnungen oder handgeschriebenen Dokumenten, extrahiert werden. Document AI ist unkompliziert und leicht zu nutzen: entweder via grafische Benutzeroberfläche, via Code in einer Pipeline oder integriert in eine Streamlit-Applikation. In diesem Beitrag erklären wir Dir das Feature, beschreiben, wie die Integration in die Plattform funktioniert, und stellen interessante Anwendungsmöglichkeiten vor.
Neuronale Netze werden erfolgreich auf so ziemlich jeden Datentyp angewandt: Bilder, Audio, Texte, Videos, Graphen usw. Nur wenn es um Tabellendaten geht, sind baumbasierte Ensembles wie Random Forests und Gradient Boosted Trees immer noch sehr viel verbreiteter. Wenn man diese erfolgreichen Klassiker durch neuronale Netze ersetzen will, dürfte Ensemble Learning immer noch eine Schlüsselidee sein. Dieser Blogbeitrag erklärt, warum das so ist. Dazu gibt’s ein Notebook mit den praktischen Details.
Azure AI Search, Microsofts serverloses Angebot für das R in RAG, hat seine eigene Skalierungslogik. Sie verbirgt viel von der Komplexität serverbasierter Lösungen, erfordert aber spezifische Kenntnisse.