In diesem Eintrag möchte ich gemeinsam mit Ihnen einen Blick in unsere Werkzeugkiste werfen. Das Thema bietet Stoff für mehr als einen Eintrag, und wir werden in diesem Blog immer mal wieder darauf zurückkommen.
Table of Contents
Als Berater hat man es immer dann leicht, wenn der Kunde bereits eine umfangreiche Data-Science-Infrastruktur besitzt. Aber wie praktiziere ich Data Science, wenn mein Kunde nicht bereits über eine etablierte Softwareumgebung mit Statistiktools, Datenbanken und Visualisierungswerkzeugen verfügt? Für diesen Zweck benutzen wir unser „Data Science Survival Kit“. Das ist eine Zusammenstellung von Softwaretools, die darauf ausgelegt ist, schnell mit unserer Arbeit beginnen zu können, wenn auf Kundenseite wenig zur Verfügung steht. Es handelt sich um Tools, die idealerweise mit geringem Installationsaufwand und ohne Lizenzprobleme daherkommen, die aber dennoch leistungsfähig sind und gut miteinander zusammenspielen.
Da gibt’s natürlich die üblichen Verdächtigen wie Python, über die wir auch noch schreiben werden – einsteigen ins Survival Kit möchte ich jedoch an einer ganz anderen Stelle: mit der Geovisualisierung. Landkartendarstellungen sind äußerst wertvoll, um Ergebnisse handhabbar zu machen. Moderne Geofinformationssysteme sind darüber hinaus nicht nur Visualisierungs- sondern auch mächtige Verarbeitungswerkzeuge. Unsere Werkzeugkiste enthält an dieser Stelle das Geoinformationssystem QGIS (siehe Screenshot). QGIS ist Open Source, schnell installiert und sehr mächtig.
Besonders wichtig ist uns die hervorragende Datenbankintegration sowie die Möglichkeit, das Tool mit Hilfe von Python selbst zu erweitern. Einfache Visualisierungen wie der postleitzahlbasierte Screenshot sind damit zügig zu erstellen, aber auch komplexe und ungewöhnliche Kartendarstellungen sind machbar.
Neben der reinen Geovisualisierung eignet sich QGIS hervorragend zur Aufbereitung von Geodaten vor weiteren Analyseschritten außerhalb von QGIS. Es stehen diverse Geoalgorithmen zur Verfügung, von kürzesten Wegen über die Festellung von geometrischen Beziehungen (Zuordnungen von geographischen Punkten zu Flächenstücken wie PLZ-Gebieten zum Beispiel) bis hin zu verschiedenen Trendberechnungen. Da QGIS auch Zugriff auf die Algorithmen anderer Open-Source-Projekt wie SAGA bietet, lassen sich damit auch anspruchsvolle Geo-Data-Science-Aufgaben wie die Klassifizierung von Satellitenbildern durchführen.
Das nur als Appetithappen - in späteren Einträgen werden wir von konkreten Beispielen berichten, wie sich QGIS in Projekte einbinden lässt.
Wer ist b.telligent?
Du willst den IoT Core durch eine Multi-Cloud-Lösung ersetzen und die Vorteile weiterer IoT-Services von Azure oder Amazon Web Services nutzen? Dann melde Dich bei uns und wir unterstützen Dich bei der Umsetzung mit unserer Expertise und dem b.telligent Partnernetzwerk.
Neuronale Netze werden erfolgreich auf so ziemlich jeden Datentyp angewandt: Bilder, Audio, Texte, Videos, Graphen usw. Nur wenn es um Tabellendaten geht, sind baumbasierte Ensembles wie Random Forests und Gradient Boosted Trees immer noch sehr viel verbreiteter. Wenn man diese erfolgreichen Klassiker durch neuronale Netze ersetzen will, dürfte Ensemble Learning immer noch eine Schlüsselidee sein. Dieser Blogbeitrag erklärt, warum das so ist. Dazu gibt’s ein Notebook mit den praktischen Details.
Azure AI Search, Microsofts serverloses Angebot für das R in RAG, hat seine eigene Skalierungslogik. Sie verbirgt viel von der Komplexität serverbasierter Lösungen, erfordert aber spezifische Kenntnisse.
Polars, der in Rust geschriebene Pandas-Herausforderer, sorgt für erhebliche Beschleunigung nicht nur in der Ausführung des Codes, sondern auch in der Entwicklung. Pandas krankt seit jeher an einer API, die an vielen Stellen „historisch gewachsen“ ist. Ganz anders Polars: Eine API, die von Anfang an auf logische Konsistenz ausgelegt ist und deren Stringenz mit jedem Release sorgfältig gepflegt wird (im Zweifelsfall auch unter Verlusten an Rückwärtskompatibilität), sorgt für eine erheblich schnellere Entwicklung. An vielen Stellen, wo man bisher Pandas eingesetzt hat, kann man es problem los durch Polars ersetzen: In Ibis-Analytics-Projekten, und natürlich einfach für die tägliche Datenaufbereitung aller Art. Gut macht sich die überlegene Performance auch in interaktiven Umfeldern wie PowerBI .