Hürde 1: Wie gebe ich den Pfad richtig an?
Nehmen wir an, wir wollen einen speziellen Pfad genauer katalogisieren. Ich wähle als einigermaßen reproduzierbares Beispiel ein User-Verzeichnis auf einem Windows-10-System:
path_dir: str = "C:\Users\sselt\Documents\blog_demo"
Die Variablenzuweisung wird bei Ausführung sofort mit einem Fehler quittiert:
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
Der Interpreter kommt nicht mit der Zeichenfolge \U klar, da Unicode-Zeichen mit ähnlicher Folge eingeleitet werden. Die Situation haben wir dem Problem zu verdanken, dass Windows-Systeme als Pfadtrenner „\“ und Linux-Systeme „/“ verwenden. Dummerweise ist der Windows-Trenner gleichzeitig die Einleitung für diverse Sonderzeichen oder Escapes in der Unicode-Kodierung, und schon haben wir das Durcheinander. Da sich die Systeme genauso wenig in absehbarer Zeit angleichen werden wie Dezimaltrennzeichen verschiedener Länder, müssen wir hier zu einer von drei Lösungen greifen.
Lösung 1, die hässliche Variante
Man vermeidet Windows-Pfadtrenner komplett und schreibt den Pfad von Anfang an mit Linux-Trennern:
path_dir: str = "C:/Users/sselt/Documents/blog_demo"
Der Interpreter evaluiert den Pfad dann korrekt, als wäre es von Anfang an ein Linux-System.
Lösung 2, die noch hässlichere Variante
Man verwendet Escape-Sequenzen.
path_dir: str = "C:\\Users\sselt\Documents\\blog_demo"
Neben der Unleserlichkeit stört mich daran, dass man nicht bei jeder Buchstaben-Trenner-Kombination escapen muss. Hier halt nur vor dem „U“ und dem „b“.
Lösung 3, die elegante
Man verwendet Raw-Strings und setzt „r“ als Prefix vor den String, um zu signalisieren, dass Sonderzeichen nicht evaluiert werden sollen.
path_dir: str = r"C:\Users\sselt\Documents\blog_demo"
Hürde 2: Scannen der Files
Zurück zur Aufgabe: Wir wollen zunächst alle Elemente eines Ordners auflisten. Den Pfad haben wir bereits.
Mit dem einfachen Befehl os.listdir erhalten wir damit die Auflistung als Liste von Strings, und zwar nur die Dateinamen ohne Pfad.
Ich verwende hier und in allen übrigen Beispielen Type Hinting als zusätzliche Dokumentation des Codes. Diese Schreibweisen sind erst ab Python 3.5 verfügbar.
import os
from typing import List
path_dir: str = r"C:\Users\sselt\Documents\blog_demo"
content_dir: List[str] = os.listdir(path_dir)
Die Dateiauflistung ist erstmal fein, mich interessieren aber hier noch die Statistiken der Dateien. Hierfür gibt es os.stat.
Hürde 3: Verketten von Pfaden
Um den Dateipfad zu übergeben, müssen wir erst Dateinamen und Pfad kombinieren. Hierzu habe ich in freier Wildbahn schon oft folgende Konstrukte gesehen und selbst auch in meiner Anfängerzeit so eingesetzt. Zum Beispiel:
path_file: str = path_dir + "/" + filename
path_file: str = path_dir + "\\" + filename
path_file: str = "{}/{}".format(path_dir, filename)
path_file: str = f"{path_dir}/{filename}"
A und B sind hässlich, weil sie Strings mit „+“ verketten. Dazu gibt es in Python keinen Grund.
B ist dabei besonders hässlich, weil man unter Windows ein doppeltes Trennzeichen braucht, sonst wird es als Escape-Sequenz für die schließenden Anführungszeichen gewertet.
C und D sind etwas schöner, da sie String-Formatierungen verwenden. Sie lösen aber noch nicht das Problem der Systemabhängigkeit. Wenn ich unter Windows das Ergebnis ausgebe, erhalte ich nämlich einen funktionierenden, aber inkonsistenten Pfad mit meinem Mix aus Trennern:
filename = "some_file"
print("{}/{}".format(path_dir, filename))
...: 'C:\\Users\\sselt\\Documents\\blog_demo/some_file'
Betriebssystemunabhängige Lösung
Hierfür gibt es eine Lösung seitens Python, nämlich os.sep bzw. os.path.sep. Beide geben die Pfadtrenner des jeweiligen Systems zurück. Sie sind in ihrer Funktion identisch, die zweite explizitere Schreibweise macht jedoch unmittelbar klar, um welchen Separator es sich handelt.
Also könnte man schreiben:
path_file = "{}{}{}".format(path_dir, os.sep, filename)
Das erzeugt ein besseres Ergebnis, allerdings zu Kosten eines unübersichtlicheren Codes, wenn man mehrere Pfadabschnitte kombinieren würde.
Es hat sich daher als Konvention eingebürgert, die Pfadelemente über die Stringverkettung zu kombinieren. Das ist noch kürzer und generischer:
path_file = os.sep.join([path_dir, filename])