von Dennis Haag

SAP Datasphere trifft Azure Data Lake: Von CSV-Daten zu automatisiertem Datenfluss

Daten fallen heute überall an – besonders in Produktionsumgebungen. Sensoren, Maschinen, Logistikanwendungen oder IoT-Geräte erzeugen permanent Dateien, die oft als CSV-Files in Cloud-Speichern landen.

Man stelle sich folgendes Szenario vor:

Mehrere Produktionsmaschinen generieren regelmäßig CSV-Dateien, die automatisch in einem Azure Blob Storage abgelegt werden. Ziel ist es, diese Daten in der SAP Datasphere automatisiert verfügbar zu machen – ohne mühseliges Datei-Handling.

Ein Data-Engineer soll später per Drag-and-Drop das passende Verzeichnis auswählen und darin enthaltene CSVs sofort verarbeiten können – unabhängig von der Anzahl der Dateien.

 

Einrichtung des Azure Data Lake

Der erste Schritt zur Lösung ist die Konfiguration eines Azure Storage Accounts.

Wichtige Schritte:

  • Im Azure Marketplace nach Storage Account suchen und einen neuen Account anlegen.
  • Bei der Einrichtung „Hierarchical Namespace“ aktivieren – ein entscheidender Punkt, damit Ordnerstrukturen unterstützt werden (Gen2-Funktionalität).
  • Innerhalb des Storage Accounts einen Blob Container erstellen, in dem später die Verzeichnisse und Dateien landen.

Diese Struktur bildet später die Basis dafür, dass die SAP Datasphere Daten automatisiert verarbeiten kann.

 

Verbindung zur SAP Datasphere herstellen

Damit SAP Datasphere auf den Azure Data Lake Storage zugreifen kann, wird eine neue Connection eingerichtet.

Die wichtigsten Parameter:

  • Connection Type: Microsoft Azure Data Lake Storage Gen2
  • Storage-Account-Name
  • Root-Path (z. B. "/")
  • Authentifizierung über einen Shared Key

Dieser Schlüssel wird direkt im Azure-Portal generiert und muss in der SAP Datasphere hinterlegt werden.

 

Dateistruktur und Metadaten – der Schlüssel zur Automatisierung

Damit die SAP Datasphere die CSV-Dateien korrekt interpretieren kann, müssen sie einem bestimmten Format folgen:

  • Datei-Name beginnt mit part-XXXX...
  • im gleichen Ordner muss eine Datei liegen mit dem Namen:
    .sap.partfile.metadata

Diese Metadaten-Datei definiert:

  • Spalten und Datentypen
  • Delimiter
  • Header-Definitionen
  • und – besonders wichtig – die ReplicationTaskID

Ohne diese ID weiß die SAP Datasphere nicht, wie die Daten ausgelesen werden sollen.

 

Wie erhält man die ReplicationTaskID?

Interessanterweise kommt die ID nicht aus Azure, sondern aus der SAP Datasphere selbst.

Deshalb wird der Prozess zunächst „umgedreht“ durchlaufen:

  • in der SAP Datasphere wird ein Replication Flow erzeugt.
  • eine Dummy-CSV mit später benötigtem Schema wird in den Azure Data Lake exportiert.
  • die SAP Datasphere erzeugt dabei automatisch die Metadaten-Datei inklusive der benötigten ReplicationTaskID.

Danach kann die Dummy-CSV durch echte Daten ersetzt werden – die Metadaten bleiben bestehen.

 

Das Ergebnis

Jetzt ist alles bereit:

Ein Data-Engineer kann das Azure-Verzeichnis in der SAP Datasphere einfach per Drag-and-Drop in einen DataFlow ziehen und sofort nutzen – ohne erneute Konfiguration, Formatmapping oder manuelle Eingriffe.

 

Fazit

Das Ergebnis zeigt, wie leistungsfähig die Kombination aus SAP Datasphere und Azure Data Lake ist – besonders für Unternehmen, die große, dezentrale oder maschinengenerierte Datenmengen verwalten.

Die Vorteile:

  • Automatisiertes Datenhandling
  • Skalierbar für hunderte Dateien und Ordner
  • Kein wiederholtes Mapping oder manuelle Anpassungen
  • Ideal für IoT-, Logistik- und Produktionsdaten

Damit wird die Cloud zum echten Datenhub – und die SAP Datasphere zum analytischen Herzstück.

 

Herr Dennis Haag

Consultant SAP BI/BW

ABRACON GmbH

+49 228 - 410 31 00

Ihr Ansprechpartner

ist Senior SAP BI Consultant bei der ABRACON GmbH. Nach dem erfolgreichen Studium der Wirtschaftsinformatik hat er sich bei der ABRACON GmbH auf die Konzeption und Entwicklung von Datawarehouse-Lösungen, Reporting- sowie Planungsapplikationen im SAP Business Warehouse und Business Intelligence Umfeld sowie der Implementierung von Analytic Applications mit SAP Analytics Cloud spezialisiert.

zurück zur Übersicht

x