Neue Features für mehr Datenqualität

 Foto: Shutterstock

Foto: Shutterstock

SAP hat Version 4.2 seiner Lösungen zum Datenmanagement veröffentlicht. Neue Funktionen unterstützen Big-Data-Analysen. Die wichtigsten im Überblick.

Von Big Data erwarten sich Unternehmen Einblicke bisher nicht gekannter Tiefe in die Wünsche ihrer Kunden – und das in Sekundenschnelle. Die dafür genutzte In-Memoy-Technologie kann ihre Stärken allerdings nicht ausspielen, wenn die Qualität der zugrunde liegenden Daten schlecht ist. SAP Data Services und SAP Information Steward unterstützen Unternehmen, die Qualität ihrer Daten zu beurteilen und zu verbessern. SAP hat nun Version 4.2 der beiden Lösungen vorgestellt.

SAP Data Services und SAP Information Steward sind einerseits zwei eigenständige Produkte, die Kunden einzeln nutzen können. Andererseits haben sie ein gemeinsames Backend und greifen beim Einsatz im Verbund aufeinander zu, wie Niels Weigel erklärt, Senior Solution Manager für Enterprise Information Management bei SAP. SAP Data Services bezeichnet Weigel eher als „technisches Werkzeug“ für Datenintegration, Datenqualitätsverbesserung und Text Data Processing  für strukturierte und unstrukturierte Daten, SAP Information Steward dagegen als ein Werkzeug, mit dem auch Nicht-IT-Anwender Einblick in die inhaltliche Qualität von vorhandenen Stammdaten oder Transaktionsdaten gewinnen können.

Transformationen direkt in SAP HANA

SAP Data Services stellt die Datendrehscheibe im Unternehmen dar, wie Niels Weigel sagt. Mit der neuen Version 4.2 wurde das Zusammenspiel mit der In-Memory-Datenbank SAP HANA weiter optimiert. Bereits bei der Vorgängerversion war es möglich, direkt bei ETL-Vorgängen (Extract, Transform, Load) die Datenqualität zu verbessern. Mit der Version 4.2 werden viele Transformationen direkt innerhalb der Datenbank SAP HANA durchgeführt. Das geschieht, ohne dass der Anwender diese sogenannte „Push-Down-Funktionalität“ selbst ausdrücklich optimieren muss: Erkennt Data Services, dass bestimmte Funktionen (etwa das Zusammenführen zweier Tabellen) direkt in der schnellen Datenbank ausgeführt werden können, fällt die Software diese Optimierungsentscheidung – der Anwender bekommt davon nichts mit, außer dass alles viel schneller geht, so Weigel. Zudem werden die Datenqualitätsfunktionalitäten Schritt für Schritt ebenfalls in die SAP-HANA-Plattform integriert. Ein typisches Beispiel laut Niels Weigel: Zu prüfen, ob die Straßennamen in Datensätzen noch aktuell sind oder womöglich Straßen mittlerweile umbenannt wurden. „Die Adressvalidierung findet dann direkt in der Datenbank statt“, sagt Niels Weigel. Und damit auch in SAP-HANA-Geschwindigkeit, was laut Weigel einen „dramatischen Performance-Gewinn“ bringt.

-          Information Steward zeigt, was schlechte Datenqualität kostet

-          Mit Big-Data-Schnittstelle soziale Netzwerke auswerten

-          Fachanwender und IT-Experte arbeiten Hand in Hand

Für die einfache und schnelle Replikation beispielsweise von Tabellen in die Datenbank SAP HANA ist Version 4.2 von SAP Data Services mit der Workbench 2.0 ausgestattet. Die Replikation bewerkstelligt der Anwender damit über eine grafische Oberfläche, die neben dem einfachen Mapping der Tabellenspalten auch die Integration von Basis-Transformationen erlaubt.

Mit dem Information Steward können Business-Anwender überprüfen, ob Daten ihren Anforderungen entsprechen. „Das fängt damit an, dass man im Data Profiling erkennen kann, dass zum Beispiel in Adressdaten 42 verschiedene Anreden verwendet werden“, sagt Niels Weigel. Ausgehend von solchen Auffälligkeiten, aber auch basierend auf externen Anforderungen oder unternehmensweiten Standards und Vorgaben für Datenqualitätsanforderungen werden Validierungsregeln definiert und auf die vorhandenen Daten angewandt. Damit lässt sich messen, wie viele Datensätze den Anforderungen entsprechen oder widersprechen – wie gut also die Datenqualität tatsächlich ist.

SAP Information Steward stellt finanzielle Folgen schlechter Datenqualität dar

Welchen Auswirkungen schlechte Daten im Unternehmen haben können, kann der Information Steward ebenfalls dokumentieren. Grundlage dafür ist, dass er aufzeigt, woher Daten stammen und wo sie weiterverwendet werden, etwa beim Blick auf die sogenannten Staging Tables in einem Data Warehouse, aus denen Unternehmen ihre Berichte erstellen. Der Information Steward zeigt nicht nur, ob diese Tabellen fehlerhafte oder falsch formatierte Informationen enthalten. Indem er zusätzlich die technischen Metadaten direkt einbindet (Data Lineage und Impact Analysis), identifiziert er auch die Quelle fehlerhafter Daten und listet auf, wohin diese fließen. Wenn bei den Quelldaten sichtbar werde, dass sie fehlerhafte oder unverlässliche Daten beinhalten, sei absehbar, dass das Folgeprobleme verursache, sagt Niels Weigel. Darüber hinaus könne man „mit Information Steward 4.2 sogar die finanziellen Auswirkungen schlechter Datenqualität darstellen“, so Weigel.

Lesen Sie auf der nächsten Seite: Den ROI von Projekten zur Daten-Nachpflege berechnen

Dazu können Kunden nun direkt individuelle Folgekosten – etwa nötige Ressourcen oder  Prozesskosten – für identifizierte Datenqualitätsprobleme an einzelne Validierungsregeln knüpfen. Dabei geht es um Fragen wie: Muss ein identifizierter Fehler aufwändig manuell nachgepflegt werden? Der dafür nötige Arbeitsaufwand lässt sich leicht berechnen. „Die Prozesskosten trägt der Anwender bei der Konfiguration einer Validerungsregel einfach ein“, so Weigel. Dadurch kann er berechnen, wie teuer es das Unternehmen kommt, die Datenqualität manuell zu verbessern. Und die unterschiedlichen Auswirkungen verschiedener Probleme lassen sich einander gegenüberstellen. Kostet es letzten Endes mehr, falsche Postleitzahlen von Adressaten einer Marketing-Kampagne nicht zu korrigieren oder sie durch den Einsatz von Adressbereinigungslösungen direkt beim Import der Daten zu korrigieren? „Mit solchen What-Is-Analysen können Unternehmen den ROI solcher Maßnahmen ausrechnen“, sagt Niels Weigel.

Als Verbesserung der Benutzerfreundlichkeit hebt der SAP-Mann den neuen Data Quality Advisor hervor. Füttert man ihn mit Daten einer Tabelle, deren Spalten beispielsweise nur mit den Buchstaben A bis E benannt sind, schlägt er je nach Format und Inhalt der Zellen Benennungen für die Spalten vor. Der Data Quality Advisor erkennt zum Beispiel Postleitzahlen oder Telefonnummern, bei letzteren schlägt er dem Anwender außerdem die einheitliche Formatierung vor. Der Data Quality Advisor zeigt nach den Worten von Niels Weigel besonders deutlich das Zusammenwirken von SAP Data Services und SAP Information Steward: „Der Advisor zeigt dem Fachanwender auf Ebene des SAP Information Steward Probleme und Lösungsstrategien auf, die Verarbeitung der Informationen läuft im Hintergrund über SAP Data Services.“

Daten aus Facebook und Twitter analysieren

Wer Daten aus unterschiedlichen externen Quellen wie etwa sozialen Netzwerken analysieren will, für den hat SAP die Version 4.2 von SAP Data Services um eine offene Schnittstelle ergänzt, an der Unternehmen ihre selbst entwickelten Konnektoren andocken können – etwa zu NoSQL-Datenbanken oder Kurznachrichtendiensten. „Das Big Data Adapter SDK ermöglicht Kunden oder Partnern, eigene speziellen Konnektoren zu einzelnen Diensten wie Facebook oder Twitter nach Bedarf zu ergänzen“, sagt Niels Weigel.

Lesen Sie auf der nächsten Seite: Warum SAP Data Services und SAP Information Steward Business und IT verbinden

Aus Sicht von Niels Weigel bringen SAP Data Services und SAP Information Steward „IT-Experten und Business User näher zusammen“. Beim Bereinigen beispielsweise von Produktbeschreibungen könne der Anwender aus dem Fachbereich Regeln festlegen – etwa welches einheitliche Format in einer Auflistung von Druckern verschiedener Fabrikate der Herstellername haben soll –, ein IT-Kollege könne diese Regeln mit dem erstellten Cleansing Package, das das fachliche Know-How des Business Users enthält, anschließend so umsetzen, dass die Produktbeschreibungen automatisch strukturiert werden. Weigel: „So etwas macht die Zusammenarbeit von Teams viel einfacher.“

Kommentare

You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>