/n Software Christmas Promo

22. December 2011

Die Firma /n Software hat pünktlich zu Weihnachten ein kleine Promoaktion gestartet.

Unter http://www.nsoftware.com/promo/xmas/ kann man sich bis zum 31.12.2011 eine Single CPU Server License der /n Software SSIS Tasks sichern, für mehr Kerne gibt es in diesem Zeitraum 50% Rabatt. In der Suite von /n Software sind unter anderem Tasks für FTP, SFTP, SNPP, XMPP, S3, ZIP und GZIP enthalten.

 

 

Da bleibt mir nur noch zu sagen: Frohe Weihnachten!

Bookmark and Share

Freie Komponenten, Kommerzielle Komponenten , , , ,

Data Profiling - Teil 4 – Monitoring und Alerts

9. November 2011

Im Rahmen des Data Quality Lifecycles den wir mit unseren “Data Quality Components for SQL Server Integration Services” unterstützen, adressieren wir mit dem datenfabrik.profiler die beiden Zyklen Profiling und Monitoring.

Welchen Funktionsumfang wir für den Zyklus Profiling bieten, habe ich zum Teil in dem Data Profiling – Teil 3 aufgezeigt. Den Monitoring Zyklus unterstützen wir mit einigen weiteren Funktionen.

 

 

image

 

Statistics Save Mode

 

Im Repository können die Daten des Profiling historisiert gespeichert werden, wodurch die Qualität der geladenen Daten durchgehend überprüft werden kann. Hierfür bietet der datenfabrik.profiler zwei unterschiedliche Speicher-Modi an. Die jeweils mit dem SSIS Paket geladenen und verarbeiteten Daten können bei jeder Ausfürhung vollständig gespeichert werden (Version Control) oder die Daten werden über den den Speicher-Modus “Update existing statistics” mit den jeweils neuen Ergebnisse aktualisiert. Dieser Speichermodus eignet sich insbesondere für inkrementelle Ladeprozesse, bei denen man nicht die einzelnen Ausführungen dediziert überwachen möchte, sondern eine Analyse über die gesamten Informationen zu dem jeweiligen Zeitpunkt eines Ladeprozess benötigt.

Sämtliche Ergebnisse werden im Repository gespeichert und können nachträglich immer wieder analysiert werden. Hierdurch können auch Trends innerhalb der Daten erfasst werden.

Ein dritter existierender Speichermodus “Overwrite existing statistics” speichert die Daten nicht historisiert, sondern jeweils nur die letzte Ausführung.

SNAGHTML2a8c3957

 

 

Alerts


Eine weitere Funktion die das Monitoring innerhalb des datenfabrik.profiler unterstützt, sind die sogenannten Alerts. Über diese Alerts können die Ergebnisse einzelner Regeln auf Spaltenebene überwacht werden. Wenn das Ergebnis im Rahmen eines Alerts über- oder unterschritten wird und nicht gleich dem voreingestellten Wert ist, so wird ein Alarm erzeugt. Die zu prüfenden Werte können dabei absolut oder prozentual sein.

Es werden derzeit insgesamt 3 Alert Types unterstützt (Management Log, Email und SSIS Compopnent) und drei verschiedene Satus (Information, Warning, Error).

 

SNAGHTML2aae0dc5     SNAGHTML2ac078e7


Wird ein Staus an die SSIS Komponente weitergereicht, so erscheint das Ergebnis im Status Log innerhalb der Paketausführung, im Falle eines Errors wird das Paket dadurch auch abgebrochen. Mit Hilfe der Alerts können die zu ladenden Daten also sehr detailliert überwacht werden und im Zweifelsfall kann sogar der Import oder die Weiterverarbeitung der Daten gestoppt werden.

Bookmark and Share

Data Quality, Kommerzielle Komponenten , , ,

Data Profiling - Teil 3 – Regeln im datenfabrik.profiler

7. November 2011

Was der Sinn hinter einam Data Profiling ist und wie es helfen kann u.a. Datenintegrationsprojkete besser zu steuern, habe ich kurz im ersten Teil dieser Serie geschrieben. Regeln sind dabei ein Kernstück eines jeden Data Profilers; hierüber werden Statistiken für die zu analysierenden Spalten vorgenommen.
Mit verschiedensten Regeln soll unter anderem folgende Probleme/Fragen erkannt werden:

  • Passt der Inhalt einer Spalte zu ihrem Bezeichner?
  • Welche Datentypen werden verwendet?
  • Wie lang sind die Inhalte einer Spalte?
  • Existieren Fehler wie ungültige Datumsangaben (31.02) in der Quelldatenbank?
  • Werden Standardwerte in der Quelldatenbank verwendet?
        Z.B. ein außergewöhnlich häufiges vorkommen des Datums 01.01.1950?
  • Entsprechen Werte einem definierten Muster?
  • Kann ich Muster aus Werten ableiten?
  • Werden eindeutige Referenzierungen verwendet?
  • Sind 15 verschiedene Anreden richtig?
  • ...

 

Der datenfabrik.profiler ist mit einer Vielzahl von Regeln ausgestattet um auf genau solche Fragen einzugehen. Dabei werden sowohl die standard Regeln die in einem Profiling benötigt werden verwendet, wie auch einige erweiterte Regeln. Im Folgenden ist eine kleiner Teil der enthaltenen Regeln näher erklärt.

 

Dictionary_24 Dictionary


Die Regel Dictionary prüft Daten innerhalb des Datenflusses gegen ein zuvor definiertes Wörterbuch, ähnlich dem Lookup Task innerhalb der Integration Services. Die Regel prüft die zu analysierenden Daten gegen ein frei definierbares Dictionary und erstellt Statistiken zu den entsprechenden Treffern und den nicht getroffenen Datensätzen.

 

Key candidate_24

 Key Candidate Profile


Nicht immer ist es ersichtlich, welche Spalten innerhalb der analysierten Daten Schlüsselwerte aufweisen oder ob sichergestellt werden kann, ob eine Spalte wirklich eindeutige Werte enthält. Mit der Regeln Key Candidate Profile können detaillierte Informationen darüber gewonnen werden, welche Spalten wirklich eindeutige Werte enthalten und sich entweder für entsprechende Key eignen oder ggf. Fehler – also doppelte Werte – enthalten.

 

Length Distribution_24  Length Distribution


Einen Überblick über die genaue Länge der enthaltenen Werte einer Spalte zu erhalten, kann ich vielen Situationen sehr relevant sein. Kundennummern oder Artikelnummern müssen häufig über eine identische Länge verfügen aber auch zu kurze oder zu lange Werte können einen Hinweis auf fehlerhafte Daten liefern. In dem Blog Eintrag Rufnummern mit Referenzdaten sauber trennen habe ich z.B. auf die von der ITU vorgeschriebene Länge von Rufnummern hingewiesen.

 

PatternAnalysis_24

 Pattern Analysis


Muster innerhalb spezieller Spalten zu erkennen kann sehr relevant für die Bereinigung von Daten sein. Die Regel Pattern Analysis erstellt Muster für eine zu analysierende Spalte und gibt eine Verteilung der Daten zu den jeweiligen Mustern aus. Dabei repräsentieren spezielle Buchstaben die einzelnen Zeichen innerhalb der zu analysierenden Daten. So wird z.B. eine deutsche Postleitzahlen über das Muster ddddd repräsentiert (d = Decimal), die fiktive Artikelnummer A765B über das Muster UdddU (U = Upper Case).

 

Column Value_24

  Column Values

 
Über die Regeln Column Values kann allgemein analysiert werden, welche Werte in einer Spalte existieren. Dies kann z.B. verwendet werden, um in Spalten wie der Anrede eines Kunden oder der Größe eines Produktes einen Überblick über die verwendeten Werte zu erhalten.

 

Regular Expression_24 Regular Expressions


Während die Regel Pattern Analysis einen Überblick über die Muster innerhalb einer Spalte gibt, kann mit der Regel Regular Expression ein bereits bekanntes, sehr detailliertes Muster überprüft werden. So kann z.B. mit einem regulären Ausdruck geprüft werden, wie viele Email-Adressen innerhalb einer Spalte gültig sind und wie viele Adressen ungültig.
Die Regel kann vom Benutzer um eigene reguläre Ausdrücke erweitert werden, so dass auch eigene Muster für Kundennummer, Artikelnummern usw. analysiert werden können.

 

Doublemetaphone_24

 Doublemetaphone Frequency Table


Die Regel Doublemetaphone Frequency Table ist eine Erweiterung der Regel Column Values. Während bei der Regel Column Values nur wirklich eindeutige Werte zusammengefasst werden, wird mit der Regel Doublemetaphone Frequency Table eine Verteilung der Werte erstellt, die den gleichen Phonetischen Code nach dem Algorithmus Doublemetaphone aufweisen.

 

chart_gantt_24  Value Range

 
Häufig ist es relevant zu prüfen, ob sich die Werte einer Spalte innerhalb fest definierbarer Bereiche befinden. Mit der Regel Value Range wird die Verteilung von Werten auf vorher definierte Wertebereiche analysiert. Mit dieser Regeln können schnell Ausreißer innerhalb von Daten entdeckt werden.

 

SpellChecker_24  Spell Checker


Während die Regel Doublemetaphone Erkenntnisse darüber bringt welche Werte ähnlich geschrieben sind, kann mit der Regel Spell Checker genau geprüft werden, ob sich Rechtschreibfehler innerhalb einzelner Spalten befinden. Dies kann zum Beispiel dazu genutzt werden um Produktbeschreibungen zu prüfen. Die Regel verwendet die unter der LGPL stehende Software-Bibliothek NHunspell und kann damit auf eine Vielzahl von bereits bestehenden Wörterbüchern in den unterschiedlichsten Sprachen zugreifen.

 

Die von mir ausgewählten Regeln sollen lediglich einen Überblick über Regeln innerhalb des datenfabrik.profilers geben, die so nicht unbedingt in anderen auf dem markt bestehenden profilern existieren. Der gesamte Funktionsumfang der Regeln ist auf der Produktseite zu finden.

Bookmark and Share

Data Quality, Kommerzielle Komponenten , , ,