Mit Access Daten-Duplikate aufspürenIch lese Daten über einen Scanner ein und importiere die Informationen in eine Access-Datenbank. Nun möchte ich die importierten Daten mit den bereits in der Datenbank enthaltenen Daten vergleichen, um mög- liche Duplikate zu erkennen. Leider stimmen die Feldinhalte der importierten Daten nicht ganz mit den Feldern aus der Tabelle überein, etwa: „Fritz Müller Weißenbach 13“ und „Fritz Müller“, „Weißenbach 13“. Wie kann ich trotzdem vergleichen? Duplikate stellen selbst Datenbank-Profis nicht selten vor Probleme. Am einfachsten sind Duplikate aufzuspüren, wenn die Felder für den Vergleich identische Inhalte aufweisen. Das könnten Sie auch beim Scannen erreichen, indem Sie überflüssige Informationen für das Feld mit einem weißen Blatt Papier abdecken oder später beim Prozeß der Schrifterkennung (OCR) unberücksichtigt lassen. So ließe sich auch beim Scannen nach und nach die gleiche Struktur der Daten wie in der vorhandenen Datenbank nachbilden. SELECT Importiertes.Sammelsurium, Name.Name, Name.Schlüssel INTO ZieltabelleDer Select-Teil benennt die Felder, die in die Zieltabelle abzubilden sind, und der From-Teil benennt die Quelltabellen. Der Vergleich geschieht dann im Where-Teil der Abfrage. Die Where-Klausel vergleicht den Namen eines bereits existierenden Datensatzes Name mit dem linken Rand des importierten Datensatzes Sammelsurium. Die Länge des zu vergleichenden Namens Len(Name) bestimmt dabei die Breite dieses linken Randes beim Vergleich. Die Funktion Trim() erhöht die Genauigkeit des Vergleichs, indem sie automatisch alle Leerzeichen entfernt. Häufig erkennt die OCR-Software nach dem Scannen mehrere Leerzeichen zwischen zwei Wörtern. Das liegt meist am gedruckten Blocksatz, der die einzelnen Wörter auseinanderzieht. Auf diese Weise werden Sie zwar schon viele potentiell doppelte Einträge finden, aber mit Sicherheit nicht alle. Die Fälle von Schreibfehlern wie bei „Meyer“ und „Mayer“ oder fehlender Einheitlichkeit wie bei „Ernst-Uwe Winter“ und „Ernst Uwe Winter“ oder „Ernst U. Winter“ entgehen Ihnen immer noch. Um auch diese Duplikate zu finden, benötigen Sie eine detaillierte Kenntnis Ihres Datenbestands und ein darauf abgestimmtes, datenspezifisches Vorgehen. |