Partitionierung zur effizienten Duplikaterkennung in relationalen Daten / von Uwe Draisbach
Resource type: Ressourcentyp: Buch (Online)Book (Online)Language: German Series: SpringerLink BücherPublisher: Wiesbaden : Vieweg+Teubner Verlag, 2012Description: Online-Ressource (XIV, 91S. 28 Abb., 6 Abb. in Farbe, digital)ISBN:- 9783834882899
- 004
- 005.74
- 500
- QA76.9.D3
Contents:
Summary: Duplikaterkennung -- Blocking-Verfahren -- Windowing-Verfahren -- Vergleich Blocking- und Sorted-Neighborhood-Methode -- Verallgemeinertes Verfahren.Summary: Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne Computer eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern. Die Arbeit wurde mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.PPN: PPN: 1651392013Package identifier: Produktsigel: ZDB-2-SEB | ZDB-2-STI
Geleitwort; Vorwort; Inhaltsverzeichnis; Abbildungsverzeichnis; Tabellenverzeichnis; 1 Gegenstand der Arbeit; 1.1 Thematischer Überblick; 1.2 Aufbau der Arbeit; 2 Duplikaterkennung; 2.1 Einleitung; 2.2 Entstehung und Auswirkungen von Duplikaten; 2.3 Ablauf der Duplikaterkennung; 2.4 Ähnlichkeitsmessung; 2.5 Beurteilung der Qualität der Duplikaterkennung; 2.6 Zusammenfassung; 3 Blocking-Verfahren; 4 Windowing-Verfahren; 4.1 Sorted-Neighborhood-Methode; 4.2 Multi-Pass Sorted-Neighborhood; 4.3 Union-/Find-Methode; 4.4 Inkrementelle Duplikaterkennung
5 Vergleich Blockingund Sorted-Neighborhood-Methode5.1 Theoretischer Vergleich; 5.2 Praktischer Vergleich; 5.3 Zusammenfassung für die Entwicklung eines verallgemeinerten Verfahrens; 6 Verallgemeinertes Verfahren; 6.1 Untersuchung der optimalen Partitionsüberschneidung; 6.2 Beschreibung des Algorithmus; 6.3 Analyse des Algorithmus; 6.4 Bewertung des verallgemeinerten Verfahrens; 7 Zusammenfassung; Anhang; Vollständige Attributliste der Testdatensätze; Literaturverzeichnis;
No physical items for this record