EMAD - EM Clustering mit aggregierten Daten

Author: J. Messerklinger
Master Thesis: MT0602 (September, 2006)
Supervised by: o. Univ.-Prof. Dr. Michael Schrefl
Instructed by: Dr. Mathias Goller
Accomplished at: University Linz, Institute of Business Informatics - Data & Knowledge Engineering
Resources: Copy

Abstract (English)

Clustering is a data mining task that is computationally intensive and shows an increasing runtime in large databases, so that its application in the process of Knowledge Discovery in Databases (KDD) can hardly be done efficiently. This work discusses the approach of anticipatory clustering, which reduces this problem by an application-independent preparation of all data via a clustering method. In a second step any data mining method will then use the prepared data for a specific analysis. Because of the generic preparation analyses can be executed repeatedly with modified parameters where the determination of the results is faster than with non aggregated data.

This work introduces the clustering method EMAD (expectation maximization with aggregated data) that is developed for the second step in the anticipatory clustering. For this reason the clustering method expectation maximization has been adjusted to be applicable to aggregated data. Experimental results from EMAD confirm that the algorithm exhibits a good scalability with large databases.

Abstract (German)

Clustering ist eine Data-Mining Aufgabe, die auf Grund der vielen Rechenoperationen bei großen Datenmengen eine lange Laufzeit aufweist, sodass deren Anwendung im Prozess der Knowledge Discovery in Databases (KDD) nur bedingt effizient durchführbar ist. Der in dieser Arbeit angesprochene Ansatz des Vorausschauenden Data-Mining reduziert diese Problematik, indem die gesamten Daten zuerst anwendungsunabhängig mit Hilfe eines Clustering-Verfahrens aufbereitet werden. In einem zweiten Schritt verwendet ein beliebiges Data-Mining Verfahren die aufbereiteten Daten, um die konkrete Analyse durchzuführen. Auf Grund der Aufbereitung können mehrmals Analysen mit veränderten Parametern ausgeführt werden, wobei die Bestimmung der Endergebnisse schneller als mit nicht aggregierten Daten erfolgt.

Diese Arbeit stellt das Clustering-Verfahren EMAD (Erwartungsmaximierung mit aggregierten Daten) vor, dass für den zweiten Schritt des Vorausschauenden Data-Mining entwickelt wurde. Das Clustering-Verfahren Erwartungsmaximierung ist dabei für die Verwendung von aggregierten Daten angepasst worden. Untersuchungen von EMAD zeigten, dass dieses Verfahren bei großen Datenmengen eine gute Skalierbarkeit aufweist.