Dialogbasierte Benutzungsschnittstelle für interaktive Datenanalyse in natürlicher Sprache

Autor
M. Straßer
Masterarbeit
MT1902 (Mai, 2019)
Betreut von
o. Univ.-Prof. Dr. Michael Schrefl
Angeleitet von
Ass.-Prof. Dr. Christoph Schütz
Ausgeführt an
Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen
Kopie

Kurzfassung (Deutsch)

Der Zweck der Datenanalyse besteht darin, neue Informationen aus bestehenden Daten zu extrahieren. Benutzer von Datenanalyse-Anwendungen stellen normalerweise nicht eine einzige, perfekte Anfrage. Stattdessen ist Datenanalyse typischerweise ein iterativer Prozess, bei dem ein Benutzer eine Abfrage ausführt, ein Ergebnis erhält und darauf basierend wiederum eine neue Abfrage ausführt.

Anwender in Fachabteilungen verfügen grundsätzlich nicht unbedingt über Programmierkenntnisse bzw. Kenntnisse einer formalen Abfragesprache. Natural Language Interfaces to Databases sollen dabei Abhilfe schaffen. In diesem Zusammenhang sieht das Guided-Interaction-Paradigma vor, dass Benutzer bei der Erstellung von Abfragen angeleitet werden, indem mögliche Werte übersichtlich präsentiert werden und schrittweise eine Abfrage erstellt wird.

Im Sinne des Guided-Interaction-Paradigmas präsentiert die vorliegende Arbeit ein dialogbasiertes Natural Languge Interface für die interaktive Datenanalyse. Dabei wird ein wissensbasierter Ansatz gewählt, da reine Machine-Learning-Ansätze in diesem Fall ungeeignet sind. Als Basis für die Abfrageerstellung dienen dabei Analysegraphen und Analysesituationen sowie eine maschinenlesbare Definition des verwendeten konzeptuellen multidimensionalen Modells.

Der Benutzer kann dabei zunächst eine multidimensionale Abfrage als natürlichen Text formulieren. Das System versucht daraus mittels Constraint Satisfaction und heuristischen Regeln, auf Basis von lexikalischer und semantischer Ähnlichkeit, eine Analysesituation zu erstellen. Mittels Navigationsoperatoren kann die Analysesituation verfeinert werden. Es war dabei kein Ziel ein universelles NLIDB-System zu entwickeln.

Kurzfassung (Englisch)

The purpose of data analysis is to extract new information from existing data. Users of data analysis applications usually do not make a single, perfect request. Instead, data analysis is typically an iterative process in which a user executes a query, obtains a result, and then performs a new query based on it.

In general, users in departments do not necessarily have programming skills or knowledge of a formal query language. Natural Language Interfaces to Databases serve to overcome this problem. In this context, the guided interaction paradigm guides users through the process of query formulation by presenting possible values in a concise manner and by allowing users to formulate a query step by step.

Following the guided interaction paradigm, this work presents a dialog-based natural languge interface for interactive data analysis. A knowledge-based approach is chosen because pure machine-learning approaches are unsuitable in this case. The basis for query generation are analysis graphs and analysis situations as well as a machine-readable definition of the conceptual multidimensional model. The user can first formulate a multidimensional query as natural language text. The system then tries to create an analysis situation using constraint satisfaction and heuristic rules, based on lexical and semantic similarity. By using navigation operators, the analysis situation can be refined. The development of a universal NLIDB system was not a goal of this thesis.