Please use this identifier to cite or link to this item: https://doi.org/10.48548/pubdata-681
Resource typeDissertation
Title(s)Computing Efficient Data Summaries
Alternative title(s)Berechnung effizienter Datenzusammenfassungen
DOI10.48548/pubdata-681
Handle20.500.14123/718
CreatorMair, Sebastian  0000-0003-2949-8781  1263812422
RefereeBrefeld, Ulf  0000-0001-9600-6463  135704669
Günnemann, Stephan  0000-0001-7772-5059  1023792702
Hauberg, Søren  0000-0001-7223-877X
AdvisorBrefeld, Ulf  0000-0001-9600-6463  135704669
AbstractExtracting meaningful representations of data is a fundamental problem in machine learning. Those representations can be viewed from two different perspectives. First, there is the representation of data in terms of the number of data points. Representative subsets that compactly summarize the data without superfluous redundancies help to reduce the data size. Those subsets allow for scaling existing learning algorithms up without approximating their solution. Second, there is the representation of every individual data point in terms of its dimensions. Often, not all dimensions carry meaningful information for the learning task, or the information is implicitly embedded in a low-dimensional subspace. A change of representation can also simplify important learning tasks such as density estimation and data generation. This thesis deals with the aforementioned views on data representation and contributes to them. The authors first focus on computing representative subsets for a matrix factorization technique called archetypal analysis and the setting of optimal experimental design. For these problems, they motivate and investigate the usability of the data boundary as a representative subset. The authors also present novel methods to efficiently compute the data boundary, even in kernel-induced feature spaces. Based on the coreset principle, they derive another representative subset for archetypal analysis, which provides additional theoretical guarantees on the approximation error. Empirical results confirm that all compact representations of data derived in this thesis perform significantly better than uniform subsets of data. In the second part of the thesis, the research group is concerned with efficient data representations for density estimation. The researchers analyze spatio-temporal problems, which arise, for example, in sports analytics, and demonstrate how to learn (contextual) probabilistic movement models of objects using trajectory data. Furthermore, they highlight issues of interpolating data in normalizing flows, a technique that changes the representation of data to follow a specific distribution. The authors show how to solve this issue and obtain more natural transitions on the example of image data.

Das Extrahieren sinnvoller Repräsentationen von Daten ist ein grundlegendes Problem im maschinellen Lernen. Diese Repräsentationen können aus zwei verschiedenen Perspektiven betrachtet werden. Zum einen gibt es die Repräsentation von Daten in Bezug auf die Anzahl der Datenpunkte. Repräsentative Teilmengen helfen große Datenbestände kompakt zusammenzufassen. Dazu werden beispielsweise überflüssige Redundanzen weggelassen. Diese Teilmengen erlauben es, bestehende Lernalgorithmen hochzuskalieren, ohne deren Lösung zu approximieren. Zum anderen gibt es die Repräsentation jedes einzelnen Datenpunktes in Bezug auf seine Dimensionen. Oft tragen nicht alle Dimensionen sinnvolle Informationen, oder Informationen sind implizit in einem niedrigdimensionalen Unterraum eingebettet. Ein Wechsel der Repräsentation kann auch wichtige Verfahren wie die Dichteschätzung und die Datengenerierung vereinfachen. Diese Arbeit beschäftigt sich mit den oben genannten Perspektiven zur Datenrepräsentation und leistet einen Beitrag dazu. Die Forscher konzentrieren sich zunächst auf die Berechnung repräsentativer Teilmengen für die Archetypenanalyse und auf das Setting der optimalen Versuchsplanung. Für diese Probleme motivieren und untersuchen sie die Brauchbarkeit der Punkte am Rand der Daten repräsentative Teilmenge. Außerdem stellen sie neuartige Methoden zur effizienten Berechnung dieser Randpunkte vor. Basierend auf dem Coreset-Prinzip leiten die Autoren eine weitere repräsentative Teilmenge für die Archetypenanalyse her, welche zusätzliche theoretische Garantien bietet. Empirische Ergebnisse bestätigen, dass alle kompakten Repräsentationen von Daten, die in dieser Arbeit vorgestellt werden, deutlich besser abschneiden als zufällige Untermengen. Im zweiten Teil der Arbeit beschäftigen sich die Autoren mit effizienten Datenrepräsentationen für die Dichteschätzung. Sie analysieren raum-zeitliche Probleme, die z.B. in der Sportanalytik auftreten, und zeigen, wie man (kontextuelle) probabilistische Bewegungsmodelle von Objekten anhand von Trajektoriendaten lernt. Darüber hinaus untersuchen die Forscher Probleme der Interpolation von Daten bei Normalizing Flows, einem Verfahren, das die Darstellung von Daten so verändert, dass sie einer vorgegebenen Wahrscheinlichkeitsverteilung folgen. Am Beispiel von Bilddaten wird gezeigt, wie man dieses Problem löst und natürlichere Interpolationsübergänge erhält.
LanguageEnglish
Date of defense2021-09-24
Year of publication in PubData2022
Publishing typeFirst publication
Date issued2022-07-28
Creation contextResearch
NotesDas Rahmenpapier der kumulativen Dissertation enthält sechs Fachartikel.
Granting InstitutionLeuphana Universität Lüneburg
Published byMedien- und Informationszentrum, Leuphana Universität Lüneburg
Files in This Item:
File SizeFormat 

Dissertation_2021_Mair_S_Computing.pdf
MD5: a217f26d109205b64075034d6dc149cb
License:  Nutzung nach Urheberrecht
open-access

12.62 MB

Adobe PDF
View/Open

Items in PubData are protected by copyright, with all rights reserved, unless otherwise indicated.

Citation formats
Access statistics

Page view(s): 13

Download(s): 12