PubData Leuphana Repository: Computing Efficient Data Summaries

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: https://doi.org/10.48548/pubdata-681

Ressourcentyp	Dissertation
Titel	Computing Efficient Data Summaries
Weitere(r) Titel	Berechnung effizienter Datenzusammenfassungen
DOI	10.48548/pubdata-681
Handle	20.500.14123/718
Autor*in	Mair, Sebastian 0000-0003-2949-8781 1263812422
Gutachter*in	Brefeld, Ulf 0000-0001-9600-6463 135704669 Günnemann, Stephan 0000-0001-7772-5059 1023792702 Hauberg, Søren 0000-0001-7223-877X
Betreuer*in	Brefeld, Ulf 0000-0001-9600-6463 135704669
Abstract	Extracting meaningful representations of data is a fundamental problem in machine learning. Those representations can be viewed from two different perspectives. First, there is the representation of data in terms of the number of data points. Representative subsets that compactly summarize the data without superfluous redundancies help to reduce the data size. Those subsets allow for scaling existing learning algorithms up without approximating their solution. Second, there is the representation of every individual data point in terms of its dimensions. Often, not all dimensions carry meaningful information for the learning task, or the information is implicitly embedded in a low-dimensional subspace. A change of representation can also simplify important learning tasks such as density estimation and data generation. This thesis deals with the aforementioned views on data representation and contributes to them. The authors first focus on computing representative subsets for a matrix factorization technique called archetypal analysis and the setting of optimal experimental design. For these problems, they motivate and investigate the usability of the data boundary as a representative subset. The authors also present novel methods to efficiently compute the data boundary, even in kernel-induced feature spaces. Based on the coreset principle, they derive another representative subset for archetypal analysis, which provides additional theoretical guarantees on the approximation error. Empirical results confirm that all compact representations of data derived in this thesis perform significantly better than uniform subsets of data. In the second part of the thesis, the research group is concerned with efficient data representations for density estimation. The researchers analyze spatio-temporal problems, which arise, for example, in sports analytics, and demonstrate how to learn (contextual) probabilistic movement models of objects using trajectory data. Furthermore, they highlight issues of interpolating data in normalizing flows, a technique that changes the representation of data to follow a specific distribution. The authors show how to solve this issue and obtain more natural transitions on the example of image data. Das Extrahieren sinnvoller Repräsentationen von Daten ist ein grundlegendes Problem im maschinellen Lernen. Diese Repräsentationen können aus zwei verschiedenen Perspektiven betrachtet werden. Zum einen gibt es die Repräsentation von Daten in Bezug auf die Anzahl der Datenpunkte. Repräsentative Teilmengen helfen große Datenbestände kompakt zusammenzufassen. Dazu werden beispielsweise überflüssige Redundanzen weggelassen. Diese Teilmengen erlauben es, bestehende Lernalgorithmen hochzuskalieren, ohne deren Lösung zu approximieren. Zum anderen gibt es die Repräsentation jedes einzelnen Datenpunktes in Bezug auf seine Dimensionen. Oft tragen nicht alle Dimensionen sinnvolle Informationen, oder Informationen sind implizit in einem niedrigdimensionalen Unterraum eingebettet. Ein Wechsel der Repräsentation kann auch wichtige Verfahren wie die Dichteschätzung und die Datengenerierung vereinfachen. Diese Arbeit beschäftigt sich mit den oben genannten Perspektiven zur Datenrepräsentation und leistet einen Beitrag dazu. Die Forscher konzentrieren sich zunächst auf die Berechnung repräsentativer Teilmengen für die Archetypenanalyse und auf das Setting der optimalen Versuchsplanung. Für diese Probleme motivieren und untersuchen sie die Brauchbarkeit der Punkte am Rand der Daten repräsentative Teilmenge. Außerdem stellen sie neuartige Methoden zur effizienten Berechnung dieser Randpunkte vor. Basierend auf dem Coreset-Prinzip leiten die Autoren eine weitere repräsentative Teilmenge für die Archetypenanalyse her, welche zusätzliche theoretische Garantien bietet. Empirische Ergebnisse bestätigen, dass alle kompakten Repräsentationen von Daten, die in dieser Arbeit vorgestellt werden, deutlich besser abschneiden als zufällige Untermengen. Im zweiten Teil der Arbeit beschäftigen sich die Autoren mit effizienten Datenrepräsentationen für die Dichteschätzung. Sie analysieren raum-zeitliche Probleme, die z.B. in der Sportanalytik auftreten, und zeigen, wie man (kontextuelle) probabilistische Bewegungsmodelle von Objekten anhand von Trajektoriendaten lernt. Darüber hinaus untersuchen die Forscher Probleme der Interpolation von Daten bei Normalizing Flows, einem Verfahren, das die Darstellung von Daten so verändert, dass sie einer vorgegebenen Wahrscheinlichkeitsverteilung folgen. Am Beispiel von Bilddaten wird gezeigt, wie man dieses Problem löst und natürlichere Interpolationsübergänge erhält.
Sprache	Englisch
Datum der Disputation	2021-09-24
Jahr der Veröffentlichung in PubData	2022
Art der Veröffentlichung	Erstveröffentlichung
Datum der Erstveröffentlichung	2022-07-28
Entstehungskontext	Forschung
Anmerkungen	Das Rahmenpapier der kumulativen Dissertation enthält sechs Fachartikel.
Grad-verleihende Institution	Leuphana Universität Lüneburg
Veröffentlicht durch	Medien- und Informationszentrum, Leuphana Universität Lüneburg

Dateien zu dieser Ressource:

Datei	Größe	Format
Dissertation_2021_Mair_S_Computing.pdf MD5: a217f26d109205b64075034d6dc149cb Lizenz: Nutzung nach Urheberrecht open-access	12.62 MB	Adobe PDF	Öffnen/Anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt, soweit nicht anderweitig angezeigt.

Ansichten

Zur Langanzeige

Zitationsformate

BibTeX
RIS

Datensatz Exporte

Zugriffsstatistik

Seitenaufruf(e): 144

Download(s): 43

Suche über Datenbestand