Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: https://doi.org/10.48548/pubdata-681
RessourcentypDissertation
TitelComputing Efficient Data Summaries
Weitere(r) TitelBerechnung effizienter Datenzusammenfassungen
DOI10.48548/pubdata-681
Handle20.500.14123/718
Autor*inMair, Sebastian  0000-0003-2949-8781  1263812422
Gutachter*inBrefeld, Ulf  0000-0001-9600-6463  135704669
Günnemann, Stephan  0000-0001-7772-5059  1023792702
Hauberg, Søren  0000-0001-7223-877X
Betreuer*inBrefeld, Ulf  0000-0001-9600-6463  135704669
AbstractExtracting meaningful representations of data is a fundamental problem in machine learning. Those representations can be viewed from two different perspectives. First, there is the representation of data in terms of the number of data points. Representative subsets that compactly summarize the data without superfluous redundancies help to reduce the data size. Those subsets allow for scaling existing learning algorithms up without approximating their solution. Second, there is the representation of every individual data point in terms of its dimensions. Often, not all dimensions carry meaningful information for the learning task, or the information is implicitly embedded in a low-dimensional subspace. A change of representation can also simplify important learning tasks such as density estimation and data generation. This thesis deals with the aforementioned views on data representation and contributes to them. The authors first focus on computing representative subsets for a matrix factorization technique called archetypal analysis and the setting of optimal experimental design. For these problems, they motivate and investigate the usability of the data boundary as a representative subset. The authors also present novel methods to efficiently compute the data boundary, even in kernel-induced feature spaces. Based on the coreset principle, they derive another representative subset for archetypal analysis, which provides additional theoretical guarantees on the approximation error. Empirical results confirm that all compact representations of data derived in this thesis perform significantly better than uniform subsets of data. In the second part of the thesis, the research group is concerned with efficient data representations for density estimation. The researchers analyze spatio-temporal problems, which arise, for example, in sports analytics, and demonstrate how to learn (contextual) probabilistic movement models of objects using trajectory data. Furthermore, they highlight issues of interpolating data in normalizing flows, a technique that changes the representation of data to follow a specific distribution. The authors show how to solve this issue and obtain more natural transitions on the example of image data.

Das Extrahieren sinnvoller Repräsentationen von Daten ist ein grundlegendes Problem im maschinellen Lernen. Diese Repräsentationen können aus zwei verschiedenen Perspektiven betrachtet werden. Zum einen gibt es die Repräsentation von Daten in Bezug auf die Anzahl der Datenpunkte. Repräsentative Teilmengen helfen große Datenbestände kompakt zusammenzufassen. Dazu werden beispielsweise überflüssige Redundanzen weggelassen. Diese Teilmengen erlauben es, bestehende Lernalgorithmen hochzuskalieren, ohne deren Lösung zu approximieren. Zum anderen gibt es die Repräsentation jedes einzelnen Datenpunktes in Bezug auf seine Dimensionen. Oft tragen nicht alle Dimensionen sinnvolle Informationen, oder Informationen sind implizit in einem niedrigdimensionalen Unterraum eingebettet. Ein Wechsel der Repräsentation kann auch wichtige Verfahren wie die Dichteschätzung und die Datengenerierung vereinfachen. Diese Arbeit beschäftigt sich mit den oben genannten Perspektiven zur Datenrepräsentation und leistet einen Beitrag dazu. Die Forscher konzentrieren sich zunächst auf die Berechnung repräsentativer Teilmengen für die Archetypenanalyse und auf das Setting der optimalen Versuchsplanung. Für diese Probleme motivieren und untersuchen sie die Brauchbarkeit der Punkte am Rand der Daten repräsentative Teilmenge. Außerdem stellen sie neuartige Methoden zur effizienten Berechnung dieser Randpunkte vor. Basierend auf dem Coreset-Prinzip leiten die Autoren eine weitere repräsentative Teilmenge für die Archetypenanalyse her, welche zusätzliche theoretische Garantien bietet. Empirische Ergebnisse bestätigen, dass alle kompakten Repräsentationen von Daten, die in dieser Arbeit vorgestellt werden, deutlich besser abschneiden als zufällige Untermengen. Im zweiten Teil der Arbeit beschäftigen sich die Autoren mit effizienten Datenrepräsentationen für die Dichteschätzung. Sie analysieren raum-zeitliche Probleme, die z.B. in der Sportanalytik auftreten, und zeigen, wie man (kontextuelle) probabilistische Bewegungsmodelle von Objekten anhand von Trajektoriendaten lernt. Darüber hinaus untersuchen die Forscher Probleme der Interpolation von Daten bei Normalizing Flows, einem Verfahren, das die Darstellung von Daten so verändert, dass sie einer vorgegebenen Wahrscheinlichkeitsverteilung folgen. Am Beispiel von Bilddaten wird gezeigt, wie man dieses Problem löst und natürlichere Interpolationsübergänge erhält.
SpracheEnglisch
Datum der Disputation2021-09-24
Jahr der Veröffentlichung in PubData2022
Art der VeröffentlichungErstveröffentlichung
Datum der Erstveröffentlichung2022-07-28
EntstehungskontextForschung
AnmerkungenDas Rahmenpapier der kumulativen Dissertation enthält sechs Fachartikel.
Grad-verleihende InstitutionLeuphana Universität Lüneburg
Veröffentlicht durchMedien- und Informationszentrum, Leuphana Universität Lüneburg
Dateien zu dieser Ressource:
Datei GrößeFormat 

Dissertation_2021_Mair_S_Computing.pdf
MD5: a217f26d109205b64075034d6dc149cb
Lizenz:  Nutzung nach Urheberrecht
open-access

12.62 MB

Adobe PDF
Öffnen/Anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt, soweit nicht anderweitig angezeigt.

Ansichten
Zitationsformate
Datensatz Exporte
Zugriffsstatistik

Seitenaufruf(e): 144

Download(s): 43