Robustness of Centrality Measures

Martin, Christoph

doi:10.48548/pubdata-612

Abstract

Technological development made it possible to store and process data on a scale not imaginable decades ago — a development that also includes network data. A particular characteristic of network data is that, unlike standard data, the objects of interest, called nodes, have relationships to (possibly all) other objects in the network. Collecting empirical data is often complicated and cumbersome, hence, the observed data are typically incomplete and might also contain other types of errors. Because of the interdependent structure of network data, these errors have a severe impact on network analysis methods. This cumulative dissertation is about the impact of erroneous network data on centrality measures, which are methods to assess the position of an object, for example a person, with respect to all other objects in a network. Existing studies have shown that even small errors can substantially alter these positions. The impact of errors on centrality measures is typically quantified using a concept called robustness. The articles included in this dissertation contribute to a better understanding of the robustness of centrality measures in several aspects. It is argued why the robustness needs to be estimated and a new method is proposed. This method allows researchers to estimate the robustness of a centrality measure in a specific network and can be used as a basis for decision making. The relationship between network properties and the robustness of centrality measures is analyzed. Experimental and analytical approaches show that centrality measures are often more robust in networks with a larger average degree. The study of the impact of non-random errors on the robustness suggests that centrality measures are often more robust if missing nodes are more likely to belong to the same community compared to missingness completely at random. For the development of imputation procedures based on machine learning techniques, a process for the evaluation of node embedding methods is proposed.

Die technologische Entwicklung machte es möglich, Daten in einem Umfang zu speichern und zu verarbeiten, der vor Jahrzehnten noch unvorstellbar war — eine Entwicklung, die auch Netzwerkdaten einschließt. Ein besonderes Merkmal von Netzwerkdaten im Gegensatz zu Standarddaten ist, dass die Objekte in einem Netzwerk, Konten genannt, Beziehungen zu (möglicherweise allen) anderen Objekten im Netzwerk haben. Das Sammeln empirischer Daten ist oft kompliziert und umständlich. Daher sind die erhobenen Daten in der Regel unvollständig und können auch andere Arten von Fehlern enthalten. Aufgrund der verflochtenen Struktur der Netzwerkdaten haben diese Fehler schwerwiegende Auswirkungen auf Netzwerkanalysemethoden. In dieser kumulativen Dissertation geht es um den Einfluss fehlerhafter Netzwerkdaten auf Zentralitätsmaße. Letzteres sind Methoden zur Bestimmung der Position eines Objekts, z.B. einer Person, im Hinblick auf alle anderen Objekte in einem Netzwerk. Bestehende Studien haben gezeigt, dass selbst kleine Fehler diese Positionen wesentlich verändern können. Der Einfluss von Fehlern auf Zentralitätsmaße wird üblicherweise mit einem Konzept namens Robustheit quantifiziert. Die in dieser Dissertation enthaltenen Artikel tragen in mehreren Aspekten zu einem besseren Verständnis der Robustheit von Zentralitätsmaßen bei. Es wird argumentiert, warum die Robustheit geschätzt werden muss. Hierzu wird eine neue Methode vorgeschlagen, die es Forschern ermöglicht, die Robustheit eines Zentralitätsmaßes in einem bestimmten Netzwerk abzuschätzen und die als Grundlage für die Entscheidungsfindung verwendet werden kann. Die Beziehung zwischen Netzwerkeigenschaften und der Robustheit von Zentralitätsmaßen wird analysiert. Experimentelle und analytische Ansätze zeigen, dass Zentralitätsmaße in Netzwerken mit einem höheren Durchschnittsgrad oft robuster sind. Die Untersuchung des Einflusses von nicht-zufälligen Fehlern auf die Robustheit legt nahe, dass Zentralitätsmaße oft robuster sind, wenn fehlende Knoten mit zur selben Community gehören. Für die Entwicklung von Imputationsverfahren, die auf Techniken des maschinellen Lernens basieren, wird ein Verfahren zur Evaluierung von Node-Embedding-Verfahren vorgeschlagen.

Robustness of Centrality Measures

Robustheit von Zentralitätsmaßen

Chronological data

Language of the resource

Related external resources

Editor

Author

Referee

Advisor

Case provider

Other contributors

Abstract

Keywords

Grantor

Study programme

Faculty / department

Notes

More information

DDC

Creation Context

Collections