Ist UUID einzigartig? Verstehen, wie und warum es funktioniert

Die Eindeutigkeit von UUIDs: Wie sie funktioniert und ob sie versagen kann

Universally Unique Identifiers (UUIDs) werden häufig in verteilten Systemen, Datenbanken, APIs und Microservices verwendet, um Entitäten ohne zentrale Koordination zu identifizieren. Entwickler verlassen sich auf sie, um Kollisionen zwischen Maschinen, Regionen und sogar Zeiträumen zu vermeiden. Aber garantiert eine UUID in der Praxis wirklich Einzigartigkeit, oder ist diese Annahme übertrieben?

Dieser Artikel enthält eine technische, beispielhafte Erklärung der Funktionsweise von UUIDs, woher ihre Garantien stammen und unter welchen Bedingungen Probleme wie doppelte UUIDs theoretisch auftreten können.

Apr 1, 2025 Zeit zum Lesen : 10 min.

Was macht eine UUID in Theorie und Praxis einzigartig?

Um zu verstehen, ob eine UUID kollidieren kann, müssen wir uns ihre Struktur und ihre Generierungsmechanismen ansehen.

Eine UUID ist ein 128-Bit-Wert. In kanonischer Textform sieht sie wie folgt aus:

550e8400-e29b-41d4-a716-446655440000

Bei 128 Bit beträgt die Gesamtzahl der möglichen Kombinationen:

2^128 ≈ 3,4 × 10^38

Das ist ein astronomisch großer Raum. Selbst wenn man Milliarden von Identifikatoren pro Sekunde über Millionen von Jahren generieren würde, wäre er nicht erschöpft.

Versionen und Entropiequellen

In RFC 4122 (und aktualisierten Entwürfen) sind mehrere UUID-Versionen definiert. Die am häufigsten verwendeten sind:

Version 1 (zeitbasiert) – Verwendet Zeitstempel + MAC-Adresse.
Version 4 (zufallsbasiert) – Verwendet kryptografisch sichere Zufallszahlen.
Version 3 und 5 (namespacebasiert) – Deterministischer Hash aus Namespace + Name.
Version 7 (zeitlich geordnet, moderner Entwurf) – Kombiniert Zeitstempel mit Zufälligkeit für eine bessere Indizierungsleistung.

Jede Version erreicht Einzigartigkeit auf unterschiedliche Weise.:

Version	Quelle der Einzigartigkeit	Kollisionsrisiko	Typischer Anwendungsfall
v1	Zeitstempel + MAC	Sehr niedrig (hardwarebasiert)	Altsysteme
v4	122 Zufallsbits	Extrem niedrig	Verteilte Systeme
v5	SHA-1-Namensraum-Hash	Deterministisch	Stabile namensbasierte IDs
v7	Zeit + Zufall	Extrem niedrig	Datenbanken, geordnete Einfügungen

In praktischen Systemen sind Version 4 und Version 7 am häufigsten anzutreffen.

Garantie der Eindeutigkeit von UUIDs: Was das eigentlich bedeutet

Der Begriff „UUID-Eindeutigkeitsgarantie” wird oft missverstanden. UUIDs garantieren mathematisch gesehen keine absolute Eindeutigkeit. Stattdessen bieten sie eine probabilistische Eindeutigkeit mit einem so enormen Adressraum, dass Kollisionen praktisch vernachlässigbar sind.

Kollisionswahrscheinlichkeit (aus Sicht des Geburtstagsparadoxons)

Für zufällige UUID v4:

122 Bits sind zufällig.
Die Kollisionswahrscheinlichkeit nach der Generierung von 1 Milliarde UUIDs beträgt ungefähr:

~1,47 × 10^-15

Um eine Kollisionswahrscheinlichkeit von 50 % zu erreichen, müssten Sie etwa folgende Menge generieren:

2^61 ≈ 2,3 × 10^18 UUIDs

Dieser Umfang übersteigt die realistischen Systemanforderungen.

Praktisches Beispiel

Stellen Sie sich vor:

1.000 Server
Jeder generiert 10 Millionen UUIDs pro Tag
Über einen Zeitraum von 100 Jahren

Selbst bei dieser Größenordnung bleibt die Kollisionswahrscheinlichkeit vernachlässigbar gering.

Aus diesem Grund setzen Ingenieure UUIDs vertrauensvoll ein in:

Global verteilten Datenbanken
Multi-Region-SaaS-Plattformen
Ereignisgesteuerten Architekturen
Clientseitiger ID-Generierung in Offline-Anwendungen

Warum UUID in verteilten Architekturen einzigartig ist

Die Frage nach der Eindeutigkeit von UUIDs stellt sich häufig im Zusammenhang mit verteilten Systemen, in denen keine zentrale Stelle IDs vergibt.

Herkömmliche Ansätze:

Automatisch inkrementierte Ganzzahlen erfordern eine zentrale Datenbank.
Snowflake-IDs erfordern Koordination oder Zeitstempelverwaltung.

Vorteile von UUIDs:

Keine zentrale Koordination erforderlich.
Sichere Offline-Generierung.
Keine Abhängigkeit von der Uhrensynchronisation (v4).
Praktisch kollisionsresistent im Internetmaßstab.

Beispiel: Microservices-Umgebung

Angenommen, Sie haben:

Benutzerservice in US-Ost
Bestellservice in EU-West
Bestandsdienst in Asien

Jeder Dienst generiert unabhängig voneinander Identifikatoren. Mit UUID v4:

Keine Kommunikation erforderlich.
Keine ID-Registrierung.
Keine Koordinationslatenz.
Keine globale Sperre.

Dies reduziert die Systemkopplung drastisch.

Ist eine UUID immer eindeutig? Randfälle verstehen

Kommen wir nun zu einer wichtigen Frage: Bleiben UUIDs in allen Fällen eindeutig?

Die kurze Antwort lautet: Kein System kann absolute Eindeutigkeit garantieren, es sei denn, es verfolgt alle generierten Werte global. UUIDs basieren auf Wahrscheinlichkeit und Entropiequalität.

Randfall 1: Schlechter Zufallszahlengenerator

Wenn Ihr System:

einen schwachen PRNG verwendet,
beim Booten über unzureichende Entropie verfügt,
in virtualisierten Umgebungen mit gemeinsamem Entropiepool läuft,
können Sie theoretisch identische Zufallssequenzen generieren.

Beispiel aus der Praxis:

Frühe Linux-Systeme in VMs starteten manchmal mit geringer Entropie.
Wenn Anwendungen sofort beim Start v4-UUIDs generierten, stieg die Kollisionswahrscheinlichkeit.

Abhilfemaßnahme:

Verwenden Sie einen kryptografisch sicheren RNG.
Stellen Sie sicher, dass der Entropiepool ordnungsgemäß initialisiert ist.
Vermeiden Sie benutzerdefinierte UUID-Implementierungen.

Ist UUID unter hoher Last wirklich eindeutig?

Der Ausdruck UUID-Eindeutigkeit unter hoher Last taucht häufig in Diskussionen über Datenbanken mit hohem Durchsatz auf.

Lassen Sie uns zwei Punkte betrachten:

1. Storage Index Collisions vs Value Collisions

In Datenbanken:

B-Tree-Fragmentierung kann auftreten.
Zufällige UUIDs verschlechtern die Insert-Lokalität.
Dies ist kein Kollisionsproblem.
Es ist ein Leistungsproblem.

Lösung:

Verwenden Sie UUID v7 oder ULID für zeitlich geordnete Inserts.
Oder verwenden Sie binary(16)-Speicherung statt String.

2. Deterministic UUID (v5) Reuse

Wenn Sie eine namespace-basierte Generierung verwenden:

UUIDv5(namespace, “user@example.com”)

Sie erhalten immer dieselbe Ausgabe.

Dies ist ein erwartetes Verhalten.

Wenn jedoch verschiedene Systeme identische Namespace- + Namenskombinationen verwenden, sind Kollisionen beabsichtigt und deterministisch.

Wie bleibt eine UUID über Milliarden von Geräten hinweg eindeutig?

Die Frage, wie eine UUID über eine globale Infrastruktur hinweg eindeutig sein kann, läuft auf Skalierungs-Mathematik und Entropie-Isolation hinaus.

Betrachten Sie:

122 Bits zufällig.
Jedes Bit unabhängig.
Gleichmäßige Verteilung.

Dies erzeugt einen Suchraum, der so groß ist, dass selbst wenn:

jeder Mensch auf der Erde 1 Million UUIDs pro Sekunde generieren würde,
über 100 Jahre hinweg,

die Wahrscheinlichkeit einer Kollision vernachlässigbar bleibt.

Wichtige Gründe:

Enormer Bitraum.
Kryptografische Zufälligkeit.
Keine zentrale Wiederverwendung von Sequenzen.
Unabhängige Generierung.

Wenn eine UUID nicht eindeutig ist: Realistische Szenarien

Obwohl äußerst unwahrscheinlich, können Situationen auftreten, in denen UUID-Duplikate entstehen:

Benutzerdefinierte UUID-Generatoren mit fehlerhaften Implementierungen.
Fest kodierte UUID-Konstanten, die versehentlich wiederverwendet werden.
Wiederherstellung der Datenbank aus einem Backup ohne Zurücksetzen des Anwendungszustands.
Snapshot-Klonen einer VM vor der erneuten Initialisierung des RNG.
Gekürzte Speicherung von UUIDs (z. B. nur die ersten 8 Bytes).

Beispiel: Truncation-Fehler

Falsch:

CHAR(8)

Richtig:

BINARY(16)

Wenn Sie UUIDs kürzen, steigt die Wahrscheinlichkeit von Kollisionen stark an.

Erkennung und Umgang mit doppelten UUID-Ereignissen

Auch wenn dies selten ist, sollten Sie Ihr System defensiv gegen ein UUID-Kollisionsszenario entwerfen.

Best Practices:

Erzwingen Sie eindeutige Constraints auf Datenbankebene.
Protokollieren Sie Kollisionsversuche.
Wiederholen Sie die ID-Generierung, wenn das Insert fehlschlägt.
Verwenden Sie transaktionale Integrität.

Beispielmuster (Pseudo-Code)

while True:

id=generate_uuid()

try:

insert(id)

break

except UniqueConstraintError:

continue

Der erneute Versuch wird mit hoher Wahrscheinlichkeit sofort erfolgreich sein.

Leistungsüberlegungen

UUID-Eindeutigkeit ist nur ein Teil der Gesamtbetrachtung.

Speicherempfehlungen

Verwenden Sie BINARY(16) statt VARCHAR(36).
Vermeiden Sie die Speicherung mit Bindestrichen.
Ziehen Sie zeitlich geordnete Varianten für Clustered Indexes in Betracht.

Auswirkungen auf Datenbankindizes

Random v4:

Verursacht Indexfragmentierung.
Langsamere Insert-Lokalität.

Zeitlich geordnetes v7:

Verbessert die Seitenlokalität.
Bessere Schreibperformance.

Praktische Empfehlungen

Für die meisten modernen Anwendungen:

Verwenden Sie UUID v4, wenn Zufälligkeit und Unabhängigkeit wichtig sind.
Verwenden Sie UUID v7 für datenbankintensive Systeme.
Implementieren Sie niemals Ihren eigenen Algorithmus.
Kürzen Sie Identifikatoren niemals.
Erzwingen Sie immer Datenbank-Constraints für Eindeutigkeit.

Vermeiden Sie:

Schwache Zufallsquellen.
Unvorsichtige Wiederverwendung von Namespace-Seeds.
Das Speichern von UUIDs als Klartext ohne Notwendigkeit.

Abschließendes Fazit

UUIDs bieten keine absolute mathematische Garantie. Bei korrekter Implementierung mit geeigneten Entropiequellen ist die Kollisionswahrscheinlichkeit jedoch so gering, dass sie für reale Systeme praktisch null ist.

Sie bleiben eine der sichersten und skalierbarsten Identifikationsstrategien für verteilte Umgebungen.

Das praktische Fazit:

Kollisionen sind theoretisch möglich.
In korrekt implementierten Systemen sind sie astronomisch unwahrscheinlich.
Architektonische Fehler, nicht der Standard selbst, sind der eigentliche Risikofaktor.

Das Verständnis dafür, wie UUIDs auf Bitebene funktionieren, wie Zufälligkeit erzeugt wird und wie Datenbanken damit umgehen, ermöglicht es Ingenieuren, Systeme zu entwerfen, die sowohl sicher als auch leistungsfähig im globalen Maßstab sind.