L'UUID est-il unique ? Comprendre comment et pourquoi il fonctionne

L'unicité des UUID : comment cela fonctionne-t-il et peut-elle présenter des défaillances ?

Les identifiants universellement uniques (UUID) sont largement utilisés dans les systèmes distribués, les bases de données, les API et les microservices pour identifier des entités sans coordination centrale. Les développeurs s’appuient sur eux pour éviter les collisions entre machines, régions et même périodes de temps. Mais un UUID garantit-il réellement l’unicité en pratique, ou cette hypothèse est-elle surestimée ?

Cet article fournit une explication technique, basée sur des exemples, du fonctionnement des UUID, de l’origine de leurs garanties et des conditions dans lesquelles des problèmes tels qu’un UUID dupliqué peuvent théoriquement apparaître.

Apr 1, 2025 Il est temps de lire : 10 min.

Ce qui rend un UUID unique en théorie et en pratique

Pour comprendre si un UUID peut entrer en collision, nous devons examiner sa structure et ses mécanismes de génération.

Un UUID est une valeur de 128 bits. Dans sa forme textuelle canonique, il ressemble à ceci :

550e8400-e29b-41d4-a716-446655440000

Avec 128 bits, le nombre total de combinaisons possibles est :

2^128 ≈ 3.4 × 10^38

C’est un espace astronomiquement vaste. Même en générant des milliards d’identifiants par seconde pendant des millions d’années, il ne serait pas épuisé.

Versions et sources d’entropie

Il existe plusieurs versions d’UUID définies dans la RFC 4122 (et dans des brouillons mis à jour). Les plus couramment utilisées sont :

Version 1 (basée sur le temps) – Utilise un horodatage + l’adresse MAC.
Version 4 (basée sur le hasard) – Utilise des nombres aléatoires cryptographiquement robustes.
Version 3 et 5 (basées sur un espace de noms) – Hachage déterministe de l’espace de noms + du nom.
Version 7 (ordonnée par le temps, brouillon moderne) – Combine un horodatage avec de l’aléatoire pour de meilleures performances d’indexation.

Chaque version atteint l’unicité différemment :

Version	Source d'unicité	Risque de collision	Cas d'utilisation type
v1	Horodatage + MAC	Très faible (basé sur le matériel))	Systèmes hérités
v4	122 bits aléatoires	Extrêmement faible	Systèmes distribués
v5	Hachage d'espace de noms SHA-1	Déterministe	Identifiants stables basés sur le nom
v7	Temps + aléatoire	Extrêmement faible	Bases de données, insertions ordonnées

Dans les systèmes pratiques, les versions 4 et 7 sont les plus courantes.

Garantie d’unicité des UUID : ce que cela signifie réellement

Le terme garantie d’unicité des UUID est souvent mal compris. Les UUID ne garantissent pas mathématiquement une unicité absolue. À la place, ils fournissent une unicité probabiliste avec un espace d’adressage si immense que les collisions sont pratiquement négligeables.

Probabilité de collision (perspective du paradoxe des anniversaires)

Pour un UUID v4 aléatoire :

122 bits sont aléatoires.
La probabilité de collision après la génération de 1 milliard d’UUID est approximativement :

~1.47 × 10^-15

Pour atteindre une probabilité de collision de 50 %, il faudrait générer environ :

2^61 ≈ 2.3 × 10^18 UUID

Cette échelle dépasse les exigences réalistes des systèmes.

Exemple pratique

Imaginez :

1 000 serveurs
Chacun génère 10 millions d’UUID par jour
Pendant 100 ans

Même à cette échelle, la probabilité de collision reste négligeable.

C’est pourquoi les ingénieurs utilisent les UUID en toute confiance dans :

Bases de données distribuées à l’échelle mondiale
Plateformes SaaS multi-régions
Architectures orientées événements
Génération d’ID côté client dans des applications hors ligne

Pourquoi les UUID sont uniques dans les architectures distribuées

La question de l’unicité des UUID se pose souvent dans le contexte des systèmes distribués où aucune autorité centrale n’attribue les identifiants.

Approches traditionnelles :

Les entiers auto-incrémentés nécessitent une base de données centrale.
Les identifiants Snowflake nécessitent une coordination ou une gestion des horodatages.

Avantages des UUID :

Aucune coordination centrale requise.
Génération hors ligne sécurisée.
Aucune dépendance à la synchronisation de l’horloge (v4).
Pratiquement résistants aux collisions à l’échelle d’Internet.

Exemple : environnement de microservices

Supposons que vous ayez :

Service utilisateur en US-East
Service de commandes en EU-West
Service d’inventaire en Asie

Chaque service génère indépendamment des identifiants. Avec UUID v4 :

Aucune communication requise.
Aucun registre d’identifiants.
Aucune latence de coordination.
Aucun verrou global.

Cela réduit drastiquement le couplage du système.

Un UUID est-il toujours unique ? Comprendre les cas limites

Abordons maintenant une préoccupation critique : les UUID restent-ils uniques dans tous les cas ?

La réponse courte : aucun système ne peut garantir une unicité absolue à moins de suivre toutes les valeurs générées globalement. Les UUID reposent sur la probabilité et la qualité de l’entropie.

Cas limite 1 : générateur de nombres aléatoires de mauvaise qualité

Si votre système :

Utilise un PRNG faible
Dispose d’une entropie insuffisante au démarrage
Fonctionne dans des environnements virtualisés avec un pool d’entropie partagé

Vous pouvez théoriquement générer des séquences aléatoires identiques.

Exemple réel :

Les premiers systèmes Linux dans des machines virtuelles démarraient parfois avec une faible entropie.
Si les applications généraient des UUID v4 immédiatement au démarrage, la probabilité de collision augmentait.

Mesures d’atténuation :

Utiliser un générateur de nombres aléatoires cryptographiquement sécurisé.
S’assurer que le pool d’entropie est correctement initialisé.
Éviter les implémentations personnalisées d’UUID.

Les UUID sont-ils vraiment uniques sous forte charge ?

L’expression unicité des UUID sous forte charge apparaît souvent dans les discussions sur les bases de données à haut débit.

Examinons deux préoccupations :

1. Collisions d’index de stockage vs collisions de valeurs

Dans les bases de données :

Une fragmentation des B-tree peut se produire.
Les UUID aléatoires dégradent la localité des insertions.
Ce n’est pas un problème de collision.
C’est un problème de performance.

Solution :

Utiliser UUID v7 ou ULID pour des insertions ordonnées dans le temps.
Ou utiliser un stockage binary(16) au lieu d’une chaîne de caractères.

2. Réutilisation d’un UUID déterministe (v5)

Si vous utilisez une génération basée sur un espace de noms :

UUIDv5(namespace, “user@example.com”)

Vous obtiendrez toujours la même sortie.

C’est un comportement attendu.

Mais si différents systèmes utilisent des combinaisons identiques namespace + name, les collisions sont intentionnelles et déterministes.

Comment un UUID maintient-il l’unicité à travers des milliards d’appareils ?

La question de savoir comment un UUID peut être unique à travers une infrastructure mondiale se résume aux mathématiques d’échelle et à l’isolation de l’entropie.

Considérez :

122 bits aléatoires.
Chaque bit indépendant.
Distribution uniforme.

Cela produit un espace de recherche si vaste que même si :

Chaque humain sur Terre générait 1 million d’UUID par seconde,
Pendant 100 ans,

La probabilité de collision reste négligeable.

Raisons principales :

Espace de bits massif.
Aléatoire cryptographique.
Aucune réutilisation centrale des séquences.
Génération indépendante.

Quand un UUID n’est pas unique : scénarios réalistes

Bien que cela soit extrêmement improbable, des situations impliquant une duplication d’UUID peuvent se produire :

Générateurs d’UUID personnalisés avec des implémentations défectueuses.
Constantes UUID codées en dur réutilisées accidentellement.
Restauration de la base de données à partir d’une sauvegarde sans réinitialiser l’état de l’application.
Clonage par snapshot d’une machine virtuelle avant la réinitialisation du RNG.
Stockage tronqué des UUID (par exemple, stockage des 8 premiers octets seulement).

Exemple : erreur de troncature

Incorrect :

CHAR(8)

Correct :

BINARY(16)

Si vous tronquez les UUID, la probabilité de collision augmente fortement.

Détection et gestion des événements d’UUID dupliqués

Même si cela est rare, vous devez concevoir votre système de manière défensive face à un scénario de collision d’UUID.

Bonnes pratiques :

Appliquer des contraintes d’unicité au niveau de la base de données.
Journaliser les tentatives de collision.
Réessayer la génération de l’ID si l’insertion échoue.
Utiliser l’intégrité transactionnelle.

Exemple de modèle (pseudo-code)

while True:

id=generate_uuid()

try:

insert(id)

break

except UniqueConstraintError:

continue

La nouvelle tentative réussira presque certainement immédiatement.

Considérations de performance

L’unicité des UUID n’est qu’une partie de l’histoire.

Recommandations de stockage

Utiliser BINARY(16) au lieu de VARCHAR(36).
Éviter le stockage avec des tirets.
Envisager des variantes ordonnées dans le temps pour les index clusterisés.

Impact sur les index de base de données

UUID v4 aléatoire :

Provoque une fragmentation des index.
Localité d’insertion plus lente.

UUID v7 ordonné dans le temps :

Améliore la localité des pages.
Meilleures performances d’écriture.

Recommandations pratiques

Pour la plupart des applications modernes :

Utiliser UUID v4 si l’aléatoire et l’indépendance sont importants.
Utiliser UUID v7 pour les systèmes fortement dépendants de la base de données.
Ne jamais implémenter votre propre algorithme.
Ne jamais tronquer les identifiants.
Toujours appliquer des contraintes d’unicité dans la base de données.

Éviter :

Les sources aléatoires faibles.
La réutilisation négligente des seeds d’espace de noms.
Le stockage des UUID en texte brut sans nécessité.

Verdict final

Les UUID n’offrent pas une garantie mathématique absolue. Cependant, avec une implémentation correcte et des sources d’entropie appropriées, la probabilité de collision est si faible qu’elle est pratiquement nulle pour les systèmes du monde réel.

Ils restent l’une des stratégies d’identification les plus sûres et les plus évolutives pour les environnements distribués.

La conclusion pratique :

Les collisions sont théoriquement possibles.
Dans des systèmes correctement implémentés, elles sont astronomiquement improbables.
Les erreurs d’architecture, et non le standard lui-même, constituent le véritable facteur de risque.

Comprendre comment les UUID fonctionnent au niveau des bits, comment l’aléatoire est généré et comment les bases de données les gèrent permet aux ingénieurs de concevoir des systèmes à la fois sûrs et performants à l’échelle mondiale.