¿Es único el UUID? Comprender cómo y por qué funciona

La unicidad de los UUID: cómo funciona y si puede fallar

Los identificadores únicos universales (UUID) se utilizan ampliamente en sistemas distribuidos, bases de datos, API y microservicios para identificar entidades sin coordinación central. Los desarrolladores confían en ellos para evitar colisiones entre máquinas, regiones e incluso períodos de tiempo. Pero, ¿garantiza realmente un UUID la unicidad en la práctica, o se trata de una suposición exagerada?

Este artículo ofrece una explicación técnica, basada en ejemplos, de cómo funcionan los UUID, de dónde provienen sus garantías y en qué condiciones pueden aparecer, en teoría, problemas como la duplicación de UUID.

Apr 1, 2025 Es hora de leer : 10 min.

¿Qué hace que un UUID sea único en teoría y en la práctica?

Para comprender si un UUID puede colisionar, debemos analizar su estructura y sus mecanismos de generación.

Un UUID es un valor de 128 bits. En su forma textual canónica, tiene el siguiente aspecto:

550e8400-e29b-41d4-a716-446655440000

Con 128 bits, el número total de combinaciones posibles es:

2^128 ≈ 3,4 × 10^38

Se trata de un espacio astronómicamente grande. Ni siquiera generando miles de millones de identificadores por segundo durante millones de años se agotaría.

Versiones y fuentes de entropía

Hay varias versiones de UUID definidas en RFC 4122 (y borradores actualizados). Las más utilizadas son:

Versión 1 (basada en el tiempo): utiliza marca de tiempo + dirección MAC.
Versión 4 (basada en aleatoriedad): utiliza números aleatorios criptográficamente fuertes.
Versiones 3 y 5 (basadas en el espacio de nombres): hash determinista del espacio de nombres + nombre.
Versión 7 (ordenada por tiempo, borrador moderno): combina la marca de tiempo con la aleatoriedad para mejorar el rendimiento de la indexación.

Cada versión logra la unicidad de manera diferente:

Versión	Fuente de singularidad	Riesgo de colisión	Caso de uso típico
v1	Marca de tiempo + MAC	Muy bajo (basado en hardware)	Sistemas heredados
v4	122 bits aleatorios	Extremadamente bajo	Sistemas distribuidos
v5	Hash del espacio de nombres SHA-1	Determinista	Identificadores estables basados en nombres
v7	Tiempo + aleatorio	Extremadamente bajo	Bases de datos, inserciones ordenadas

En los sistemas prácticos, las versiones 4 y 7 son las más comunes.

Garantía de unicidad del UUID: qué significa realmente

El término «garantía de unicidad del UUID» suele malinterpretarse. Los UUID no garantizan matemáticamente la unicidad absoluta. En cambio, proporcionan una unicidad probabilística con un espacio de direcciones tan enorme que las colisiones son prácticamente insignificantes.

Probabilidad de colisión (perspectiva de la paradoja del cumpleaños)

Para un UUID v4 aleatorio:

122 bits son aleatorios.
La probabilidad de colisión tras generar 1000 millones de UUID es aproximadamente:

~1,47 × 10^-15

Para alcanzar una probabilidad de colisión del 50 %, se necesitaría generar alrededor de:

2^61 ≈ 2,3 × 10^18 UUID

Esa escala supera los requisitos realistas del sistema.

Ejemplo práctico

Imagina:

1000 servidores.
Cada uno genera 10 millones de UUID al día.

Durante 100 años.

Incluso a esa escala, la probabilidad de colisión sigue siendo insignificante.

Por eso los ingenieros utilizan con confianza los UUID en:

Bases de datos distribuidas globalmente.
Plataformas SaaS multirregionales.
Arquitecturas basadas en eventos.
Generación de ID del lado del cliente en aplicaciones sin conexión.

Por qué el UUID es único en las arquitecturas distribuidas

La cuestión de la unicidad de los UUID suele surgir en el contexto de los sistemas distribuidos, en los que no existe una autoridad central que asigne los identificadores.

Enfoques tradicionales:

Los enteros autoincrementales requieren una base de datos central.
Los identificadores Snowflake requieren coordinación o gestión de marcas de tiempo.

Ventajas de los UUID:

No requieren coordinación central.
Generación segura sin conexión.
No dependen de la sincronización del reloj (v4).
Prácticamente resistentes a colisiones a escala de Internet.

Ejemplo: Entorno de microservicios

Supongamos que tienes:

Servicio de usuarios en US-East
Servicio de pedidos en EU-West
Servicio de inventario en Asia

Cada servicio genera identificadores de forma independiente. Con UUID v4:

No se requiere comunicación.
No hay registro de IDs.
No hay latencia de coordinación.
No hay bloqueo global.

Esto reduce drásticamente el acoplamiento del sistema.

¿Es UUID Siempre Único? Comprendiendo los Casos Límite

Ahora abordemos una preocupación crítica: si los UUID permanecen únicos en todos los casos.

La respuesta corta: ningún sistema puede garantizar unicidad absoluta a menos que rastree todos los valores generados globalmente. Los UUID se basan en la probabilidad y en la calidad de la entropía.

Caso Límite 1: Generador de Números Aleatorios Deficiente

Si tu sistema:

Usa un PRNG débil
Tiene entropía insuficiente al arrancar
Se ejecuta en entornos virtualizados con un pool de entropía compartido

Teóricamente podrías generar secuencias aleatorias idénticas.

Ejemplo del mundo real:

Los primeros sistemas Linux en VMs a veces iniciaban con baja entropía.
Si las aplicaciones generaban UUID v4 inmediatamente al iniciar, la probabilidad de colisión aumentaba.

Mitigación:

Usar un RNG criptográficamente seguro.
Asegurar que el pool de entropía esté correctamente sembrado.
Evitar implementaciones personalizadas de UUID.

¿Es UUID Realmente Único Bajo Alta Carga?

La frase unicidad de UUID bajo alta carga aparece a menudo en discusiones sobre bases de datos de alto rendimiento.

Examinemos dos preocupaciones:

1. Colisiones del Índice de Almacenamiento vs Colisiones de Valor

En bases de datos:

Puede ocurrir fragmentación de B-tree.
Los UUID aleatorios degradan la localidad de inserción.
Esto no es un problema de colisión.
Es un problema de rendimiento.

Solución:

Usar UUID v7 o ULID para inserciones ordenadas por tiempo.
O usar almacenamiento binary(16) en lugar de string.

2. Reutilización de UUID Determinístico (v5)

Si usas generación basada en namespace:

UUIDv5(namespace, “user@example.com”)

Siempre obtendrás el mismo resultado.

Este es un comportamiento esperado.

Pero si diferentes sistemas usan combinaciones idénticas de namespace + nombre, las colisiones son intencionales y determinísticas.

¿Cómo Mantiene un UUID la Unicidad a Través de Miles de Millones de Dispositivos?

La pregunta de cómo un UUID puede ser único a través de la infraestructura global se reduce a matemáticas de escala y aislamiento de entropía.

Considera:

122 bits aleatorios.
Cada bit independiente.
Distribución uniforme.

Esto produce un espacio de búsqueda tan grande que incluso si:

Cada ser humano en la Tierra generara 1 millón de UUID por segundo,
Durante 100 años,

La probabilidad de colisión sigue siendo insignificante.

Razones clave:

Enorme espacio de bits.
Aleatoriedad criptográfica.
No hay reutilización central de secuencias.
Generación independiente.

Cuando un UUID No Es Único: Escenarios Realistas

Aunque es extremadamente improbable, pueden ocurrir situaciones que involucren duplicación de UUID:

Generadores de UUID personalizados con implementaciones defectuosas.
Constantes UUID codificadas directamente reutilizadas accidentalmente.
Restauración de base de datos desde una copia de seguridad sin restablecer el estado de la aplicación.
Clonación de snapshot de VM antes de volver a sembrar el RNG.
Almacenamiento truncado de UUID (por ejemplo, almacenar solo los primeros 8 bytes).

Ejemplo: Error de Truncamiento

Incorrecto:

CHAR(8)

Correcto:

BINARY(16)

Si truncas los UUID, la probabilidad de colisión se dispara.

Detección y Manejo de Eventos de UUID Duplicados

Aunque es raro, deberías diseñar defensivamente contra un escenario de colisión de UUID.

Mejores prácticas:

Aplicar restricciones de unicidad a nivel de base de datos.
Registrar los intentos de colisión.
Reintentar la generación de ID si la inserción falla.
Usar integridad transaccional.

Patrón de Ejemplo (Pseudo-código)

while True:

id = generate_uuid()

try:

insert(id)

break

except UniqueConstraintError:

continue

El reintento casi con toda seguridad tendrá éxito inmediatamente.

Consideraciones de Rendimiento

La unicidad de UUID es solo una parte de la historia.

Recomendaciones de Almacenamiento

Usar BINARY(16) en lugar de VARCHAR(36).
Evitar almacenar con guiones.
Considerar variantes ordenadas por tiempo para índices agrupados.

Impacto en los Índices de Base de Datos

v4 aleatorio:

Provoca fragmentación de índices.
Localidad de inserción más lenta.

v7 ordenado por tiempo:

Mejora la localidad de páginas.
Mejor rendimiento de escritura.

Recomendaciones Prácticas

Para la mayoría de las aplicaciones modernas:

Usar UUID v4 si la aleatoriedad y la independencia son importantes.
Usar UUID v7 para sistemas intensivos en bases de datos.
Nunca implementar tu propio algoritmo.
Nunca truncar identificadores.
Siempre aplicar restricciones de unicidad en la base de datos.

Evitar:

Fuentes de aleatoriedad débiles.
Reutilizar semillas de namespace de forma descuidada.
Almacenar UUIDs como texto plano sin necesidad.

Veredicto Final

Los UUID no ofrecen una garantía matemática absoluta. Sin embargo, con una implementación correcta y fuentes de entropía adecuadas, la probabilidad de colisión es tan pequeña que es efectivamente cero para sistemas del mundo real.

Siguen siendo una de las estrategias de identificación más seguras y escalables para entornos distribuidos.

Conclusión práctica:

Las colisiones son teóricamente posibles.
En sistemas correctamente implementados, son astronómicamente improbables.
Los errores arquitectónicos, y no el estándar en sí, son el verdadero factor de riesgo.

Comprender cómo funcionan los UUID a nivel de bits, cómo se genera la aleatoriedad y cómo los gestionan las bases de datos permite a los ingenieros diseñar sistemas que son seguros y eficaces a escala global.