AWS aplica teoría matemática para mejorar la resiliencia de su nube
Ampliar

AWS aplica teoría matemática para mejorar la resiliencia de su nube

Por Redacción
x
contactohorapuntacom/8/8/18
viernes 29 de mayo de 2026, 20:25h

Escucha la noticia

Amazon Web Services (AWS) ha innovado en la resiliencia de sus redes de centros de datos al aplicar la teoría de grafos aleatorios, una idea que había permanecido sin aplicación práctica durante años. Un equipo de ingenieros y científicos, liderado por Seshadhri Comandur y Ratul Mahajan, logró convertir esta teoría matemática en un diseño funcional que mejora la eficiencia y fiabilidad del tráfico de datos. El nuevo enfoque permite una distribución más dinámica del tráfico, reduce los puntos de fallo y ahorra costos significativos en hardware. Además, se espera que este diseño reduzca el consumo energético en un 40%, contribuyendo a disminuir las emisiones de CO2. AWS planea implementar esta arquitectura avanzada en sus centros de datos globalmente para 2026.

Un mensaje en Slack, una teoría matemática olvidada y un laberinto de cables se convirtieron en la clave para que un equipo de ingenieros y científicos de Amazon Web Services (AWS) resolviera un problema que había eludido a toda la industria durante años. En una tarde de 2023, Seshadhri Comandur, Amazon Scholar y profesor en la Universidad de California en Santa Cruz, respondió a un hilo de conversación que lo llevaría a enfrentar uno de los mayores enigmas del sector de los centros de datos.

El mensaje provenía de Ratul Mahajan, también Amazon Scholar, experto en redes de centros de datos y profesor en la Universidad de Washington. Mahajan buscaba a alguien con experiencia en teoría de grafos y enrutamiento. Comandur, quien se especializa en algoritmos y redes abstractas, se ofreció a ayudar: «Sí, algo sé sobre eso», dijo sin imaginar la magnitud del desafío que se avecinaba.

Pioneros en la aplicación práctica

Así comenzó una colaboración entre Comandur, Mahajan y Giacomo Bernardi, otro científico de AWS. Juntos, este trío se propuso aplicar por primera vez la teoría de grafos aleatorios a redes de centros de datos a gran escala, una idea que llevaba décadas relegada al ámbito académico. Su trabajo culminó en un artículo científico titulado ‘Expanding into Reality: Random Graphs for Datacenter Networks’, donde describen cómo esta innovación promete mejorar la fiabilidad y el rendimiento para los clientes de AWS, además de generar ahorros significativos en hardware y reducir las emisiones de CO2.

Pero, ¿qué es exactamente la teoría de grafos aleatorios? Y más importante aún, ¿cómo lograron Bernardi, Comandur y Mahajan resolver un problema que había desconcertado a la industria durante tanto tiempo?

Redefiniendo las conexiones

La historia comienza con Bernardi y su fascinación por los routers: dispositivos esenciales que gestionan el tráfico dentro de un centro de datos. Tradicionalmente organizados en jerarquías tipo árbol, estos routers pueden crear cuellos de botella donde los datos se congestionan. Convencido de que debía existir una forma más eficiente, Bernardi ideó un diseño inspirado en los mosaicos de Penrose para conectar los routers en una estructura plana pero ordenada.

A pesar del potencial del diseño «Penrose», Bernardi y Mahajan enfrentaron obstáculos significativos al intentar implementarlo a gran escala. Sin rendirse, decidieron explorar otra opción radical: conectar los routers aleatoriamente. Aunque esta idea había sido discutida académicamente desde 2012 en el estudio ‘Jellyfish: networking data centers randomly’, nadie había logrado aplicarla efectivamente dentro del marco físico realista necesario para un centro de datos.

Desentrañando el caos

El primer desafío era evitar una maraña incontrolable de cables. Los modernos centros de datos cuentan con millones de conexiones individuales; construir manualmente una red aleatoria sería impracticable. Por ello, el equipo diseñó un componente llamado ShuffleBox que permitiría gestionar la aleatoriedad interna sin complicaciones externas.

A pesar del diseño prometedor, implementar esta solución resultó complicado hasta que Comandur proporcionó una ecuación clave para organizar el cableado dentro del ShuffleBox. Este avance fue fundamental para estandarizar la conectividad aleatoria.

Navegando por nuevas rutas

El segundo reto consistía en redefinir cómo fluyen los datos a través del sistema. En redes tradicionales, los routers siguen estructuras jerárquicas estrictas; esto puede causar cuellos de botella bajo alta carga. La propuesta era permitir múltiples rutas disponibles para el tráfico mediante un nuevo protocolo llamado Spraypoint.

Spraypoint permite dispersar datos desde el router origen hacia varios vecinos simultáneamente antes de dirigirlos hacia su destino final. Esta estrategia no solo desafía las normas convencionales sino que también optimiza la utilización del ancho de banda disponible al reducir significativamente el riesgo de congestión.

Validando la teoría

Uno de los problemas más críticos fue demostrar que una red aleatoria funcionaría antes del compromiso financiero necesario para construirla. Utilizando Amazon Elastic Compute Cloud (EC2), el equipo realizó simulaciones exhaustivas durante aproximadamente 530 años computacionales para evaluar su diseño bajo diversas condiciones.

Aunque los resultados eran alentadores, necesitaban validar matemáticamente sus hallazgos antes del lanzamiento real. Con el apoyo teórico proporcionado por Comandur, lograron establecer modelos precisos capaces de prever el comportamiento bajo carga real.

Aprovechando la fortaleza aleatoria

AWS busca crear una red invisible para sus usuarios: «La encendemos y funciona», afirma Matt Rehder, vicepresidente de ingeniería en redes. La nueva arquitectura promete menos dispositivos intermedios entre servidores, lo cual reduce puntos potenciales fallos y genera ahorros significativos.

Bajo pruebas reales, este nuevo diseño ha demostrado mover datos aproximadamente un tercio más rápido que las arquitecturas jerárquicas anteriores. Además, se prevé una reducción del 40% en el consumo eléctrico asociado a equipos nuevos gracias a esta innovadora estructura.

AWS comenzará a desplegar este diseño renovado primero en España y Alemania durante 2025 y tiene planes para implementarlo globalmente en 2026. Para Comandur es vital compartir esta experiencia con sus estudiantes como prueba tangible del puente entre teoría académica y aplicación práctica efectiva.

La noticia en cifras

Cifra Descripción
40% Ahorro en consumo eléctrico respecto a la arquitectura anterior.
33% Aumento en la velocidad del movimiento de datos comparado con estructuras anteriores.
530 años Tiempo total estimado de procesamiento computacional utilizado para simulaciones.
2026 Año previsto para la implementación global del nuevo diseño.

Preguntas sobre la noticia

¿Qué es la teoría de grafos aleatorios?

La teoría de grafos aleatorios es una rama de las matemáticas que estudia qué sucede cuando se conectan puntos en una red de forma aleatoria. Sugiere que la transferencia de datos podría hacerse más eficiente y resiliente si los routers se conectan de manera aleatoria.

¿Cuál fue el problema que resolvieron los investigadores de AWS?

Los investigadores de AWS resolvieron un problema persistente en la industria de los centros de datos relacionado con la organización y el enrutamiento de redes. Aplicaron la teoría de grafos aleatorios para mejorar la fiabilidad y rendimiento de las redes, eliminando cuellos de botella y optimizando el tráfico.

¿Cómo lograron evitar una maraña de cables al implementar su diseño?

Desarrollaron un componente llamado ShuffleBox, donde las conexiones aleatorias ocurren en su interior de forma controlada, repetible y fabricable, evitando así el desorden del cableado típico en centros de datos.

¿Qué es el protocolo Spraypoint?

Spraypoint es un protocolo diseñado específicamente para redes basadas en grafos aleatorios. Permite que los routers distribuyan datos a través de múltiples rutas simultáneamente, lo que reduce el riesgo de congestión y mejora la eficiencia del tráfico.

¿Cuáles son los beneficios del nuevo diseño propuesto por AWS?

El nuevo diseño ofrece menos dispositivos entre servidores, lo que significa menos puntos potenciales de fallo, mayor velocidad en la transferencia de datos y una reducción significativa en el consumo energético, estimándose una reducción del 40% en comparación con arquitecturas anteriores.

¿Cuándo comenzará AWS a desplegar este nuevo diseño?

AWS comenzó a desplegar el nuevo diseño en España y Alemania en 2025, con planes para implementarlo en la mayoría de sus centros de datos a nivel global en 2026.

¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios