Cualquiera que alguna vez haya maldecido una red de computadoras a medida que se ralentizaba, apreciará el remedio ofrecido por los científicos de la Universidad de Rice.
El informático de Rice Eugene Ng y su equipo dicen que su solución mantendrá los datos en la vía rápida cuando inevitablemente ocurran fallas.
Ng presentó ShareBackup, una estrategia que permitiría a los conmutadores de respaldo compartidos en los centros de datos asumir el tráfico de red en una fracción de segundo después de una falla del conmutador de software o hardware.
Presentará un documento revisado por pares sobre el trabajo esta semana en la conferencia SIGCOMM 2018 en Budapest, Hungría.
Ng dijo que la idea resolvería una molestia común entre los profesionales de los datos, los científicos y todos los que confían en una red para entregar resultados día tras día.
"Una red de datos consta de servidores y conmutadores de red", dijo Ng, profesor de ciencias de la computación e ingeniería eléctrica e informática. "Los conmutadores mueven los paquetes de datos a donde deben ir. Pero las cosas fallan, especialmente en datos a gran escalacentros con miles de piezas de hardware "
La respuesta habitual a un conmutador fallido es desviar el flujo de datos a otra línea. "En general, la red tiene múltiples rutas para conectar servidores, por lo que, al igual que si hubiera un cierre en la carretera, conduciríamos alrededor de ella.Este es un enfoque convencional y natural que tiene mucho sentido: se redirige en torno a la imposibilidad de llegar a donde necesita ir ".
Pero a veces ese otro camino está congestionado y todo se ralentiza. "Los centros de datos no son Internet; no se trata de personas que navegan por sitios web", dijo Ng. "Se trata de apoyar aplicaciones intensivas en datos como la minería de datos oaprendizaje automático. Y muchas de estas aplicaciones tienen plazos estrictos de rendimiento, por lo que desviar el tráfico a ciegas podría ser algo incorrecto en un centro de datos ".
En lugar de la costosa opción de instalar conmutadores redundantes en una red, la estrategia del laboratorio de Ng colocaría conmutadores rápidos y software en ubicaciones estratégicas que podrían recoger el tráfico de un conmutador fallido en un microsegundo. Cuando se resuelve ese problema, el equipoel software hace que el interruptor de respaldo esté disponible para manejar otra falla.
El cambio es lo suficientemente rápido: el tiempo de recuperación de fallas es de 0,73 milisegundos, incluida la latencia del hardware y los sistemas de control, que la mayoría de los usuarios nunca sabrían que parte del sistema ha fallado.
"La realidad es que la fracción de dispositivos que fallan en un momento dado es muy pequeña, y la mayoría de estas fallas pueden ser resueltas por cosas como reiniciar el dispositivo", dijo Ng. "A veces el software se arruina y un simpleel ciclo de energía lo devolverá. Estas fallas también pueden no durar mucho.
"Estas son las características que estamos tratando de explotar", dijo. "Debido a eso, podemos evitar que muy pocos dispositivos respalden una gran cantidad de dispositivos".
Ng dijo que ShareBackup podría ahorrar tiempo y dinero a los centros de datos no solo al mantener el ancho de banda completo sino también al ayudar a analizar los problemas, incluidas las configuraciones erróneas que comúnmente conducen a fallas en la red.
"Parte de nuestro trabajo es ayudar a los centros de datos a descubrir qué salió mal en la red", dijo. "Una vez que se active la copia de seguridad, puede sacar el dispositivo fallido de la red de producción y probarlo para identificar qué componentecausó el problema
"Ahora, si sacamos dos dispositivos y no podemos determinar cuál salió mal, ambos necesitan ser reemplazados", dijo. "Es muy probable que solo uno de los dispositivos tenga el problema. Nuestro software puede diagnosticar estosdispositivos de forma semiautomática, y si una de las partes es buena, se puede volver a instalar ".
Fuente de la historia :
Materiales proporcionado por Universidad de Rice . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :