Caídas dolorosas de Internet

En todo el planeta se sintió la caida de uno de los grandes de Internet. Este post nace por lo sucedido el 04 de Septiembre con una de las plataformas más utilizadas para servicios y aplicaciones de Internet, una de las plataformas que sigue impulsando las tecnologías en la nube, computación móvil e inteligencia artificial. Microsoft Azure presentó una de sus más grandes caídas de su infraestructura interna, exponiendo una de sus más grandes debilidades respecto a estrategias de disponibilidad.

Las plataformas

El negocio de la virtualización de servidores a través de plataformas en internet requiere de una fuerte aplicación de ingeniería de tecnologías de la información e infraestructura, esto es posible a grandes inversiones realizadas por los gigantes de internet como Amazon, Google y Microsoft, es por ello que sus proyectos Amazon Web Services, Google Cloud y Microsoft Azure destinados para el negocio descrito anteriormente, han recibido la mayor importancia dentro de la gama de servicios y productos que ofrecen estas firmas. Si nos ponemos analizar un poco sobre la situación de disponibilidad que ofrecen estas plataformas, se dicta en sus contratos que otorgan el 99.9% de continuidad de negocio. Entonces esto hace que los clientes de las plataformas se sientan seguros y no se enfoquen mucho en un Sistema de Continuidad del Negocio. Además, nos indica que, si es que ocurriera algún corte de servicio podríamos acceder a una denuncia judicial por incumplimiento.

Tiembla el amazonas

En el 2017, en todo el mundo se vio reflejado esta caída: servicios como NetFlix, Spotify, Pinterest, Trello, etc., dejaron de funcionar temporalmente por 4 horas. Pero, si nos enfocamos en ideas de negocio que confiaron en AWS (Amazon Web Services) y gracias a ello facturaban, estamos hablando de mucha dependencia y mayor enfoque en gestionar la relación con los proveedores, es decir, estudiar la cadena completa y cómo esto refleja en nuestro usuario final, quien es el más perjudicado. En todas las partes de la cadena se busca contar con contingencias, un plan B y su adecuada gestión y control. Entonces, ¿Qué debieron hacer los clientes de Amazon?, bueno, las plataformas tienen un sistema de recuperación ante desastres acudiendo a la implementación de multi-regiones, es decir que si nuestra solución tecnológica se encuentra instalada en un centro de datos AWS de la región Oeste de USA, ellos lo tienen reflejado en el Norte de USA quizá o al Este de USA, pero de que debe existir una réplica segura debe existir, y al parecer eso no tiene reflejado Microsoft, con lo que le paso este Septiembre del 2018.

La nube que llora

El martes cuatro de septiembre, llovía y llovía en la nube de Microsoft, en horas de la madrugada un buen porcentaje de servicios de Azure estaban inhabilitados, hablamos de Active Directory Azure, Office 365, Team Foundation Services, etc. Bueno, todos esperaban que como cualquier caída, este se reponga en minutos o máximo en horas, pero no, pasó más de un día para reparar esta caída. Uno de los medios oficiales para enterarse qué es lo que estaba pasando debió haber sido la página oficial del estado de Azure (https://status.azure.com), pero ni esta funcionaba, lo único que podía hacer Microsoft era notificar a través de Twitter, lo que había pasado. Una fuerte tormenta con fuertes rayos incluidos ocasionó que el centro de datos de San Antonio, Texas, pierda la operación continua de sus sistemas de refrigeración, el cual activaba los comandos necesarios para apagar los servidores principales. Una experiencia dolorosa para muchos, sobre todo para los usuarios de Team Foundation Services quienes estaban bloqueados desde las 02:45 am del día 04/09 hasta las 05:05 pm del día 05/09, imposibilitando el funcionamiento correcto de Azure DevOps. La cuenta oficial en twitter de Azure aquel día no dejaba de recibir mensajes como "Y quien les explica a mis clientes que ustedes están fallando", "¿Dónde está su 99.9% de disponibilidad?", "Migraré a otra plataforma", etc. Fueron afortunados quienes no tenían su solución tecnológica en el servidor de esa región, y la mayoría se preguntaba "¿Acaso no tienen un plan de desastre?". Tras la estabilización de los servicios de Azure, la misma Microsoft analizó la contingencia que sus competencias utilizan para evitar este tipo de riesgo: La replicación en multi-zonas.

Consejo audit

Esto nos hace pensar que por más grande tecnología y seguridad que exista, siempre habrán cosas inesperadas, y la clave del éxito es la agilidad para obtener estabilidad, la medición del tiempo de respuesta en reposición de servicios es la clave, y no solo hablamos de las plataformas, hablamos de los clientes de la plataforma. En este artículo AWS sufrió un ataque DDoS y Azure sufrió un desastre natural, y cada uno declararon mejorar sus contingencias para sus respectivas plataformas.