👻 La Newsletter de @weareDMNTRs 👻

Imagen

Tenemos que confesar que teníamos esta edición de la newsletter programada desde el jueves, pensando que así tendríamos un fin de semana tranquilo...

¡Pero no! ¡El mundo del IT no funciona así! ¡Porque el viernes pasaron cosas! Y ha habido que rehacer todo el contenido.

Así que sí, esta newsletter va de lo que esperabas, de "lo de crowdstrike".

Bienvenido a nuestro particular postmortem de un "Blackout" (o deberíamos decir "Blue"out) que paralizó gran parte del mundo.

Y sí, es sábado. No te has equivocado de día...


¿Qué es lo que dices que ha pasado?

El 19 de julio de 2024 va a pasar a la historia como un día negro a nivel mundial. Una "actualización" (luego veremos...) defectuosa del software de seguridad Falcon, desarrollado por la empresa CrowdStrike, provocó un fallo global en sistemas operativos Windows, dando como resultado pantallazos azules de la muerte (BSOD) en millones de ordenadores.

El incidente afectó gravemente a numerosas empresas y servicios críticos en todo el mundo, incluyendo aerolíneas, medios de comunicación, televisiones, hospitales, call-centers, servicios de emergencia... La magnitud del problema fue tal que en muchos lugares tuvieron que trabajar casi como si se hubiera desatado una guerra y, obviamente, la noticia fue trending topic mundial y abrió todos los telediarios.

 

¿Pero qué es CrowdStrike y por qué está instalado en tantos ordenadores?

A ver, CrowdStrike es una empresa de ciberseguridad conocida por su disruptiva plataforma de protección de endpoints. Falcon, que así se llama, es un EDR muy demandado por empresas y administración pública, ya que incorpora muchísimas características de protección que lo hacen realmente eficaz.

La plataforma utiliza inteligencia artificial y análisis de comportamiento para detectar y prevenir amenazas en tiempo real. Por ello, CrowdStrike es especialmente popular en entornos corporativos debido a su capacidad para proporcionar una protección robusta contra una amplia gama de amenazas cibernéticas, desde malware hasta ataques dirigidos.

Y sí, Crowdstrike Falcon está instalado en muchos muchos muchos muchoooooooos ordenadores y servidores a lo largo y ancho del mundo. Por ponerte un ejemplo, en España desde 2023 incluso forma parte del catálogo de soluciones aceptadas por el CCN-CERT lo que ha hecho que su uso en el sector público se haya disparado.

En resumen, tenemos un software altamente invasivo, recordemos que es un EDR, lo que viene siendo un antivirus con esteroides, desplegado en millones (en reddit hablaban de algo menos, unos 700.000 endpoints) de dispositivos.

 

¿Y qué fue lo que provocó el problema?

Vamos a intentar resumirlo.

Según informa Crowdstrike en su última nota técnica sobre el evento, los sistemas que ejecutaban Falcon para Windows 7.11 y superior y que descargaron la configuración actualizada entre las 04:09 UTC y las 05:27 UTC fueron los afectados.

Falcon se descarga regularmente (varias veces al día) lo que la empresa llama "Channel Files", que son parte de los mecanismos de protección del comportamiento del EDR. Estos ficheros, que aunque acaban en .sys no son drivers del kernel como se ha dicho erróneamente en muchas publicaciones, se almacenan en C:\Windows\System32\drivers\CrowdStrike\.

A cada channel file se le asigna un número como identificador único, en este caso el afectado es el "C-00000291-*”, y que termina con .sys.

Total, que en un momento dado, exactamente el 19 de julio de 2024 a las 04:09 UTC, Crowdstrike lanzó a TODOS sus clientes un fichero .sys erróneo, que causaba la pantalla azul de la muerte.

Es curioso, porque al analizar dicho fichero podemos ver que tenía 40KB de tamaño y que en algunos casos estaba compuesto enteramente por ceros (blank/nulls) y en otros no. Cuanto menos curioso el tema, esperamos el post-mortem de Crowdstrike para saber qué paso realmente.

Por cierto, que analizando detenidamente el contenido del directorio donde está el sys hemos visto alguna cosa curiosa más... ¿Se vendrán intentos de inutilizar Falcon utilizando esta vía en próximos ataques? No tenemos pruebas, ni tampoco dudas.

 

¿Cómo se solucionaba el tema?

Solucionar el problema es realmente fácil técnicamente, pero realmente costoso en tiempo y mano de obra, ya que hay que realizar el proceso manualmente.

Los pasos incluyen iniciar el ordenador en modo seguro y eliminar el archivo específico que hemos nombrado antes y volver a reiniciar. CrowdStrike proporcionó a lo largo de la mañana varios scripts para intentar ayudar a realizar más rápido dicha acción, pero vamos a hacer unas cuentas rápidas:

Vamos a ponernos en las cifras más bajas, 700.000 dispositivos (que creemos que son bastantes mas...).

Vamos a suponer que eres un tío rápido y tardas 5 minutos en recuperar cada dispositivo. Recuerda que tienes que llegar a él, reiniciar en modo a prueba de fallos, borrar el fichero, volver a reiniciar, esta vez en modo normal, y esperar a que todo arranque sin problema. En muchos casos (dispositivos integrados, remotos, etc) tardarás seguro BASTANTE más.

Por tanto, estamos hablando que son necesarios 3.500.000 minutos, o sea 58.333 horas... ¡2430 días! ¡Casi ná!

Obviamente todo esto si ejecutamos la tarea sin paralelizar, pero aquí lo importante no es el tiempo, seguro que hay equipos de IT con mucha gente que han podido agilizarlo todo (otros son menos y lo están pasando realmente mal), SINO EL COSTE.

¿Cuánto ha costado solucionar el incidente? Mucha pasta. Mucha mucha pasta. Y no nos metemos en el coste del incidente en sí...

 

¿Pero por qué se paró el mundo?

A ver, Crowdstrike Falcon no solo se despliega en terminales personales, sino que se instala en servidores. Y como digo está de moda, a pesar de ser realmente caro.

Y en el mundo IT, cuando algo está de moda, nos volvemos realmente locos. Pasó con la virtualización. Pasó con el cloud. Y está pasando con Crowdstrike. De la IA ni hablamos...

Así que teníamos muchos servidores con Windows (se reportan incluso  servers con Linux que dejaron de funcionar) a los que alguien también tenía que acceder y realizar todo el proceso.

Esto paró la operativa, ya no solo de los terminales, sino de los sistemas al completo.

Azure, que también tuvo un problema el día anterior que ya había sido mitigado, no estuvo detenida como comentamos al principio del evento, pero sí que hubo algunos problemas, no sabemos si derivados de esto o no, por lo que su operativa también tembló a lo bestia. Obviamente, cualquier VM cloud con Windows y Crowdstrike se vio afectada.

Encima, para echar más leña al fuego, la fecha fue una verdadera putada para todos, en mitad del periodo vacacional y en viernes, día de read-only de los equipos de IT. ¡Esto es una conspiración!

Nos comentaban durante la mañana sobre empresas reclutando a sus efectivos de IT de vacaciones con promesas de pagas dobles y beneficios extra. Vivir para ver.

La tormenta perfecta.

 

¿Y ahora qué?

Bueno, el problema aún no está totalmente solucionado, porque hay muchos terminales que requerirán de la intervención de sus equipos IT, envío a departamentos centrales y demás. Porque hay usuarios a los que pedirles arrancar en modo a prueba de fallos y esas cosas, va a ser casi ciencia ficción.

También existen equipos integrados a los que habrá que conectar teclado y ratón para solucionar el tema.

Fuera de eso, después de la solución temporal, CrowdStrike está trabajando en una actualización permanente que corregirá el fallo sin causar más interrupciones. Las empresas y usuarios afectados deben mantenerse atentos a las comunicaciones de la empresa para aplicar la solución definitiva en cuanto esté disponible.

Mientras tanto, es crucial que los administradores de sistemas monitoreen sus entornos para asegurar que no se produzcan más problemas y que las medidas de mitigación actuales se mantengan efectivas, obviamente.

Fuera de esto, se nos plantean las dudas de siempre:

 

 

 

 

En fin, estamos seguros de que no será la última vez, solo nos queda seguir preparándonos al máximo, desarrollar todos nuestros planes de contingencia... ¡Y confiar en que la próxima vez no sea en viernes! 😅😅😅

 

¡Feliz domingo! ¡Digo sábado!


Newsletter patrocinada por:

Cybersec - Networks - Sysadmin - Hosting


🔗 Cajón desastre... 🔗

Los enlaces que he ido recopilando esta semana DE OTROS TEMAS:

 

 

 

 

 

 

 

 


Y fin...

Ya sabes que nos seguimos hablando por los canales habituales: Twitter y Telegram.

¡Esperamos no tener que enviar ninguna otra newsletter de urgencia!

Por cierto, si quieres puedes invitarnos a un cafelito. ☕☕☕

Al final un problema monumental se soluciona desde la línea de comandos heredada de MS-DOS... ¡El mundo está realmente loco!