Machine Learning en Ciberseguridad, desde el mito a la realidad.

Adrian Ponce
17 dic 2021
4 min de lectura

El novelista Gustave Flaubert decía: “No hay ninguna verdad, solo existe la percepción”. Observando el mercado de las herramientas de ciberseguridad y también escuchando las conversaciones de pasillos que suelen darse en esos costosos eventos donde se teoriza sobre el tema, se podría concluir que para muchas personas, conceptos como el Machine Learning e Inteligencia Artificial son percibidos como “la gran solución” a los problemas en esta área crítica.

Esta forma de apreciar el tema, incluso llega a considerarse como una suerte de solución mágica que, mediante un funcionamiento autónomo, desatendido o con muy poca intervención humana, es capaz de reconocer nuevas amenazas y bloquearlas automáticamente, siendo solo necesario implementar la tecnología, adicionándole algunas horas de un “especialista” que intervendrá solo si algo deja de funcionar. Permítanme decirles que esta percepción además de ser errada, constituye “per se” un peligro en sí misma.

Antes que todo, si miramos la definición de Machine Learning podemos observar que estamos hablando de decisiones basadas en datos, pero es importante considerar que la palabra “decisiones” tiene extrema relevancia al igual que la significación del concepto “datos”.

La toma de decisiones:

Usando el aprendizaje automático, los sistemas de ciberseguridad pueden analizar patrones y aprender de ellos para ayudar a prevenir ataques similares y responder a los cambios de comportamiento. También pueden reducir el tiempo dedicado a las tareas rutinarias y permitir a las organizaciones utilizar sus recursos de forma más estratégica. En resumen, el aprendizaje automático permite hacer que la ciberseguridad sea más sencilla, más proactiva, menos costosa y mucho más eficaz, ayudando a los equipos de ciberseguridad a ser más eficientes a la hora de prevenir amenazas y responder a ataques activos en tiempo real. La toma de decisiones, tanto del ajuste de los modelos como de las acciones, es y seguirá siendo una tarea humana, por lo tanto es necesario que ese equipo posea la capacidad de analizar los resultados y así resolver de manera correcta. Ese grupo humano debe poseer conocimientos reales de ciberseguridad (no solo de herramientas) y además estar altamente familiarizado con el ecosistema de TI, que es foco del monitoreo.

Los Datos:

Acá también tenemos otro problema de percepción. Muchos dicen que “cuanto más datos mejor”, pero en realidad, los modelos de ML solo pueden funcionar correctamente, si los datos subyacentes que apoyan el aprendizaje automático proporcionan la imagen completa del entorno. Si en lugar de eso solo inyectamos cualquier tipo de data, sin contextualización, solo estaremos cumpliendo con la famosa premisa de “basura que entra, basura que sale”.

Así pues, no se trata sólo de la cantidad de datos, sino también de su calidad. La información debe ser parte de un contexto completo, relevante y rico, recogida de cada fuente potencial, en muchas partes del ecosistema de TI, no solo de las herramientas de ciberseguridad sino también de las aplicaciones, infraestructura, sistemas operativos, accesos, la red, etc.

De la misma forma, es necesario depurar la data, generar una buena selección, establecer limpieza de la misma para darles sentido y así definir resultados.

Es fundamental centrarse en esa información, para que el aprendizaje automático tenga éxito en la ciberseguridad ya que para desarrollar patrones, se necesita una gran cantidad de datos ricos y de amplias fuentes.

En la medida en que esto sea realizado de la manera correcta, recién entonces estaremos en condiciones de construir diferentes modelos, modelar aspectos del comportamiento, para luego utilizar algoritmos que incidan en la toma de decisiones, sobre el cuándo emitir alertas, cuándo tomar medidas para responder a posibles amenazas, cuándo construir protecciones preventivas.

Entonces para que pueda cambiar nuestra percepción sobre el Machine Learning, quizás deberíamos estar claros respecto a si disponemos de datos adecuados para responder a un ataque activo. Las preguntas abundan: ¿qué tipo de datos estamos recopilando?, ¿tenemos información sobre la red?, ¿registros de sistemas operativos, sobre las distintas nubes que estamos usando?, ¿sobre las aplicaciones, herramientas o controles de ciberseguridad?. ¿Están los datos estructurados de forma que puedan utilizarse para la toma de decisiones y la detección de amenazas, o simplemente solo están ahí?; ¿Nuestros datos están normalizados?, ¿podemos aprovechar eficazmente los que provienen de múltiples fuentes?; ¿Los analistas están capacitados para interpretar los datos y detectar ataques?; ¿estamos utilizando automatización tanto para la detección como para la respuesta?. Si muchas de las respuestas a estas preguntas no son satisfactorias, no importa la cantidad de dinero que invirtamos en tecnología de ML, pues definitivamente no podremos sacarle provecho y solo será un mero “check” cuando nos pregunten si la compañía posee ese tipo de tecnología. En este caso como en otros de ciberseguridad el verbo poseer debe ir acompañado del verbo usar y del verbo mejorar, para que la inversión no constituya un desperdicio de recursos.

Para finalizar, otra frase, esta vez de Steve Easterbrook: “Cuando haces las cosas bien, ocurren cosas buenas”. Cuando se trata de ciberseguridad, el potencial del Machine Learning bien implementado y operado, constituye un impacto dramático y positivo, en la mejora continua de la ciberdefensa y ya está comenzando a ser una herramienta imprescindible para contrarrestar la sofisticación de las amenazas. Pero este potencial solo podrá ser aprovechado por las empresas que estén dispuestas a dar el siguiente paso y pasar del paradigma “install it and forget it” al “install it and grow it”.

Machine Learning en Ciberseguridad, desde el mito a la realidad.

Entradas recientes

Comentarios