Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Metodología de análisis de la intencionalidad en Internet y redes complejas

1,079 views

Published on

Libro del Curso de Verano 2013. 141 páginas.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Metodología de análisis de la intencionalidad en Internet y redes complejas

  1. 1. Metodología de análisis de la intencionalidad en Internet y redes complejas Cursos de Verano 2013 Universidad Rey Juan Carlos Aranjuez, del 8 al 10 de julio de 2013
  2. 2. EDICIÓN PRODUCCIÓN DISEÑO Y MAQUETACIÓN Miguel Salgueiro / MSGráfica
  3. 3. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR ÍNDICE INTRODUCCIÓN........................................................................................................................................................................................... 5 Santiago Moral PRÓLOGO........................................................................................................................................................................................................ 7 Regino Criado LA TEORÍA DE LAS REDES COMPLEJAS: INTRODUCCIÓN Y APLICACIONES............................................................ 9 Stefano Boccaletti MODELADO DE RIESGOS DE ESCALA LIBRE............................................................................................................................... 21 Regino Criado / Víctor Chapela THREAT HORIZON 2015: MÁS PELIGRO POR AMENAZAS CONOCIDAS........................................................................ 37 Adrian Davis CASANDRA: UN FRAMEWORK PARA LA GESTIÓN DEL RIESGO TECNOLÓGICO.................................................... 49 Juan Manuel Vara / Marcos López CASANDRA EN LA PRÁCTICA: LA ELABORACIÓN DE UN PLAN DIRECTOR............................................................... 59 Rafael Ortega
  4. 4. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 MESA REDONDA: METODOLOGÍAS Y HERRAMIENTAS PARA EL ANÁLISIS DE RIESGOS INTENCIONALES.................................... 67 Intervienen: Javier Candau Juan Corredor Pinilla José Antonio Mañas Rafael Ortega García Modera: Luis Fernández Delgado TÉCNICAS AVANZADAS PARA DETECTAR ESQUEMAS COMPLEJOS DE FRAUDE EN GRANDES CONJUNTOS DE DATOS............................................................................................................................................ 87 Stephen Moody MECÁNICA ESTADÍSTICA Y TEORÍA DE LA INFORMACIÓN COMO BASE DE LA SEGURIDAD ESTADÍSTICA....................................................................................................................................................... 107 Teresa Correas / Roberto Ortiz / Santiago Moral ÁLBUM FOTOGRÁFICO............................................................................................................................................................................ 125 Los contenidos de las ponencias están disponibles en la página oficial de CIGTR www.cigtr.info. Se pueden consultar las transparencias y los vídeos en los canales oficiales de CIGTR en YouTube y SlideShare.
  5. 5. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR os límites del mundo digital crecen de manera imparable. Llega al punto de ser muy complejo discernir la frontera con el mundo físico. Ya no hablamos del mundo conectado (‘always online’) sino de un universo hiperconectado 1 en el que conviven múltiples conexiones móviles por individuo, cifras en continuo incremento que pueden llegar a alcanzar los 5.000 millones de usuarios en 2020 (según informes de J.P. Morgan), aproximándose a la población total del planeta. El auge de los dispositivos móviles –la telefonía móvil interactiva (smartphones), tabletas e incluso los incipientes “appcesorios”– y la adopción de los paradigmas descentralizados y virtuales del cloud contribuyen al continuo crecimiento de los sistemas de información. La oferta de contenidos y servicios para los usuarios es cada vez más amplia e interconectada. Las identidades digitales se comparten y gestionan en ámbitos que deben salvaguardar los derechos de privacidad de las personas. En este escenario, los sistemas de información son cada vez más dinámicos y heterogéneos en cuanto al número y tipo componentes. Las interconexiones entre ellos se incrementan. Esta complejidad dificulta el análisis y la gestión de riesgos bajo los paradigmas tradicionales. Resulta poco viable tratar de forma individual cada uno de los componentes. Es más, a estas circunstancias tenemos que sumar la continua y rápida evolución del entorno que rodea a las organizaciones. Los individuos que perpetran actividades de fraude y ataques contra los objetivos corporativos están cada vez más organizados y perfilan sus capacidades profesionales con el objeto de adaptarse con mayor agilidad ante los cambios en las estrategias de defensa y sacar el mayor INTRODUCCIÓN Santiago Moral Rubio Director de IT Risk, Fraud Security. Grupo BBVA 1 Mobile World Congress 2013: www.lavanguardia.com/tecnologia/20130124/54363068379/ llega-el-mundo-hiperconectado.html#ixzz2wrxTRb00 
  6. 6. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 provecho de esta complejidad creciente. Estamos hablando, sin lugar a dudas, de equipos con modelos de negocio cuyos niveles de madurez son altos. La evaluación del riesgo intencional asociado a estos escenarios requiere de herramientas y metodologías más ágiles y que se adapten al continuo dinamismo de estas circunstancias. Se abre así una gran oportunidad para crecer en estos ámbitos y promover entornos de investigación en los que colaboren tanto profesionales del mundo empresarial como académicos. Se necesita enriquecer la visión de negocio con nuevas alternativas científicas que logren métodos de análisis y gestión que, por un lado, sean capaces de tratar los sistemas como un todo más allá de sus elementos individuales y, por otro, ofrezcan agilidad de adaptación a estos entornos tan dinámicos y competitivos. Desde el Centro de Investigación para la Gestión Tecnológica del Riesgo (CIGTR) se promueven iniciativas de investigación en estos ámbitos. Destacando también las conferencias y actividades de formación que anualmente organizamos con el objetivo de promover espacios de intercambio de conocimiento Universidad-Empresa. Este es el tercer curso que desde el CIGTR organizamos en el marco de los Cursos de Verano de la Universidad Rey Juan Carlos. En la última edición asistieron más de 190 personas de procedencia muy variada. Profesionales de la seguridad de la información convivieron durante estos tres días con científicos de ámbitos tan diversos como las Ciencias de la Computación, Física o Matemática Aplicada; no faltó tampoco la presencia de estudiantes universitarios y doctorandos dispuestos a aprender sobre estas iniciativas tan innovadoras. A través de esta publicación trasladamos a aquellas personas interesadas la transcripción de las ponencias presentadas en este Curso de Verano.
  7. 7. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR a sociedad, por lo general, no reconoce a los matemáticos como personas creativas. De hecho, en palabras de J. D. Barrow, la definición que se suele hacer de un matemático es “aquel tipo de persona con la que usted no quisiera encontrarse en una fiesta”. Sin embargo, para hacer ciencia y, en particular, para resolver problemas matemáticos, se requiere una gran dosis de creatividad. De no ser creativo, ¿cómo se las habría ingeniado Arquímedes para verificar si la corona del rey Hieron era o no de oro auténtico? ¿De qué modo habría conseguido el inventor de la máquina Enigma un sistema de cifrado capaz de traer de cabeza a los aliados durante la segunda guerra mundial? ¿Cómo podría ocurrírsele a alguien un método para volar, y llegar incluso hasta la luna? Resolver un problema matemático implica un proceso creativo que debe complementarse a veces con grandes dosis de dedicación y esfuerzo. La creatividad no es patrimonio de una única área, y una componente muy importante de la misma consiste en que permite fomentar y tender puentes entre distintas disciplinas. Las matemáticas aparecen ligadas a la creatividad para resolver problemas muy diferentes y, también, con técnicas muy variadas. De hecho, las matemáticas constituyen el lenguaje de la ciencia, un lenguaje simbólico que destierra la ambigüedad y la duda, el único lenguaje con una lógica incorporada que hace posible establecer una íntima conexión con los mecanismos de funcionamiento más profundos de la naturaleza. En este contexto es también importante tener presente que las matemáticas evolucionan y cambian a gran velocidad, y que configuran una parte importante del motor que hace avanzar la sociedad y la tecnología. Muchos ejemplos sostienen esta afirmación. El caos y los fractales han sobrepasado ampliamente los límites que PRÓLOGO Regino Criado Catedrático de Matemática Aplicada de la Universidad Rey Juan Carlos
  8. 8. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 tenían en sus orígenes y se han extendido por todo el mundo científico, toda vez que se superaron las argumentaciones realizadas por unos pocos científicos intransigentes que alegaban que el caos se reducía poco más o menos a errores del ordenador y que en realidad el caos no existía. La forma clásica de la teoría de nudos se trasplantó a la bioquímica del ADN y diversos avances en geometría algebraica han permitido desarrollar algunos de los algoritmos asimétricos más conocidos en el ámbito de la Criptografía. Muchas áreas de la investigación matemática se ven ahora enriquecidas por el contacto activo y directo con las ciencias aplicadas, debiéndose destacar en este punto que una característica especialmente relevante de la ciencia de principios del siglo XXI es el desvanecimiento de las fronteras tradicionales de las materias. Hace unos cincuenta años que el matemático Paul Erdös propuso un enfoque particularmente sencillo para las redes de comunicación: junto con su colaborador Alfred Rényi inventó la teoría formal de grafos aleatorios, una red de nodos conectados por enlaces de un modo puramente aleatorio, hecho clave relacionado con el nacimiento de la teoría de redes complejas. Es, precisamente, en el ámbito de las redes complejas y de la búsqueda de soluciones innovadoras para el análisis, evaluación y gestión de los riesgos intencionales y prevención del fraude, donde tienen su lugar las ponencias desarrolladas en el curso que presentamos, “Metodología de Análisis de la Intencionalidad en Internet y Redes Complejas”, patrocinado por el Centro de Investigación para la Gestión Tecnológica del Riesgo (CIGTR) y que me cabe el honor de presentar. La teoría y aplicaciones de las redes complejas, su utilización en el modelado de riesgos, la metodología CASANDRA, las técnicas avanzadas para la detección de esquemas de fraude complejos en grandes bases de datos, y el papel de la mecánica estadística y la teoría de la información como bases de la seguridad estadística, son algunos de los temas que se abordaron en las diferentes ponencias del curso que aparecen recogidas en este volumen. Todos estos temas configuran parte de la brillante colaboración iniciada hace más de tres años entre el CIGTR y la Universidad Rey Juan Carlos y que esperamos tenga el alcance y el éxito cuyos primeros resultados parecen auspiciar, y que ha permitido, entre otras cosas, presentar una panorámica de algunos de los avances realizados, donde la creatividad en la búsqueda de soluciones y la innovación en los campos de gestión del riesgo y prevención del fraude han presidido dicha colaboración.
  9. 9. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR l objetivo de esta ponencia es hacer una breve presentación introductoria de las redes complejas, centrándonos particularmente en una cuestión que puede tener un mayor interés para ustedes: cómo a partir de los datos disponibles acerca de un determinado problema, se puede tener una representación de redes complejas. Esto es prioritario, puesto que las redes complejas son herramientas y modelos que permiten el tratamiento de sistemas compuestos por numerosos elementos que interactúan entre sí. En este sentido, existe una abundante literatura sobre qué tipo de indicadores pueden caracterizar este tipo de sistemas una vez que se tenga una representación de las redes; por ejemplo, una vez que tengamos una red podemos hacer una clasificación de los diferentes componentes, especificando cuáles son los más importantes o los más vulnerables, sabremos dónde hay que proteger la red, dónde hemos de proteger el sistema frente a posibles ataques o dónde actuar para que éste tenga el comportamiento deseado. Así pues, el primer paso que hay que dar para analizar información de un sistema complejo es transformar un enorme repositorio de datos de este sistema en una representación de red que sea útil para realizar análisis completos. Tomemos como ejemplo la red que se visualiza en la diapositiva 1, esta es la representación de Stefano Boccaletti CNR-Instituto de Sistemas Complejos (Florencia, Italia) El contenido de esta ponencia (diapositivas y contenidos audiovisuales) está disponible en la página oficial de CIGTR www.cigtr.info LA TEORÍA DE LAS REDES COMPLEJAS: INTRODUCCIÓN Y APLICACIONES
  10. 10. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR10 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 un repositorio de una red social que muestra las colaboraciones entre actores de cine, se han establecido conexiones entre actores cuando éstos han actuado en la misma película. Esto nos permite estudiar esta red social de este tipo y, a partir de dicha estructura, saber cuál ha sido el actor que ha tenido una mayor influencia en un determinado género o cómo funciona la estructura de algunos géneros de película. Por tanto, la idea que se plantea es cómo transformar los repositorios de datos en objetos de este estilo (en redes) que posteriormente puedan ser de interés para el análisis y la obtención de información del propio sistema. En la diapositiva 4 se muestra un resumen del contenido de esta charla. A lo largo de las charlas se presentarán tres formas de redes: Redes Físicas, Redes Funcionales y Redes Parenclíticas. Cada forma se corresponde con una clase particular de sistemas. REDES FÍSICAS Una Red Física es la representación de un sistema donde el sistema mismo sugiere cuáles son los elementos –a los que denominamos nodos o elementos unitarios– y cuáles son las interacciones entre ellos (diapositiva 5). Por esta razón se denomina Física, porque es el propio sistema el que sugiere la forma de representarlo con una red. Por ejemplo, se podría mapear la información en una red de lo que sucede en una sociedad considerando a cada individuo de dicha sociedad como un nodo y cada relación social entre individuos (de familia, trabajo, amistad, etc.) como un enlace o interacción entre nodos. La relación social se puede seleccionar considerando el problema a abordar (estudiar la influencia de las relaciones de trabajo en los comportamientos sociales, las relaciones de amistad con las modas o tendencias sociales, etc.). Otro ejemplo de red física sería la representación de la Word Wide Web (WWW), aunque realmente sea ésta una red virtual. La WWW es un enorme contenedor de páginas web. Una representación en red física de ésta tendría como nodos los documentos de las páginas web y como enlaces o interacciones entre nodos los links o enlaces a otras páginas web que están contenidos en cada página. Actualmente, esta red compleja es la más grande que podemos imaginar en cuanto a la cantidad de elementos que la componen, ya que hay cientos de millones de documentos o nodos que están interconectados entre sí. Las representaciones en red de las redes de transporte son también ejemplos importantes de redes físicas. Por ejemplo, la red de transporte aéreo se podría representar como una red cuyos nodos son los aeropuertos del mundo y los enlaces o interacciones entre nodos corresponderían con los vuelos realizados entre aeropuertos. Otro tipo de red de transporte es la de carreteras, se puede representar cada ciudad como un nodo y las carreteras como enlaces. En estos casos, se pueden estudiar las criticidades en el transporte de personas o mercancías una vez que se ha tenido en cuenta la representación de
  11. 11. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 11 red a partir de toda la información de los vuelos/ viajes disponibles. Como podemos observar, en todos estos ejemplos el sistema mismo sugiere qué o quiénes son los nodos y qué o quiénes son los enlaces de una forma bastante sencilla. Red homogénea y red heterogénea En la diapositiva 6 se analiza en más detalle el ejemplo correspondiente a las redes de transporte (por carretera y por transporte aéreo). Como podemos comprobar, existen diferencias fundamentes entre las redes de transporte por carretera y las de transporte aéreo, aunque a priori la estructura espacial de ambas es similar (una ciudad dispone de conexiones de carreteras y los aeropuertos suelen estar localizados cerca de las ciudades). Para ver las diferencias entre ambas redes, vamos a definir en primer lugar el concepto de grado de un nodo “k” como el número de enlaces del nodo al resto de nodos de la red. En la red de carreteras que se muestra en la diapositiva 6, la ciudad de Kansas tiene un grado de nodo igual a 4 (k=4) ya que dispone de cuatro carreteras, una que va hacia San Luis y otras tres hacia Omaha, Wichita y Denver, correspondientemente. Además, podemos hacer una representación gráfica de la distribución de grados, poniendo en el eje de abscisas el grado “k” y en eje de ordenadas el número de nodos de la red que tienen un valor determinado de grado “P(k)”. Esta distribución de grados se considera también la distribución de probabilidad de un grado en la red (es decir, se determina así cuál es la probabilidad de tener un nodo en la red con un grado determinado). Observando las representaciones gráficas de las distribuciones de grado de las dos redes de transporte que figuran en la diapositiva 6, se puede apreciar una diferencia fundamental. En el caso de la red de carreteras, los ejes tienen una escala lineal y la distribución está centrada en un determinado valor promedio “k”, tiene un ancho relativamente pequeño (sigma) y es exponencial de caída a la derecha y a la izquierda del valor promedio (distribución de Poisson). En el caso de la red de transporte aéreo, nos encontramos con una distribución por ley de potencias (power-law distribution) donde ambos ejes tienen una escala logarítmica (es decir, en este caso la probabilidad de encontrar un grado “k” es igual a “k elevado a menos un determinado exponente”). El primer tipo de red, la de carreteras, se denomina Red Homogénea, ya que cuando escogemos un nodo al azar, vamos a encontrar que tiene aproximadamente k/2 conexiones (k/2 más o menos sigma es prácticamente k/2 ya que sigma es generalmente un valor pequeño). En cambio, el segundo tipo de red, la de transporte aéreo, se denomina Red Heterogénea ya que en ella conviven simultáneamente nodos de grado muy alto y nodos de grado muy bajo (hay aeropuertos donde se concentran muchas conexiones y funcionan de concentradores o hubs, como puede ser el aeropuerto de Madrid o Nueva York, y otros con muchas menos conexiones denominados aeropuertos periféricos como puede ser el aeropuerto de Santander).
  12. 12. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR12 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 Desde el punto de vista del riesgo, cuando la red es homogénea la estrategia para estudiar dicho riesgo se denomina random failure o fallo aleatorio. En este caso, dado que los nodos son más o menos equivalentes respecto a su grado, es suficiente con lanzar un ataque a uno de ellos escogido al azar y ver cómo reacciona la red ya que dará aproximadamente la misma respuesta para cualquier nodo que elijamos. Por el contrario, en las redes heterogéneas hay que hacer una distinción muy clara entre un fallo aleatorio (random failure) y un ataque dirigido (targeted attacks). Por ejemplo, un terrorista que desee hacer daño a la red tenderá a atacar los aeropuertos de conexión (hubs) no los aeropuertos periféricos. Como hemos visto, en las redes heterogéneas la distribución de grado (power-law distribution) denota la existencia de pocos nodos concentradores o hubs (en el lado derecho de la gráfica), es decir, existe una probabilidad baja de encontrar nodos con un alto grado o gran número de enlaces; sin embargo existe una probabilidad alta de encontrar al azar (random failure) nodos periféricos dado que la mayor parte son de este tipo. Sin embargo, la robustez de la red depende de los ataques dirigidos (targetted attacks) a los concentradores o hubs. Por consiguiente, de cara a proteger la red, es importante tener una clasificación de los nodos y saber cuáles son los más importantes. Redes físicas. Ejemplos Otro tipo de red sería la red troncal de Internet (Internet backbone). En la diapositiva 7 se muestra el aspecto de la red troncal de Internet en Estados Unidos en 2001, donde cada nodo es un router (enrutador) y cada enlace una conexión entre dos enrutadores. Los nodos tienen un color determinado dependiendo de su grado y, como se puede observar, se trata de una red muy heterogénea, porque coexisten nodos con muchos enlaces (amarillo) con nodos en la periferia de la red que, a lo mejor, tienen un solo enlace (rojo). A continuación se expone un ejemplo de red física en el contexto de las redes sociales denominado índice de menciones o citaciones científicas (diapositiva 8 – science citation index). Los trabajos científicos que se han publicado en las revistas hacen referencia a otros trabajos previos y, a su vez, son referenciados en trabajos que se publicaron posteriormente. En este caso, en la red se representa cada trabajo como un nodo y cada enlace como una referencia a un trabajo. De este mapeo de red se pueden obtener indicadores del grado de influencia de un trabajo determinado en un sector, o en las actividades de investigación de dicho sector, incluso cuáles son los sectores de interés para un científico a la hora de publicar algo, entre otros ejemplos. También se podría considerar un ejemplo con redes de colaboración. Hemos visto anteriormente un ejemplo que mapeaba los datos de actores cinematográficos pero podemos también realizar estudios con datos relativos a científicos (diapositiva 9 – science coauthorship). Empleando el mismo índice de menciones, se considera en este caso que los nodos son los científicos y los enlaces las colaboraciones entre los científicos que trabajan juntos en un proyecto. En esta red se podría
  13. 13. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 13 estudiar el grado de influencia de un científico en uno o varios sectores multidisciplinares. Por ejemplo, en el campo de investigación sobre redes complejas colaboran ingenieros, matemáticos, físicos, etc. También sirven para analizar la capacidad de interactuar que tiene la comunidad científica. Este tipo de red se puede aplicar en cualquier otra sociedad que coparticipa en una determinada actividad. Hablemos ahora de ecología. Otro ejemplo de redes físicas son las cadenas alimenticias (diapositiva 10 – food webs), en las que los nodos son las especies y los enlaces son las relaciones “presa-depredador”. A este respecto, se pueden observar en estas redes actividades de canibalismo en las que las especies se comen a sí mismas, éstos casos se representan mediante “auto-enlaces”. Esta representación de red es muy importante para la ecología, ya que sirve para ver qué ocurre con la cadena alimenticia cuando una de las especies está en riesgo. De hecho, es la base de múltiples nuevos estudios sobre sostenibilidad medioambiental. Otro ámbito de aplicación de las redes físicas es en estudios de epidemiología mediante, por ejemplo, el estudio de las redes de contactos sexuales. Se analiza así cómo una enfermedad se propaga en una población. En concreto, se realizó un experimento en Suecia, en el que se preguntó a hombres y mujeres con cuántas personas mantuvieron relaciones sexuales en los últimos diez años (diapositiva 11). Podemos ver que la red es muy heterogénea y el factor de escala está muy claro. Es por ello que se pueden aplicar estos estudios para desarrollar políticas de vacunación para enfermedades que se transmiten por contacto sexual (se localizaría los nodos hubs). Los ejemplos mostrados en esta sección corresponden con ejemplos de redes físicas. En ellos ha quedado claro que el sistema mismo sugiere qué elementos serán los nodos y cuáles los enlaces. REDES FUNCIONALES La cuestión que se plantea en este tipo de redes es cómo representar la información de una gran cantidad de series temporales en una red compleja. Un ejemplo sería la información obtenida de una electroencefalografía, ésta es una colección de series temporales de datos tomadas en distintas zonas del cerebro. Otro ejemplo sería la información que arroja la evolución a lo largo del tiempo de las acciones de una empresa que cotiza en Bolsa (diapositiva 12). El concepto de red funcional está reflejado en su propia denominación: función. Dependiendo del problema a resolver, se define una métrica, es decir, una medida (por ejemplo, la correlación de dos series temporales, o el coeficiente de Pearson, o sincronía de fase – frecuentemente utilizada en estudios de epilepsia, etc.) con la que poder mapear grupos de series temporales en una red. Este tipo de redes se denomina “all-to-all coupled” ya que cada nodo está acoplado con todos los demás y el valor del acoplamiento es el valor de la medida correspondiente a la pareja de series analizadas. Pongamos un ejemplo, tras
  14. 14. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR14 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 seleccionar una determinada medida, se compara en base a dicha medida dos series temporales, por ejemplo, la 1 y la 2, y se obtiene un valor que se asocia al enlace que une el nodo 1 con el nodo 2 en la red. Del mismo modo, se aplicaría la misma medida para el resto de pares de series sucesivamente hasta obtener finalmente una red con todos los nodos conectados entre sí y los enlaces con valores asignados en base a la medida utilizada. Este tipo de redes se denomina weighted clique, esto es, una red en la que todos los nodos están unidos (todos con todos) de una forma ponderada ya que cada enlace tiene asociado un número real que es el valor obtenido aplicando la medida. Una vez obtenida dicha red, se desea simplificar el set de información para facilitar los análisis posteriores. Para ello se establece un umbral, que tiene que estar entre “0” y “1”, con lo que transformamos la red funcional ponderada en una red estructurada de ceros y unos. En este caso, a todos los valores que estén por encima de un umbral los ponemos “1” y a los que estén por debajo “0”. Por lo tanto, partir de dicho umbral construimos una red donde hay nodos conectados y nodos que no. Estudiando las propiedades de estas redes podemos extraer información del sistema original. Estas redes no tienen nada de físico. Los nodos son las series temporales y los enlaces dependen del tipo de medida que se ha elegido. Es por ello que se denominan redes funcionales porque tienen dos elementos de subjetividad: por un lado, el tipo de medida seleccionada como la que ofrece mejor información sobre el sistema, y, por otro, el umbral seleccionado (cuando se aplica se pierde parte de información del sistema). Nuestro grupo ha estudiado un método que ofrece criterios de optimización sobre el umbral y sobre las medidas (ver diapositiva 12). La cuestión se enfoca en definir el umbral y la medida con los que se obtenga la máxima información sobre un problema de cara a su resolución. En la diapositiva 13 se muestra un ejemplo relativo a un trabajo que hemos realizado en Israel para el tratamiento de la epilepsia. Existen diversos métodos para combatir la epilepsia, sin embargo hay personas que no responden a los tratamientos farmacológicos. En estos casos es necesario extraer quirúrgicamente la porción del cerebro donde se localiza el foco de la epilepsia. Este método se aplica habitualmente en niños de 7 a 14 años que tienen ataques de epilepsia cada tres o cuatro horas y que no pueden hacer vida normal. Antes de la intervención quirúrgica, se lleva a cabo una prueba denominada electroencefalograma intracraneal, para ello se abre la cabeza del paciente y se ponen en la superficie del cerebro unos electrodos que van dando información que permitirá saber dónde se encuentra el foco de la epilepsia. La señal que proporcionan los electrodos es limpia, libre de ruido, al estar colocados justo encima del cerebro. La medida que se utiliza es la sincronía de fase, es decir, se asocia una fase a cada dato obtenido y se mide la correlación entre dichas fases, porque se sabe que la epilepsia es un problema de sincronía de fases, puesto que en un ataque epiléptico todas las neuronas del cerebro se sincronizan a la vez, provocando que sólo puedan
  15. 15. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 15 hacer una única tarea y se pierda la modularidad para hacer distintas tareas. A partir de los datos obtenidos con los electrodos creamos una red funcional (diapositiva 14). En ella se visualiza que, entre dos instantes de tiempo determinados la fase está en sincronía y ha ocurrido un ataque epiléptico. Una vez estudiado el primer ataque, se analiza también la preparación para el siguiente. En la red podemos ver que ese primer ataque permanece latente, es decir, en algunas áreas los nodos permanecen en sincronía de fase tras el primer ataque, después se incrementa poco a poco y se dispara. Ésta es la razón por la que posteriormente todo el sistema se “resincroniza”. Es como si existiera una zona del cerebro que mantiene memoria de ese estado y que se dispara nuevamente en el futuro. Así pues, ésta es justamente el área que hay que extirpar, la que hace de disparador escondido del sistema. REDES PARENCLÍTICAS Existe un gran número de sistemas que no se pueden representar como redes físicas, o de los que no se dispone de series temporales que puedan ser mapeadas en redes funcionales. Un caso típico son los análisis de sangre, cuyo resultado es estático (colesterol, glóbulos blancos, etc.) –ver diapositiva 16–. En este caso, la cuestión que se plantea es ¿puedo hacer una representación que me diga algo sobre una persona a partir de estos datos: si está enfermo o sano, si tiene una determinada clase de enfermedad o si tiene un riesgo específico? Otro ejemplo son las expresiones genéticas, como pueden ser las de una planta. Si sufre algún tipo de trastorno durante su crecimiento, podemos sacar una foto de sus genes en un instante de tiempo determinado. Pero, ¿qué podemos decir de ella? En general, esto lo podemos aplicar a cualquier prueba médica, por ejemplo las resonancias magnéticas. Éstas tienen una resolución espacial muy alta, ya que a nivel de un grupo de neuronas de cerebro puedo hacer una estimación del consumo de oxígeno. Sin embargo, tienen una resolución temporal muy mala, ya que sólo pueden tomar imágenes de neuronas cada diez segundos y éstas se disparan o reaccionan en periodos del orden de los milisegundos, lo cual no sirve para una red funcional al no poder representar la dinámica de una neurona. Otro ejemplo puede ser la evolución del producto interior bruto (PIB) de un país, ya que la foto la obtenemos sobre periodos demasiados largos (meses), lo que implica unas evoluciones temporales demasiado grandes sobre las que no es posible hacer un análisis funcional para responder a preguntas como: ¿Qué sector del país está en crisis? ¿Cómo la crisis de un sector puede afectar a otro? ¿Cómo una crisis en el sector financiero puede afectar, por ejemplo, al sector servicios? Por tanto, tenemos datos estáticos que son expresiones de variables o características. Y el problema pasa por que no podemos construir redes físicas o funcionales a partir de ellos, dado que no es evidente la relación (p.e.: colesterol y glucemia).
  16. 16. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR16 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 Parénclesis El concepto de parénclesis fue definido hace mucho tiempo por Leucipo, Demócrito, Epicuro y Tito Lucrecio Caro (diapositiva 18). Hay que destacar los trabajos de Lucrecio, autor de De rerum natura, obra en la que se habla de la teoría cosmogónica que Demócrito y Epicuro ya habían puesto sobre la mesa (diapositiva 19). El principal concepto que plantearon fue la indivisibilidad de la materia, compuesta de componentes llamados átomos, palabra de origen griego que significa “que no se puede dividir”, “a” (no) y “tomo” (divisible). Posteriormente se demostró científicamente que la palabra “átomo” se empleaba incorrectamente al comprobar que éstos sí se pueden dividir. No obstante, ellos plantearon el concepto de la existencia de un elemento fundamental o ente indivisible y estudiaron cómo se podía haber producido el mundo a partir de estos elementos (actualmente se habla de quark, bosón de Higgs, etc.). En esta teoría cosmogónica se planteaba que estos elementos caían del vacío como gotas de lluvia describiendo trayectorias paralelas (es decir, suponían que nunca se iban a encontrar). Para justificar la formación de moléculas mediante la unión de átomos, ellos planteaban que se tenía que producir, de forma impredecible, una desviación de la trayectoria a través de la cual un átomo se encontrara con otro. A este concepto lo denominaron “parénclesis”, es un concepto muy importante en la historia de la Filosofía. En la diapositiva 19 se muestra un fragmento en inglés de De rerum natura donde se define el concepto de “parénclesis” como unpredictable swerve (desviación impredecible). Este es el origen de la palabra parénclesis, que significa fundamentalmente desviación. Veamos cómo hemos utilizado este concepto. En nuestros estudios con redes disponemos de un determinado número “n” de sujetos o sistemas {s1 , s2 , …, sn }. Por ejemplo, si hablamos del caso de los análisis de sangre, dispondremos de millones de personas que se han hecho el mismo análisis de sangre, cada persona es un sistema o sujeto. Consideramos que cada sujeto está clasificado según el problema que deseamos abordar (por ejemplo, sujetos “sanos” y “enfermos”), tenemos, por tanto, “m” clases a las que pueden pertenecer estos sujetos {c1 , c2 , … cm }. Cada sujeto o sistema “i” está representado o identificado por un vector de “p” características fi = (f1 i , f2 i , … fp i ). Por ejemplo, en el caso de los análisis de sangre las características serán: colesterol, glucemia, etc. Ahora hacemos la siguiente hipótesis: cada una de estas “m” clases (sano o enfermo, por ejemplo) se corresponderá en el espacio de las “p” características a un vínculo o constraint, en inglés, definido del siguiente modo F(f1 , f2 , … fp )=0. Es decir, por ejemplo si el sujeto está sano, no significa que el valor de su colesterol esté comprendido entre dos valores, sino que las características (“p” variables: colesterol, glucemia, etc.) de su análisis de sangre son tales que la función Fsano es igual a cero. Ésto se denomina en términos matemáticos vínculo o constraint, en inglés (ver diapositiva 20) y la función Fsano es, en sí, el modelo.
  17. 17. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 17 En otras palabras, el vínculo Fsano (f1 , f2 , … fp )=0 determina la combinación de características asociadas a un sujeto de clase “sano” y el vínculo Fenfermo (f1 , f2 , … fp )=0 correspondería con el caso de estudio “enfermo”. En general, habrá “m” vínculos diferentes, uno por cada una de las “m” clases. Sin embargo, no es fácil obtener una expresión exacta de estas funciones o modelos F ya que pueden llegar a tener muchas variables. En expresiones genéticas de plantas, por ejemplo, si tenemos 22.900 genes, tendríamos que escribir una función F de 22.900 variables, lo cual es prácticamente imposible. Por tanto, la idea que se plantea con las redes parenclíticas es tomar del espacio de las p variables o características todos los planos posibles o, en otras palabras, todas las proyecciones bidimensionales posibles (por ejemplo, las parejas de variables como “glucemia y colesterol” o “colesterol y glóbulos blancos”). Para cada una de estas parejas de características i,j (considerando que i,j=1,…,p) la población (los sujetos) se representan como una distribución de puntos en el espacio de dimensión p=2. Aquí sí podemos conseguir las proyecciones del vínculo, que serán funciones Fij tales que Fij (fi , fj )=0, en el plano ij. Es decir, estas proyecciones (modelos locales) Fij corresponden al corte de ese vínculo F con cada uno de los planos que tengo en el espacio de las características ij. Existen diversos métodos para hacer esto, como el ajuste polinomial o métodos de minería de datos (Support Vector Machine, Artificial Neural Networks, etc.), a través de éstos se interpola la colección o distribución de puntos con una línea que nos da el modelo de la pareja de características (por ejemplo, el modelo de cómo se comportan el colesterol y glucemia en la clase “sanos”). Para estudiar el caso de cada sujeto y ver a qué clase pertenece, se caracteriza a cada sujeto mediante la localización de su punto en dicho plano (cada análisis de sangre) y su distancia al modelo que se ha obtenido. A cada punto (sujeto) se le asocia una red donde cada nodo es una característica del análisis de sangre, por ejemplo, y cada enlace es el valor de la distancia entre el punto y el modelo en el espacio i-j. De aquí viene el concepto parénclesis (diapositiva 21). Vamos a verlo ahora de una forma más clara con un ejemplo (diapositiva 22). Tenemos un espacio tridimensional con tres características, por ejemplo: colesterol, glucemia y glóbulos blancos. Suponemos que la población, es decir, los puntos (los sujetos), se localiza en un vínculo (la superficie verde - ver diapositiva 22). Consideramos las parejas de planos (“Feature 1” con “Feature 2”, “Feature 2” con “Feature 3” y “Feature 1” con “Feature 3”), y observamos los cortes con los vínculos (ver imagen inferior izquierda de la diapositiva 22), que son las líneas discontinuas, que serían los modelos. Para cada sujeto analizado (ver el punto rojo que figura en la diapositiva) se asocia una red donde cada nodo es una característica y cada enlace es la distancia al modelo (ver diapositiva). Ya que en cada plano tenemos un modelo distinto, estamos poniendo la distancia de todos los posibles modelos que representan todos los cortes posibles del único modelo, que es el vínculo que estamos imaginando.
  18. 18. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR18 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 ¿Y por qué se llama parenclítica? Porque tiene información de las desviaciones. Cada enlace contiene la información de cuánto se desvía en el plano correspondiente el sujeto de la tendencia normal de los pertenecientes a su clase (las líneas discontinuas que se visualizan en la diapositiva). El uso de redes parenclíticas Analicemos ahora cómo podemos utilizar esta información en el caso del diagnóstico precoz de la nefropatía obstructiva. Se trata de una enfermedad que se da en los recién nacidos y que causa importantes daños a los riñones, ya que al provocar una obstrucción del tracto urinario hace que una parte de la orina vuelva a estos órganos. Dado que los bebés no son capaces de hablar y señalar dónde les duele, es muy importante realizar un diagnóstico precoz de una enfermedad que es la causa principal del trasplante de riñones en niños. A partir de los análisis de la orina, en los que se miden parámetros tales como los metabolitos y los residuos, se obtienen grupos de población que tienen la enfermedad y grupos que no la tienen. Éste es el modelo on/off del que hablábamos, con dos clases: grupo sano y grupo enfermo. Si construimos las redes parenclíticas de cada uno de los sujetos a partir de los análisis de orina, tendremos redes de unos mil nodos cada una. Se observa que las redes de los sujetos normales (es decir, los “sanos”) son redes bastante homogéneas, son aleatorias (ver imágenes superiores de la diapositiva 23 – color verde). Lo cual es bastante normal, dado que si tenemos un modelo y una persona que pertenece a él, la desviación del modelo será más o menos aleatoria con respecto a la población que tengo. Por el contrario, en el caso de pacientes enfermos, la red resultante es totalmente diferente, tiene forma de estrella, es decir, existe un nodo central conectado al resto de nodos (ver imágenes inferiores de la diapositiva 23 – color rojo). Esto nos dice que hay un metabolito que difiere de forma sustancial, lo que implica que el individuo está enfermo, y que puedo aislar cuál es el metabolito responsable de la enfermedad, dado que nos señala dónde se concentran todas las diferencias del sujeto con respecto a la clase de sujetos normales. Por tanto, tenemos un método que nos indica cuáles son los factores claves de una determinada enfermedad. A continuación, vamos a centrarnos en algo más complicado. Realizaremos un experimento sobre un tipo de planta, la Arabidopsisthaliana, que es famosa por ser la planta base sobre la que se suelen realizar todos los experimentos de genética. En esta planta tenemos todo el ADN secuenciado. Se somete esta planta a un estrés abiótico. A diferencia del estrés biótico, en el que se utilizan parásitos (organismos vivos), los estrés abióticos se utilizan para estudiar los fenómenos tales como el calor o frío, la salinidad, la escasez de agua, los cambios climáticos o cualquier otro factor que daña el comportamiento normal de una planta y no está relacionado con organismos vivos. Estos fenómenos causan pérdidas significativas en los cultivos. En concreto, hay un estrés abiótico que
  19. 19. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 19 interfiere con la actividad osmótica de la raíces. Para realizar el experimento, se procede a plantar la planta y a suministrarle componentes químicos que tengan un efecto adverso en su ósmosis. A continuación analizamos los niveles de expresión de sus 22.591 genes en seis instantes de tiempo durante los 240 minutos posteriores al test de estrés, consiguiendo así seis fotografías donde tenemos el valor de la expresión de cada uno de los genes. Posteriormente, hacemos la representación parenclítica, y vemos que la red es muy heterogénea: tenemos distintas estrellas conectadas con pocas líneas (ver diapositiva 24). Gracias a una métrica de centralidad (por ejemplo, alpha centrality), podemos tener una clasificación de los nodos, localizando así los nodos centro de las estrellas de la red parenclítica que se corresponden con los genes fundamentales que regulan la planta en respuesta a este tipo de estrés. A continuación, se muestra el resultado que se ha obtenido tras el análisis de cada uno de los 6 instantes de tiempo observados (ver diapositiva 25). Esta información es muy valiosa, ya que, poniendo como ejemplo este caso, se localizaron 20 genes responsables de orquestar el comportamiento genético de la planta a este tipo de estrés. Si suministramos esos datos a un genetista, éste sabrá dónde modificar genéticamente la planta para que se comporte mejor ante estas circunstancias, por ejemplo, crezca mejor en terrenos áridos. Tras realizar esta investigación, revisamos la literatura científica en este ámbito y comprobamos que algunos de estos genes ya habían sido descubiertos en experimentos anteriores. En cambio, se observó que había genes de los que no se tenía conocimiento. A partir de aquí se propone hacer un experimento para generar una línea transgénica de la planta en la que se bloqueaba la expresión de un determinado gen de los más de 22.000. Es decir, se modifica un solo componente de una red enorme siendo éste el que, según los expertos de redes parenclíticas, predice dicha red. En la diapositiva 26 se muestran los resultados de este experimento mediante fotos de la planta e histogramas. La franja de fotografía con el nombre WT (wild type) representa cómo crece la planta sin ningún tipo de modificación bajo este tipo de estrés. Se analizó la longitud media de las raíces de la planta WT y de las plantas transgénicas (en las que se han realizado modificaciones en los 7 genes localizados como factores clave a través de las redes parenclíticas). Se observó el valor medio de la longitud de las raíces y la desviación estándar en los histogramas de la parte superior de la diapositiva, ningún valor medio está fuera de las condiciones normales. De nuevo, hemos mostrado una representación parenclítica donde se ha puesto de manifiesto cuáles son los elementos críticos (en este caso, genes) fundamentales del sistema. Esto lo hemos aplicado también a la genética humana, con datos de mujeres que padecen determinados tipos de cáncer. Podemos indentificar genes que son factores de riesgo para el desarrollo de una determinada enfermedad en una población. De hecho, existen miles de aplicaciones para las redes parenclíticas, éstas permiten representar sistemas donde no hay
  20. 20. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR20 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 evolución temporal y extraer los factores clave del sistema. Como conclusión hemos de señalar que tenemos una herramienta de representación de redes para cualquier banco de datos. Por un lado, Redes Físicas, utilizadas en millones de ejemplos desde 1999 en campos tales como la epidemiología. Por otro lado, también existen Redes Funcionales, muy populares en aplicaciones en econofísica y neurociencia. Finalmente también tenemos las Redes Parenclíticas, que se pueden aplicar a cualquier tipo de repositorio de datos estáticos. Dicho esto, tenemos el primer paso para construir una representación de red que dé información del sistema.
  21. 21. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 21 Regino Criado La frase de Sócrates, “la ciencia humana consiste más en destruir errores que en descubrir verdades”, obedece a una reflexión sobre cómo hemos ido avanzando desde el primer modelo que se planteó hace dos años hasta el resultado que vamos a plantear hoy, en el que hablaremos de los cinco problemas de la gestión del riesgo digital. Víctor Chapela El modelo de escala libre de riesgos es hacia donde se dirige la investigación. Compartiremos ustedes cuál ha sido la problemática que hemos tratado de resolver. Muchos de nosotros, los que trabajamos en seguridad, vivimos a diario estos cinco problemas, sobre todo para gestionar y modelar los riesgos, así como para reducirlos y mitigarlos de cara al futuro. PROBLEMA 1: “DEMASIADA TEORÍA Y POCA PRÁCTICA” En este sentido, vemos que cuando alguien lleva a cabo una intrusión en un sistema, normalmente salta de una máquina a otra, de un sistema operativo al siguiente, de cara a tener acceso a contraseñas para acceder a otros lugares. Eso tiene una representación muy clara como grafo. Así nació, hace varios años, la idea de que los grafos podían representar estas intrusiones, que Regino Criado Catedrático de Matemática Aplicada de la Universidad Rey Juan Carlos Víctor Chapela CEO de Sm4rt Corp. El contenido de esta ponencia (diapositivas y contenidos audiovisuales) está disponible en la página oficial de CIGTR www.cigtr.info MODELADO DE RIESGOS DE ESCALA LIBRE
  22. 22. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR22 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 nos permitirían incluso automatizar el hackeo y, por ende, automatizar la forma de prevenirlo. Los grafos son una representación estática de una serie de relaciones, pero Regino iba mucho más allá, hasta las redes complejas, las cuales nos permitían encontrar nuevas formas de interrelacionar. Sin embargo, estas nuevas formas, que nos iban a permitir tener los diferentes componentes de una red interrelacionados entre sí (las IPs, la información de las aplicaciones, etc.), eran mucho más difíciles de modelar y de entender. En un principio, las primeras intuiciones surgieron no hace más de diez años, con algo que llamaban Preferential Attachment en el que los nodos más conectados se conectaban con mayor probabilidad que los nodos menos conectados. En Internet y en las redes de escala libre, esos nodos más conectados están exponencialmente más conectados y esto se mantiene en el tiempo. Esto quiere decir, por ejemplo, que los ricos de vuelven más ricos o que Wikipedia va a tener cada vez más conexiones y esto va a tender a crecer de forma exponencial en el tiempo, mientras que los sitios web con pocas conexiones, en general, van a tender a quedarse con esas pocas conexiones. Este tipo de intuiciones matemáticas fue lo que llevó a iniciar la exploración. Regino Criado Dentro de la versión clásica de la medida del riesgo como función del impacto o consecuencias, se puede pensar en la disponibilidad, la integridad y la confidencialidad, estableciendo una fórmula que nos permita calcular ese riesgo. Introducimos una constante escalable α y una constante β que va a medir la convergencia de esta expresión, de manera que para calcular estos parámetros nos tenemos que situar en el caso de mayor riesgo, obteniendo para α un valor de 4 y para el parámetro de convergencia un valor de -0,016. Así tenemos una expresión del riesgo que aunque no es la clásica, sí que deriva de ella (ver diapositiva 6). En la primera aproximación planteada teníamos ciertos elementos que configuraban el riesgo de una red: valor, accesibilidad y anonimidad. Utilizábamos la exponencial de una matriz, una serie infinita que nos daba la forma en la que el valor se distribuye desde los nodos origen (las bóvedas) donde se localiza la información. La accesibilidad, en cambio, se propaga desde los nodos origen hacia los nodos objetivo, mientras que los otros nodos reciben el valor que les otorga tener un posible acceso a esa información valiosa. En definitiva, aquí tenemos otra expresión donde estamos utilizando una fórmula que nos va a permitir calcular la probabilidad de dar un salto del nodo “i” al nodo “j” donde aparece una función (diapositiva 8) en la cual se establece un parámetro, un valor distinto para el tipo de conexión si es por afinidad o si es una conexión física existente. Y estamos considerando la matriz de adyacencia y el grafo de conexiones donde además de considerar las conexiones reales que forman parte del riesgo estático, consideramos las que también forman parte del riesgo dinámico por afinidad. Esta expresión “d” es la distancia de Haussdorf del nodo “j” al conjunto de bóvedas, es decir, el mínimo de la distancia de un nodo a un conjunto de nodos ya situados en el grafo.
  23. 23. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 23 Víctor Chapela Queda claro entonces que tenemos resueltas muchas de las ecuaciones, pero el problema es que la teoría es en múltiples ocasiones muy difícil de aplicar. Lo ideal en estos casos sería que pudiésemos presentar esta información de manera que fuese utilizable. Este año hemos estado construyendo un software y terminando el modelado matemático, de modo que permitiese el entendimiento desde el punto de vista de alguien dedicado a la gestión de riesgos en una organización. Con este software podemos cargar datos a partir de un sniffing. En base a esos datos cargados mapeamos una serie de nodos. Hay varios tipos de nodos (máquinas origen desde donde se inician conexiones, aplicaciones, servidores). El riesgo se ha graficado en las conexiones mediante color “rojo” (ver diapositiva 9) en base a aquél que tiene más accesibilidad. El software también permite realizar el colapsado de nodos, se colapsan aquellos nodos que van a los mismos lugares. También es posible añadir valor a los nodos. Los nodos pueden ser aplicaciones, servidores, grupos de usuarios, etc.; y si en alguno de ellos tuviéramos guardados datos, ya sean propiedad intelectual o información de tarjetas de crédito por un valor determinado; se puede añadir dicho valor al nodo. Este valor se permea al resto de la red y cambia los valores de diferentes partes, el software recalcula cuáles son los valores y cómo se dispersan a lo largo de la red. Aunque todavía es una versión que no pretende ser usada por un administrador de sistemas, lo que pretende es decirnos cuáles son las rutas de mayor riesgo, por ejemplo, las conexiones de mayor riesgo entre un grupo de usuarios y un servidor, desde el punto de vista de cuán anónima es la persona que se está conectando (anonimidad), de cuán accesible es la información (accesibilidad) y de cuánto valor hay en el punto final. El modo en que hemos tratado de ir más allá de la teoría es bajarlo a aplicativos que ya no tengan esta formulación de modo evidente, sino que puedan representar de manera gráfica e intuitiva cómo podemos utilizar esta información. PROBLEMA 2: “GESTIONAMOS LA SEGURIDAD, NO EL RIESGO” Lo que entendemos por gestionar la seguridad está muy relacionado con lo que decía Carl Sagan en la serie Cosmos, en la que explicaba que Venus había llevado a mucha especulación, puesto que es un objeto muy brillante –el segundo más brillante después de la Luna– pero, sin embargo, al localizarlo con el telescopio no se veía nada, sólo nubes. Así que en 1800 asumieron que si había nubes, eran de agua, que si había agua, entonces era muy húmedo y había pantanos, y por ende había vida. Y si había vida, pues muy probablemente había dinosaurios. Entonces, la observación era que no se veía nada, mientras que la conclusión era que debía haber dinosaurios. En realidad, las nubes son de ácido sulfúrico, con lo que sería un poco difícil vivir sobre la faz de Venus y además es totalmente árido. Algo muy similar es cómo vemos la seguridad: algo que nadie ve. Lo mismo pasa con el riesgo, nadie lo ve. Y se llega a la conclusión de que es
  24. 24. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR24 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 necesario más hardware y más software. Llega un punto en que ese riesgo que no podemos medir nos lleva a tomar decisiones a partir de algo que no conocemos y es clave que podamos entender esto. En el libro que presenté hace un año, reflexionando sobre cómo funciona la seguridad a día de hoy traté de hacer una analogía llevándolo a un plano más conocido, que es el personal. Si yo tuviera que hacer un análisis de riesgos, lo que realmente estaría haciendo es un análisis de vulnerabilidades en base a los criterios de ingenieros en el ámbito de seguridad. Este tipo de análisis, en base a mis criterios (los de Víctor Chapela) empezaría por un escaneo. La realidad es que hoy se gestionan riesgos si se encuentran fallos, aunque luego los tratamos de gestionar con los conceptos de impacto por probabilidad para darles algún tipo de calificación. En dicho análisis del impacto y la probabilidad se cuenta con la opinión de expertos que evalúan las situaciones en base a cómo se ven afectados los niveles de seguridad (confidencialidad, integridad y disponibilidad), etc. Entonces, los hallazgos de este análisis, que en mi caso resultarían de evaluar los diferentes componentes de Víctor Chapela que pudiesen estar en riesgo, dirían que, por ejemplo, la interacción física es muy peligrosa, porque hay gérmenes, que caminar es muy peligroso, que bañarse está prohibido porque es el accidente número uno en el mundo… Y entonces el Plan del Director personal de seguridad incluiría una clasificación de mis activos críticos, con controles de seguridad propuestos, en donde estaríamos viendo primero la disponibilidad. Así que, por aquello de que me puedo resbalar y perder la capacidad de moverme, necesitaría un vehículo para que no me pueda caer, otro vehículo para el jardín, y sería necesario clonarme para que mis hijos tengan un repuesto por si algo falla; y desde el punto de vista de la confidencialidad, necesitaría mantener todo bien hermético con un traje especial para salir a la calle con baño integrado, mientras que para mi integridad física sería muy importante un casco, un camión blindado… En las empresas estamos haciendo lo mismo, hay una serie de vulnerabilidades y consideramos posibilidades para resolverlas todas sin tener una medición adecuada de cuánto estoy reduciendo el riesgo. Ahora pensemos este aspecto de una forma más clara, consideremos cuál es mi probabilidad de accidente. Eso lo tenemos bien medido y podemos saber cuál es mi póliza dependiendo de mi edad, de cómo he conducido en el pasado, etc. Los accidentes se asemejan a cuando se cae un servidor o un centro de proceso de datos, (como disponemos de redundancia en éstos, podemos reducir lo accidental). Asimismo, las enfermedades son como los virus que afectan a nuestros CPDs. Tal y como tenemos anticuerpos, tenemos firmas para los diferentes virus que hay en los sistemas. Pero donde nos confundimos es en el riesgo intencional. Sabemos que si vamos por ahí con diez mil euros en efectivo, tenemos un riesgo más alto. Nadie nos lo tiene que explicar, lo intuimos. Entonces, la agresión potencial tiene mayor probabilidad de que se produzca, y eso es algo que en las redes o en el riesgo digital normalmente no se toma en cuenta. En BBVA llevamos muchos años adoctrinando alrededor del riesgo intencional. He aprendido
  25. 25. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 25 mucho a este respecto, por ejemplo ese riesgo intencional es algo que nos cambia la forma de evaluar porque partimos de la base de que un atacante potencial quiere minimizar su riesgo y maximizar su beneficio, como cualquier hombre de negocios. El hacker básicamente busca obtener el mayor beneficio (cuanto más pueda robar, mejor) y minimizar el riesgo al que se enfrenta. Pero este riesgo tiene dos factores (ver diapositiva 47): Anonimidad de terceros: ¿Cuán anónimo soy? Aunque este aspecto es sólo un pedazo de la componente, porque cuando mido consciente o inconscientemente mi riesgo al perpetrar alguna fechoría, estoy sopesando cuáles son las consecuencias. Eso es una constante y no depende del área de gestión de riesgos, sino que lo es a nivel país (las leyes dicen qué puedo hacer y qué no). Dentro de ese contexto lo que cambia es si saben quién fue o no (si no se sabe quién roba o rompe algo, el riesgo es reducido). Entonces lo que medimos en las redes es la parte de la anonimidad, que es algo que se puede medir porque hay una propiedad en las ciencias sociales que se llama desindividualización, según la cual percibimos menor riesgo si nos movemos más como parte de un grupo. Accesibilidad para terceros: Por otro lado está el coste, que en el caso de las redes es ¿cuán accesible es algo?, es decir, cuánto me cuesta llegar al objetivo. Si tengo que aprender a hackear para entrar a una base de datos donde se guarda información valiosa, entonces me llevará más tiempo y más esfuerzo, y no será lo mismo que si tengo el usuario y la contraseña. Mitigación de Riesgos Digitales Estos tres componentes, el valor, la anonimidad y la accesibilidad realmente provienen de la Teoría de Juegos, los hemos implementado dentro de Teoría de Redes Complejas del siguiente modo. Si regresamos a la idea de gestionar el riesgo (ver diapositiva 48), la accesibilidad la entendemos muy bien. Para reducirla, es decir, para dificultar el acceso a la información, podemos autorizar o no a las personas a acceder, filtrar diferentes tipos de paquetes/protocolos, cifrar... Pero también podemos reducir el valor si disociamos la información y, por ejemplo, tenemos medio número de tarjeta, o numeramos a un usuario en vez de nombrarlo. De la misma manera, la anonimidad tiene que ver con la autenticación. Recuerdo que en Brasil tenían problemas de robo de identidad hasta que empezaron a utilizar lectores de huella dactilar. De alguna forma, estos tres grupos de controles atacan diferentes áreas en las que podemos reducir el riesgo empresarial a base de aumentar el riesgo al atacante o reducir su beneficio. Redes complejas y riesgo intencional (estático y dinámico) Regino Criado Durante este año hemos estado elaborando los elementos básicos para la construcción de un grafo que represente una red real, donde se puedan localizar, de manera sencilla, los puntos más débiles y vulnerables de la red, ya sea por su accesibilidad, por el valor que contienen o
  26. 26. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR26 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 por la anonimidad con la que puede entrar un atacante. En cualquier caso, el riesgo de un ataque intencional depende básicamente de esas tres variables muy concretas que hay que cuantificar: el valor, la accesibilidad y la anonimidad (todos ellos desde el punto de vista del atacante, del mismo modo que en los casos de teoría de juegos) Identificamos en este entorno dos tipos de riesgo: riesgo estático, en el que se utilizan las rutas autorizadas para acceder al valor y que deriva del exceso de confianza que se le otorga a alguien que tiene acceso a ciertos datos privilegiados o a ciertos valores; y el riesgo dinámico que es el que tiene que ver con la utilización de rutas no autorizadas. Víctor Chapela El segundo problema que surgió, por tanto, fue cómo podíamos gestionar el riesgo diferente. Aquí aprendimos mucho en el momento en el que Santiago Moral trajo a la mesa la Teoría de Juegos como una forma de entender los riesgos de una organización. Y lo que hemos hecho es avanzar en otra línea diferente de lo que originalmente había modelado, por ejemplo el modelo Casandra, hacia tratar de implementar alguno de esos mismos elementos con pequeñas variaciones en modelos matemáticos que nos permitiesen entender los riesgos en una red de datos. PROBLEMA 3: “EL REDUCCIONISMO Y EL DETERMINISMO NO APLICAN EN EL RIESGO DIGITAL” En cuanto al tercer problema, radica en que tendemos a tratar de reducirlo a algo determinista, de una forma que podamos gestionarlo con las herramientas existentes cuando, por el contrario, estamos frente a un problema complejo. La diferencia entre un problema que se pueda reducir a la representación de una regla o una serie de reglas deterministas y la complejidad, es que ésta normalmente no se presta a ser reducida. En este punto hay un dicho que me gusta mucho. George E.P. Box dice que “en su esencia, todos los modelos están mal, pero algunos son útiles”. Yo creo que aquellos que son útiles son los que representan mejor lo que estamos viendo dentro de la realidad con la que tenemos que interactuar. Estamos entrando en una era de problemas complejos en los que se aplican Matemáticas, la mayoría de los problemas sencillos ya tienen un modelo y sabemos cómo gestionarlo. Ahí se encuentra la complejidad, en la economía, en la seguridad informática, éstas se están analizando como problemas complejos desde el punto de vista matemático, donde hay relaciones no lineales entre las variables y éstas son múltiples. Vivimos en un mundo equipado con hardware que presenta sus límites y sistemas complejos (el clima, etc.) complicados de comprender y modelar con equipos convencionales. Al principio, el ser humano tendía a tratar fenómenos que tenían que ver con leyes físicas muy deterministas, muy fáciles incluso de calcular (la arquitectura de hace 3.000 años y la de hoy parten de los mismos principios –diferentes materiales pero los mismos principios). Cuando el mundo digital vino a cambiar esto, por primera vez el ser humano se encontró ante un nuevo mundo de alta complejidad por las relaciones entre sus miles de millones de elementos. El
  27. 27. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 27 número de interrelaciones es muy grande y esa globalización tecnológica generó que todo se volviera complejo (incluso la economía o la ciencia del cómputo se han convertido en ciencias complejas) y eso es muy interesante. Yo crecí con la ilusión de que el cómputo era algo predecible, que era algo controlable, y era controlable porque yo vivía en mi pequeño mundo (mi computadora). Pero en ese mundo hemos perdido el control, cuando lo conectamos con el resto del universo pasamos de tener computadoras deterministas –donde se podía localizar fácilmente el foco de un fallo cuando éste ocurría– y lineales –donde no había procesos que corrían en paralelo– a un mundo indeterminista, con más variables, tanto que hoy día realmente no sabemos qué pasa en nuestra máquina (por ejemplo, falla el Power Point y desconocemos el motivo). Una de las formas en la que gestionamos este nuevo tipo de incertidumbre es reiniciando la máquina tratando de regresar a condiciones iniciales conocidas. Si esto falla, se reinstala todo. En la reinstalación o en el reinicio, como en la teoría del caos, uno puede predecir a veces las primeras oscilaciones, y eso es lo que nos pasa, encendemos nuestra máquina, y la intentamos devolver a un estado conocido. Ésta es mi demostración bastante vulgar de que las máquinas son caóticas en sí mismas. Si a eso le sumamos que están todas interconectadas y consideramos los diferentes niveles (incluso a nivel Socket)… Básicamente, conforme crece de forma lineal el número de máquinas digitales que se conectan, el número de aplicaciones y de rutas o conexiones –las formas en que me pueden hackear– se incrementan de forma exponencial. Ese reduccionismo en el que habíamos vivido hasta hoy ya no funciona. Es más, nunca ha funcionado muy bien, al menos en los ámbitos de computación. Lo que tratábamos de hacer era analizar. Clasificábamos a los dinosaurios, no de la forma sofisticada que hoy se clasifican los genes, sino como consideraba el clasificador. Éste era un intento de analizar, de desmenuzar. Por ejemplo, si cogemos un Volvo hecho de Lego y les doy las 201.000 piezas que componen el coche, no van a poder reconstruirlo. Por lo tanto no importa si yo entiendo perfectamente cada pieza, sino que lo que tengo que saber es cómo se relaciona con lo demás. Estas relaciones se podrían representar perfectamente a través de un grafo o una red compleja. Si eso además se mueve en el tiempo y en el sentido de que las relaciones no son lineales como en el Lego, quiere decir que uno puede ser el exponencial del otro, con lo que la síntesis de esos diferentes pedazos se vuelve mucho más compleja. Hoy esos pedazos ya están desmenuzados, ya tenemos los datos en los bancos, en la nube. Ahora lo que tenemos que hacer es re-sintetizar esos elementos en nuevo conocimiento. Y es justamente ahí donde el mundo digital nos pone a prueba porque al ser exponencial nos da un nuevo orden de cosas, en donde la escala libre, que empieza con los fractales justamente, cualquier fragmento de red es igual que cualquier otro fragmento a otra escala de la red. Yo creo que en ámbitos como las redes digitales o las redes económicas la escala es libre, igual que en los fractales. Por eso llamamos originalmente la charla de hoy “escala libre de riesgos”, porque al final creemos que justamente los estudios en los que estamos trabajando van a aplicar a lo
  28. 28. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR28 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 que ocurre dentro de un ordenador, o en una red doméstica hasta lo que ocurre en una red como Internet. Nos va a permitir medir de forma relativa y de forma absoluta las diferencias de riesgo entre todas las redes. ¿Cuál es la diferencia principal? Que la probabilidad (línea roja – diapositiva 87) de que algo se desvíe cuatro desviaciones estándar es mucho mayor que la otra que es prácticamente infinitesimal. La forma de medir el riesgo digital está basada también es una distribución normal, base de las teorías matemáticas que se usan hoy para economía, sector salud, etc. y está tratando de normalizar algo que es exponencial. Ahí está realmente nuestro problema. Conforme crece exponencialmente el número de nodos, crece el valor y la complejidad. Las estadísticas tradicionales no son suficientes y no es posible predecir el riesgo. En los modelos que planteamos, estamos asumiendo que tanto la anonimidad que ha crecido en Internet, como la acumulación de valor o la complejidad existente en un mayor número de puntos de acceso a esa información, hace que el riesgo crezca de forma exponencial, y con estos nuevos riesgos necesitamos nuevas herramientas. REDUCCIONISMO (SISTEMAS LINEALES Y NO LINEALES) Regino Criado ¿Cómo respondemos a la complejidad? Trabajando con redes complejas, realizando un análisis estricto de los distintos componentes que configuran la red y sus interacciones, conexiones, etc. Los niños pequeños están acostumbrados a que el mundo sea lineal, el todo es la suma de las partes. Ese pensamiento que se conoce como reduccionismo, opuesto a una visión holista, era el imperante en la ciencia alrededor de los años 70- 80. La idea es que uno puede analizar un sistema descomponiéndolo en sus partes, analizando cada una por separado y luego, al juntarlas, tener una visión más o menos acertada del comportamiento del sistema globalmente. Eso es cierto cuando el sistema es lineal. En este sentido hay ciertos fenómenos como el cristal de sal o el cúmulo de estrellas que permiten un análisis ciertamente simplificado desde el punto de vista matemático: en el cristal de sal, por ejemplo, cada componente interacciona únicamente con sus vecinos de manera que configura una malla, y se puede hacer ese análisis porque todas las partículas se comportan igual. Hay otros modelos, los no lineales, en los que el análisis de cada elemento que configura el sistema no nos sirve de mucho. Puedo entender muy bien cómo una neurona realiza su sinapsis y cómo está conectada con otras, pero de ahí a entender cuáles son los mecanismos que nos permiten hablar o comprender cómo funciona la memoria, hay un salto muy grande que tiene que ver con comportamientos emergentes de la estructura de red. De hecho, otro ejemplo es la diferencia entre los genomas. En realidad, si uno compara los genomas de distintos organismos, entendiendo genoma como conjunto
  29. 29. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 29 de genes, entre el hombre y el primate hay un 99% de coincidencia; en el genoma sí (en el número o conjunto de genes), pero no en las conexiones que permiten a unos genes inhibir el comportamiento de otros a la hora de configurar la red. Es en la complejidad de esa red donde se halla la gran diferencia. En Internet, con 800 millones de nodos interaccionando entre sí, hay un comportamiento no lineal, y por eso es tan importante el análisis de redes complejas. REDES COMPLEJAS Y TEORÍA DE GRAFOS Antes hay que referirse a en qué se diferencia una red compleja de un grafo, entendiendo un grafo como un conjunto de elementos que representamos mediante nodos (puntos) y aristas (vértices o enlaces) que representan las interacciones entre dichos nodos. La Teoría de Grafos nace de la mano de Leonhard Euler cuando trató de resolver matemáticamente si era posible recorrer los siete puentes de la ciudad de Königsberg (Kaliningrado) y volver al lugar de partida sin pasar dos veces por el mismo. Euler sigue siendo hoy en día reconocido como uno de los matemáticos más importantes de todos los tiempos, de hecho, es el que mayor número de páginas originales de matemáticas publicó a lo largo de su vida. Únicamente se le acercó Paul Erdös; falleció en 1996 y escribió 1475 papers originales con 493 autores. En 1960 Paul Erdös y Alfred Rényi propusieron una teoría para explicar la evolución de los grafos. Cuando hablamos de redes complejas, lo esencial es la revolución científica que se está originando en torno a este concepto. Porque una cantidad creciente de redes tecnológicas y de redes naturales siendo tan diferentes, presentan una gran similitud en la estructura y ésta está ligada a la función. Estas redes se caracterizan por presentar unos pocos nodos muy conectados y otros muchos poco conectados. Si en lugar de verlo en el plano logarítmico, lo hacemos en el plano normal de las variables, la gráfica se parecería mucho a una rama de hipérbola del primer cuadrante. Además, este tipo de redes, tanto naturales como tecnológicas, presentan una estructura muy similar que está caracterizada por lo que se denominan “estructuras pequeño mundo” (small world), las cuales tienen un comportamiento similar frente a pequeñas perturbaciones. Estas redes se caracterizan porque están formadas por pequeños núcleos (mundos) muy conectados entre sí y poco conectados con el resto (pequeñas comunidades) y por la distancia relativamente pequeña entre éstos (pensar en el 6 grados de separación en la red de contactos universal). Es decir, el número de saltos que tenemos que dar para llegar de un nodo a otro es muy pequeño. No obstante, la diferencia fundamental entre las redes complejas y la teoría de grafos viene dada por el tamaño de la red, ya que éste implica que las herramientas de computación que hay que emplear, dada la cantidad ingente de datos, requieren realizar una optimización del tipo de algoritmos utilizados a la hora de calcular los distintos parámetros (diapositiva 106).
  30. 30. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR30 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 El interés en el empleo de redes complejas abarca ámbitos tales como las redes tecnológicas, las redes biológicas, económicas y sociales. Todas ellas responden a esta misma estructura (diapositiva 108-109). Desde el punto de vista matemático, un grafo se puede representar mediante una matriz de unos y ceros (ver diapositiva 115). En la diapositiva 116 se pueden consultar las definiciones más importantes relativas a parámetros de una red compleja tales como el grado de un nodo, la longitud de un camino, la distancia geodésica o camino más corto entre nodos, entre otros. Víctor Chapela Lo que logramos al integrar la parte de redes complejas es resolver el problema de abordar precisamente la complejidad, es decir, los millones de interrelaciones que se dan entre los nodos. Debíamos también integrar elementos de la teoría de juegos y que necesitábamos hacer algo práctico. PROBLEMA 4: “GESTIONAMOS EL RIESGO DIGITAL DE FORMA ARTESANAL Y SUBJETIVA” Un humano no sería capaz de clasificar todo en el caso de, por ejemplo, la evaluación de impacto y probabilidad en base a los diferentes niveles de seguridad (confidencialidad, integridad y disponibilidad). Un buen ejemplo de ello nos remonta a los comienzos de Internet, cuando se dieron dos formas diferentes de clasificar los buscadores web: el estilo de Yahoo fue manual, con cientos o miles de personas clasificando los diferentes sitios web en base a palabras clave especificadas por los usuarios, y el de Google, que estaba empleando matemáticas basadas en el uso de grafos, o más bien redes complejas, para entender cuál era el sitio al que más probablemente querría ir el internauta. Precisamente para definir cuáles eran los sitios más populares Google utilizaba todos los hipervínculos que hubiera hacia cada página, lo que demostraba la popularidad e influencia de cada sitio dentro de un grupo. Por supuesto resultaba mucho más preciso que clasificar manualmente. Nosotros queríamos lograr ese mismo efecto pero a nivel de riesgo, para que nadie tuviera que clasificar control por control, máquina por máquina, software por software, etc. Para ello, dividimos el riesgo en dos tipos: estático y dinámico. El riesgo estático es cualquier persona que tiene acceso autorizado a la información, es decir, un empleado, un cliente, un administrador de sistemas o un proveedor que accede a través de una red ajena. La probabilidad de que se lleven dicha información va a tener que ver con la anonimidad y con el valor de la información. En cuanto al riesgo dinámico, se regresaba al problema original con el que había surgido todo esto ya que tiene que ver con cuál es la probabilidad de que alguien sin acceso autorizado pudiera hackear o robar una identidad para acceder a la información de valor, mediante la localización de las vulnerabilidades dentro de la red. De cara a conocer el riesgo estático, empezábamos a ver que había mucha información en las bitácoras de los dispositivos de una organización. Claro que nos encontramos con el problema de que la información era muy parcial, las bitácoras de un
  31. 31. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 31 servidor se referían únicamente a dicho servidor, cuando realmente necesitaríamos todas ellas para correlacionar los datos, sería relativamente complicado consolidar todo este tipo de información. Así que optamos por el sniffing de la red, un proceso a través del cual un equipo ve los paquetes que están pasando en un segmento de dicha red. Esto nos permitía ver todas las rutas que estaban en uso –todas las permitidas–, y por ende, los controles que habían ya estaban implícitos en la red. Nada de lo que se estaba moviendo a través de esa red rompía esos controles. Entonces encontramos que había dos tipos de nodos clasificables de forma automática: las IPs origen de las conexiones, y las aplicaciones destino donde llegaba la conexión (IP más el puerto). Teniendo en cuenta estos dos tipos de accesos, teníamos que tanto para usuarios finales como para usuarios técnicos había una frecuencia de accesos, lo que nos proporcionaba dos pesos diferentes para cada arista (es decir, cuántas veces o con qué frecuencia accede un usuario normal y cuántas lo hace un usuario técnico, quien la mayoría de las veces tiene la opción de tomar todo el valor que hay en la aplicación o el sistema). Con estos dos tipos de usuario procedimos a la construcción del grafo. Regino Criado Como ha comentado Víctor, tenemos IPs e IPs-Puerto, dos tipos de nodos que vamos a representar en un grafo. Y lo haremos con un ejemplo que reúne todas las características complejas a la hora de establecer los atributos de accesibilidad, anonimidad y valor que hay que otorgar tanto a nodos como a aristas. A partir del sniffing de red vemos que aparecen determinadas IPs conectadas a determinadas IP-Puerto. Si colocamos el sniffing durante un periodo de tiempo, vemos cuántas veces se ha accedido desde un sitio a otro. Si cada IP origen es un nodo y añadimos otro nodo por cada IP-Puerto destino (segunda columna diapositiva 129). Víctor Chapela Una forma de distinguir entre usuarios técnicos y no técnicos que consideramos se basó en el tipo de puerto al que se conecta. Por ejemplo, si es un puerto SSH asumimos que es un usuario técnico, si es un puerto HTTP, asumimos que es un usuario final. Regino Criado Nuestro objetivo es dotar a todos los elementos del grafo de anonimidad, accesibilidad y valor. El valor en principio se le otorga inicialmente a las bóvedas, a aquellos nodos donde reside la información valiosa. Con el software desarrollado buscamos que aparezcan destacados aquellos elementos donde hay mayor riesgo. Riesgo estático: Anonimidad En cuanto a la anonimidad, se basa en el concepto de desindividualización que comentaba antes Víctor, se considera que un individuo se siente más anónimo cuanto está más rodeado de personas. Esto lo hemos modelado mediante un tipo de
  32. 32. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR32 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 colapso que se define en la diapositiva 135. Se asigna un valor de anonimidad a los nodos que se colapsan, los nodos que se conectan a los mismos elementos. Por ejemplo, en la diapositiva 136, los nodos IP1 y IP2 acceden a la IP5:p1, por tanto, se colapsarán y se les asigna un valor de anonimidad igual a 2. Además, el nodo IP1 no tiene por qué formar parte de un único colapso (no es una relación de equivalencia), como se puede ver en la diapositiva. Por ejemplo, el nodo IP1 también se conecta a la IP6:p3 al igual que los nodos IP2, IP3 e IP13. Víctor Chapela Hay un aspecto relevante que no se ve en el modelo de la diapositiva. Lo que estamos tratando de medir aquí son las escalas, consideremos un ERP –un sistema de administración de recursos de una empresa– si hay mil personas que se conectan a ese mismo sistema, son mucho más anónimos que si de esos mil hay diez que se conectan al sistema de tesorería. En la realidad, cuando existe una gran cantidad de personas accediendo a la misma aplicación, se perciben a ellos mismos como más anónimos. Regino Criado Las frecuencias de los nodos colapsados se suman, ver diapositiva 137. Riesgo estático: Asignación de Valor Una vez que distribuimos las anonimidades mediante el grafo colapsado buscamos la manera de distribuir el valor en el caso del riesgo estático (ver diapositiva 142). Para hacerlo, entendemos que si el valor de la información reside en un nodo y hay varios accesos, cada uno de ellos tiene acceso únicamente a esa parte del valor, con lo que el valor hay que dividirlo por la inversa de la anonimidad. Ya el año pasado expusimos que, partiendo de la bóveda, originalmente estábamos empleando la exponencial de la matriz para distribuir el valor. Sin embargo, detectamos que en un ejemplo concreto había una cierta redundancia que había que eliminar. De todos modos, hay una forma de distribuir el valor, el algoritmo lo hemos denominado “max- path” (ver diapositivas 139-153). Riesgo estático: Asignación de Accesibilidad Para el parámetro de la accesibilidad hay que asociar un valor a las aristas y nodos. Para ello empleamos el paradigma del paseante aleatorio, el PageRank algoritmo que utiliza Google en el cálculo de la centralidad de los nodos más importantes. ¿Qué queremos decir con paseante aleatorio? Que si soltamos a un paseante que se va moviendo por la red, hay ciertos nodos por los que pasa muchas más veces y que serán los más importantes. En ese sentido consideramos un damping factor (factor de amortiguamiento) para el grafo de usuario de 0,15, y para el grafo de administradores de 0,25 (es decir, esto corresponde a, en un caso, 6 conexiones antes de dar un salto aleatorio y en el segundo caso a 4 conexiones). Finalmente, tenemos en todo el grado distribuido un valor para cada nodo de origen, una
  33. 33. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 33 anonimidad para cada arista y una accesibilidad de cada arista. RIESGO DINÁMICO: MODELIZACIÓN Víctor Chapela De cara a evaluar el riesgo dinámico, además de tener en cuenta el sniffing, también tomamos un escaneo de vulnerabilidades que nos va a dar nuevas rutas potenciales para que un atacante sofisticado pueda acceder a una máquina con una vulnerabilidad determinada. Así, cada vulnerabilidad se vuelve un acceso nuevo, a lo que hay que sumar otro tipo de accesos que logra obtener un hacker: los accesos por afinidad. Si yo entro en un equipo HP-UX que tiene una serie de configuraciones y una serie de usuarios como administrador de ese equipo, la probabilidad de que pueda acceder a otros HP-UX con la misma configuración es muy alta (por ejemplo, lo más probable es que todos estos HP-UX están gestionados por el mismo grupo de personas o tengan el mismo tipo de fallos o problemas de configuración, etc.). Es decir, si yo tengo acceso a un equipo con unas características, tendré mayores facilidades para acceder a otros equipos similares. El escaneo de vulnerabilidades nos da esa información que necesitamos, nos dice qué versiones hay, qué puertos están abiertos –estén en uso o no. Riesgo dinámico: Asignación de valor Y en la asignación de valor usamos el mismo método que teníamos en el riesgo estático. En ese caso, el problema que teníamos con el riesgo dinámico era que todos los accesos de un hacker son administrativos y potenciales, no son reales; entonces si yo conectaba todo con todo y luego usábamos los algoritmos para mover el valor a través de la red. En otras palabras, si yo tengo una base de datos y luego tengo un servidor web, y ese servidor web accede como administrador a la base de datos, una persona que tenga acceso al servidor web podría potencialmente acceder a los datos a través de la interfaz si este está accediendo y haciendo un query (una consulta) cada vez. Entonces, el valor que está en mi base de datos, en nuestro modelo se mueve al servidor web, o se mueve al equipo del administrador. Así sabemos a cuánto valor puede acceder el administrador porque calculamos cuánto de ese valor llega a su máquina. Entonces con esa misma idea, si conectamos todo con todo vía vulnerabilidades y vía afinidades, de pronto teníamos que todo el valor de toda la red era igual, entonces ya no nos importaba el valor y regresamos al valor que habíamos calculado original y asumimos que el atacante iba a querer llegar por la ruta más corta a ese valor. Ahora vamos a ver eso. Riesgo dinámico: Anonimidad En el riesgo dinámico no recalculamos el valor pero la anonimidad sí cambió. La anonimidad es importante para el atacante. Y es importante solo en la medida de su primera conexión, porque una vez que se conecta a algún lugar normalmente puede tomar un usuario/contraseña, puede reconectarse con ese nuevo usuario y contraseña o puede usar alguna de las conexiones ya
  34. 34. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR34 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 existentes dentro de esa máquina. Entonces, el punto de que uno sea anónimo de entrada es el único momento en que el atacante va a tener mayor o menor riesgo. Así, consideramos tres grupos o colectivos de anonimidad: 1. Si vengo desde Internet, tengo un riesgo bajísimo para el atacante porque es muy difícil ser identificado. Por ejemplo, con las bitácoras nunca se va a saber quién usó esa IP a las ocho de la noche en un Starbucks en Moscú. Entonces en estos casos la anonimidad es muy alta. Con el problema incremental de que puede venir de cualquier país, lo cual hace que no tenga consecuencias si, por ejemplo, no hay un tratado de extradición aunque supiéramos quién fue no hay forma de que tenga una consecuencia en lo personal. 2. Luego tenemos la Wi-Fi interna y accesos de proveedores o terceros. Éstos tienen un riesgo intermedio porque si yo estoy en una red inalámbrica entrando a la red interna (si es una red inalámbrica que sale hacia Internet se mide como si fuera Internet), tengo una anonimidad todavía alta porque podría estar yo fuera de las instalaciones conectándome a la red interna, y si estoy en un proveedor podría no tener un contrato directo con el afectado final. 3. Y, finalmente, en la red interna asumimos que, si hay relación contractual, está identificado con su usuario/contraseña y que la máquina sabemos a quién pertenece y que por ende está bastante más reducida la anonimidad del atacante. Riesgo dinámico: Accesibilidad Regino Criado La accesibilidad es importante porque va a marcar la diferencia entre el riesgo estático y el dinámico. Por tanto, lo que vamos a hacer para calcular la accesibilidad en el ámbito del riesgo dinámico es primeramente construir el nuevo grafo en el que aparecen las rutas autorizadas, los nodos ya establecidos y los nuevos nodos que son reconexiones por afinidad (si dos sistemas tienen el mismo sistema operativo, tienen el mismo administrador, etc.) se establece un nuevo enlace entre ellos, son redes evolutivas por decirlo de alguna manera. Lo que nosotros necesitamos ver, siguiendo con el mismo ejemplo del paseante aleatorio (algoritmo PageRank que se emplea en Google), es, si se quiere entender mejor: yo estoy en un nodo y ese nodo tiene cinco conexiones, es decir, cinco posibles sitios a los que ir. Así, primero tiro un dado para saber si utilizo una de esas cinco conexiones o doy un salto aleatorio, y después tiro otro dado para ver por cuál de esos nodos me voy. ¿Cuál es mi problema? Que al dar el salto aleatorio puedo ir a cualquier sitio, de manera que lo que tenemos que hacer es un PageRank con un vector de personalización. En realidad se trata de una cadena de Markov, un proceso estocástico, en donde cuando nosotros estamos en el nodo i la probabilidad de saltar del nodo i al nodo j viene dada por la expresión pij que figura en la diapositiva 169 donde f(i,j) tiene en principio dos
  35. 35. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 35 valores, el α si se trata de una conexión existente en el riesgo estático, β si es una conexión potencial, donde 0 β α y donde β debe ser proporcional a la entropía del sistema. Víctor Chapela Al final de cuentas, como ya no solo bastaba saber por qué ruta me podía ir, porque ahora había rutas potenciales que nunca se habían usado, estamos dándole preferencia a las rutas que ya han sido usadas por personas autorizadas y eso nos dice que si esa ruta existe, lo más probable es que si un atacante llega se va a ir por la ruta que ya existe. Y segundo, estamos dando preferencia a las rutas más cortas dentro de la red. Entonces el atacante quiere llegar al valor, el valor ya no se vuelve a calcular como dijimos, entonces el atacante va a querer irse por las rutas existentes y por las rutas más cortas. Ahora, si no hay una ruta corta o si no es existente, podría querer saltar directamente al servidor si hay una vulnerabilidad y quizá lo pueda lograr, no tiene que ir a dar la vuelta. Entonces esa probabilidad va a seguir siendo expresada en el paseante aleatorio pero con menos probabilidad que irse por las rutas más conocidas. Regino Criado Y tal cual dice Víctor, el otro apartado importante es tener en cuenta de cara al posible salto el conocimiento que pueda tener de la estructura de la red el hacker, que se mediría por la distancia del nodo al conjunto de bóvedas; lo lógico es que vaya por aquel camino que le acerque más al valor que quiere conseguir. Víctor Chapela Entonces, lo que es valiosísimo de todo esto que nos ha comentado Regino es que se lograron unas fórmulas matemáticas que luego llegaron a una aplicación. Esto nos ayuda a, que con información estándar, darnos una vista del riesgo de nuestra red, salvo el valor que vimos que se metía a la aplicación y potencialmente regresaba un resultado. Ese valor es lo único que se le mete, todo lo demás, tanto el riesgo estático como el riesgo dinámico, se calculan encima. Entonces, esto de que usemos propiedades intrínsecas de la red para calcular anonimidad y accesibilidad y la dispersión del valor dentro de la red, nos permite que esto escale muchísimo, porque nada más que tenemos que decir dónde están los repositorios de valor y podemos escalarlo. Y va a haber otra parte que vemos como reto para el año que viene, que ahora les comento, que tiene que ver con modelar los controles adicionales que haya dentro de la red. PROBLEMA 5: “EL RIESGO DIGITAL EN GENERAL LO GESTIONAMOS INGENIEROS” La seguridad o la gestión de riesgos la llevamos ingenieros. Yo creo que los ingenieros tenemos muchas virtudes y también algunos defectos. Por ejemplo, si consideramos un vaso con agua como el que se ve en la diapositiva 172, los optimistas dicen que es un vaso medio lleno, los pesimistas que es un vaso medio vacío y el ingeniero dice que se saca el doble de lo que necesitaría hacer el vaso, es decir, debería ser más pequeño, es un problema de que estaba
  36. 36. Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR36 Metodología de análisis de la intencionalidad en Internet y redes complejas Curso de Verano 2013 mal dimensionado el vaso. Desde el punto de vista del ingeniero se ven las soluciones y no necesariamente se ve la parte relativa a si el vaso debería estar lleno o no, ya que para ellos no importa, está sobredimensionado. Afortunadamente, el que haya ingenieros involucrados nos permite armar un buen software. Creo que el valor más importante de este proyecto es que justamente no hemos sido gente tecnóloga tratando de hacerlo aislados. Se ha traído por un lado la experiencia del banco mismo y por otro lado gente valiosísima como Regino, Miguel e incluso Ángel, que también ha estado involucrado casi desde el inicio y que lo que han hecho es incrementar y potenciar las cosas que quizá de forma aislada no habríamos podido hacer. Regino Criado Esto nace de la colaboración de cuatro entidades: Smart, Universidad Rey Juan Carlos, el Centro de Investigación para la Gestión Tecnológica del Riesgo y BBVA. Nuestra intención es extender estos esfuerzos a otros ámbitos y poner énfasis en la multidisciplinariedad a la hora de resolver este tipo de problemas involucrando áreas tales como la matemática discreta, la ciencia de la computación, la probabilidad, la mecánica estadística, las ecuaciones diferenciales no lineales. El grupo de trabajo que tenemos está formado por físicos teóricos, informáticos, biólogos, sociólogos y, por supuesto, matemáticos. Y en todo caso lo que sí que queda establecido es que esto conduce a un cambio de paradigma en la forma de concebir el riesgo.
  37. 37. Curso de Verano 2013 Metodología de análisis de la intencionalidad en Internet y redes complejas Centro de Investigación para la Gestión Tecnológica del Riesgo CIGTR 37 oy en día casi tenemos un teléfono inteligente –o un dispositivo que puede conectarse a Internet– para cada persona en el planeta, más o menos 7.000 millones. Pero eso no es todo; cuando alguien compra un coche nuevo, éste incluye unos 30 ordenadores. Por lo tanto, la cantidad de potencia computacional que se aplica constantemente, incluso incorporada en objetos que ninguno de nosotros consideraría ordenadores, es inmensa y sigue creciendo. No hay más que fijarse en cuánto han cambiado las cosas. A Google+ le llevó 24 días llegar a 20 millones de usuarios, mientras que a Facebook, que tiene una población aproximada de unos 1.000 millones, le llevó dos años llegar a los primeros 20 millones. El ritmo al que todo cambia, el ritmo de adopción de la tecnología, cada vez es mayor. El año pasado un alemán realizó la descarga número 25.000 millones desde iTunes, con lo que promediamos cuatro descargas por cada habitante del planeta. Pero no solo hablamos de ritmo de cambio, sino de innovación. De ahí que predecir sea tan difícil y a la vez tan divertido. Pero ¿lo hacemos bien? ¿Para qué? Pues por una razón concreta: las organizaciones, ustedes mismos, están mirando hacia el futuro para saber cómo será el mundo Adrian Davis Principal Research Analyst. Information Security Forum (ISF) El contenido de esta ponencia (diapositivas y contenidos audiovisuales) está disponible en la página oficial de CIGTR www.cigtr.info THREAT HORIZON 2015: MÁS PELIGRO POR AMENAZAS CONOCIDAS

×