• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Integración semántica de información de distintos repositorios de medidas de red
 

Integración semántica de información de distintos repositorios de medidas de red

on

  • 376 views

La charla está enfocada a contar un tema de investigación a los estudiantes del Máster Universitario de Investigación en TIC de la Universidad de Valladolid

La charla está enfocada a contar un tema de investigación a los estudiantes del Máster Universitario de Investigación en TIC de la Universidad de Valladolid

Statistics

Views

Total Views
376
Views on SlideShare
342
Embed Views
34

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 34

http://www.tel.uva.es 34

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Integración semántica de información de distintos repositorios de medidas de red Integración semántica de información de distintos repositorios de medidas de red Presentation Transcript

    • Integración semántica de información de distintosrepositorios de medidas de red Jorge E. López de Vergara jorge.lopez_vergara@uam.es
    • Motivación“Que un investigador pueda obtener datos de medidas de red y combinarlos, independientemente de cómo se hubieran tomado y cómo estén almacenados”Conceptos de interés:• Integrar información• Repositorios de medidas de red• Ontologías Integración semántica de información de distintos repositorios de medidas de red 2
    • Contenido• Contexto – OpenLab – Medidas de red – Repositorios de medidas de red• Integración de información – Alternativas – Ontologías• Solución – Definición de la ontología – Reglas de correspondencia – Distribución de las consultas• Conclusiones y lecciones aprendidas Integración semántica de información de distintos repositorios de medidas de red 3
    • Contexto• El objetivo surge dentro del proyecto integrado OpenLab del FP7, dentro del ámbito de FIRE – La idea principal del proyecto es federar distintos testbeds de experimentación en redes de datos • Planet-lab, NITOS, w-iLab.t, Etomic… – La federación puede entenderse desde distintos puntos de vista • Reserva • Configuración del experimento • Control del experimento • Medidas del experimento • Repositorios de medidas Integración semántica de información de distintos repositorios de medidas de red 4
    • Testbeds en Openlab• Planet-lab – Red superpuesta, más de 1000 nodos en más de 500 sitios Integración semántica de información de distintos repositorios de medidas de red 5
    • Testbeds en Openlab• NITOS – Nodos inalámbricos Integración semántica de información de distintos repositorios de medidas de red 6
    • Testbeds en Openlab• w-iLab.t – Nodos móviles y sensores Integración semántica de información de distintos repositorios de medidas de red 7
    • Testbeds en Openlab• Etomic – Medidas precisas, sincronizadas por GPS Integración semántica de información de distintos repositorios de medidas de red 8
    • Medidas de red• ¿Qué tipo de medidas de red puede haber?• ¿Cómo se pueden obtener estas medidas?• ¿Qué granularidad tienen las medidas? Integración semántica de información de distintos repositorios de medidas de red 9
    • Medidas de red• ¿Qué tipo de medidas de red puede haber? – Las medidas se centran habitualmente en parámetros de calidad la red • Throughput, pérdidas, latencia, jitter… – Pero también se pueden medir otros parámetros • Ruta entre dos nodos • Nivel de señal de una red inalámbrica/móvil • MOS de un flujo multimedia • … Integración semántica de información de distintos repositorios de medidas de red 10
    • Medidas de red• ¿Cómo se pueden obtener estas medidas? – Fundamentalmente dos posibilidades: • Medidas activas: la medida se obtiene a partir de tráfico inyectado a la red en estudio. • Medidas pasivas: la medida se obtiene a partir del tráfico que ya fluye por la red en estudio.• Ejemplos de medida de calidad – ¿Cómo se puede medir la latencia? – ¿Cómo se puede medir el throughput? Integración semántica de información de distintos repositorios de medidas de red 11
    • Medidas de red• ¿Qué granularidad tienen las medidas? – De más fina a más gruesa: • Captura de todos los paquetes que componen el tráfico. • Registro de los flujos (Netflow/IPFIX) • Número de bytes/paquetes por enlace (SNMP IF-MIB, MRTG) Integración semántica de información de distintos repositorios de medidas de red 12
    • Repositorios de medidas de red• Habitualmente se almacenan las medidas – Disponer de series temporales – Estudiar su variación en el tiempo• Existen distintas formas de almacenar las medidas – Depende del repositorio – Depende de la medida concreta – Depende del ingeniero que ideó las tablas de la base de datos • ”Great minds think alike”? Integración semántica de información de distintos repositorios de medidas de red 13
    • Repositorios de medidas de red• Repositorios en OpenLab – Etomic – nmVO – TopHat• Otros – Zabbix: entorno con distintos agentes para medir – OML: biblioteca para realizar y almacenar medidas• ¿Qué medidas almacenan? – Latencia: ping y OWD – Rutas: distintos tipos de traceroute – Throughput: Iperf, trenes de paquetes – Medidas realizadas periódicamente sobre alguno de los testbeds Integración semántica de información de distintos repositorios de medidas de red 14
    • Repositorios de medidas de red• Etomic – Múltiples tablas SQL – Algunas medidas requieren varias tablas Integración semántica de información de distintos repositorios de medidas de red 15
    • Integración de información• ¿Para qué puede ser interesante llevar a cabo la integración de distintos repositorios? – Seleccionar nodos de varios testbeds que cumplan ciertos criterios – Tomografía de red • Combinar rutas, con retardos y throughput – Medidas en distintos testbeds combinados • Algunos usan Etomic, otros TopHat, otros Zabbix… Integración semántica de información de distintos repositorios de medidas de red 16
    • Integración de información• Caso de uso: red de distribución de vídeo a nodos móviles (Planet-lab + NITOS) – ¿Calidad extremo a extremo? – ¿Qué afecta más a la calidad? Integración semántica de información de distintos repositorios de medidas de red 17
    • Integración de información: Alternativas• SQL – Es necesario definir una vista común para las distintas bases de datos – Problemas para distribuir una consulta en los distintos “sabores” de SQL • SQLite, PostgreSQL, MySQL, SQLServer…• XML – Se queda en el aspecto sintáctico – XMLSchema permite restringir tipos de datos, pero aquí se trata más bien de especializar.• Ontologías – Trabaja el aspecto semántico • ¿Qué significa cada concepto y cómo se relaciona con los demás? – Optamos por esta alternativa Integración semántica de información de distintos repositorios de medidas de red 18
    • Ontologías• Especificación explícita y formal de una conceptualización compartida – Explícita: compuesta de conceptos, propiedades, relaciones, funciones, axiomas y restricciones – Formal: puede ser interpretada por máquinas – Conceptualización: modelo abstracto del dominio a representar – Compartida: acordada por grupos de expertos• Aplicaciones – Inicialmente en inteligencia artificial y sistemas expertos – Posteriormente en agentes inteligentes y web semántica – Actualmente en cualquier aplicación que requiera establecer un modelo de información Integración semántica de información de distintos repositorios de medidas de red 19
    • Ontologías• Ventajas – La información se procesa a un nivel semántico: • Es más fácil alinear y fusionar la información • Definir reglas de correspondencia – Se puede aprovechar definiciones ya realizadas de conceptos generales • W3C Time, Units, FOAF, etc. – Se pueden aprovechar desarrollos realizados en el ámbito de la web semántica. • Edición de ontologías • Bibliotecas de manipulación • Servidores de consulta – Existe un lenguaje de consulta: SPARQL Integración semántica de información de distintos repositorios de medidas de red 20
    • Solución: Integración semántica de repositorios• Tres pasos 1. Acordar una ontología común de medidas de red 2. Definir reglas de correspondencia entre el esquema de cada repositorio y la ontología. 3. Definir mecanismos para distribuir una consulta semántica, basada en la ontología común, entre todos los repositorios.• Metodología ya previamente aplicada en ámbitos relacionados Integración semántica de información de distintos repositorios de medidas de red 21
    • Paso 1: Ontología de medidas de red• Estructurar la información en varias ontologías: Conceptos – Conceptos generales generales • Protocolos, localizaciones, marcas de tiempo – Unidades • Permiten indicar la unidad de la medida Unidades – Metadatos • Contiene información acerca de qué, cuándo, dónde y cómo se ha medido – Datos • Contiene las medidas en sí mismas. Metadatos Datos• Estructura para facilitar la correspondencia con los repositorios• Estas ontologías están en proceso de estandarización en ETSI Integración semántica de información de distintos repositorios de medidas de red 22
    • Ontología de unidades• Partiendo de la ontología de unidades de la NASA, pero particularizándola para medidas de red – Añadidas unidades tales como bit, byte y unidades derivadas como bit/s – Prefijos del sistema métrico y también binario (Mega y Mebi) – También unidades relativas a direcciones (IPv4, IPv6, MAC…) – Funciones de transformación entre valores numéricos y no numéricos • IPv4 como entero de 32 bits o en formato “dotted” Integración semántica de información de distintos repositorios de medidas de red 23
    • Ontología de metadatos• Se ha basado en la estructura que se definió en DatCat (CAIDA)• Una clase (DataMetadata) relaciona los metadatos con las medidas Integración semántica de información de distintos repositorios de medidas de red 24
    • Ontología de datos• Se partió inicialmente de estructuras XML definidas para intercambiar información – Perfsonar, estandarizado luego en el grupo OGF-NMWG – Añadiendo la información presente en los repositorios de medidas Integración semántica de información de distintos repositorios de medidas de red 25
    • Ontología de datos• Estructura principal Integración semántica de información de distintos repositorios de medidas de red 26
    • Ontología de datos• La estructura permite reglas de correspondencia más flexibles – Habitualmente una tabla contendrá medidas (Measurement) – Una columna contendrá datos de una medida (MeasurementData) – Para unir conceptos de alto nivel con medidas concretas se utiliza Metric (por ejemplo, un ping permite medir RTT)• Medidas bien conocidas como el traceroute se describen como subclases de Measurement – No se añaden más propiedades, sino que se indica qué tipo de MeasurementData puede tener un traceroute Integración semántica de información de distintos repositorios de medidas de red 27
    • Estandarización• Las ontologías utilizadas en Openlab están siendo estandarizadas en ETSI – ETSI dispone de grupos de especificación industrial (ISG), que permiten llevar a cabo un trabajo previo – En nuestro caso, estamos trabajando en el ISG MOI: Measurement Ontology for IP traffic• ¿Por qué estandarizar? – No existía hasta la fecha un estándar para compartir medidas de red entre distintas entidades. • No obstante, sí que hay algunos estándares para obtener medidas (RMON) y establecer formatos (IPFIX). – Las ontologías deben ser compartidas para ser realmente útiles y reutilizables Integración semántica de información de distintos repositorios de medidas de red 28
    • Paso 2: Definir reglas de correspondencia• Entre los conceptos de la ontología y los repositorios de medidas• Aproximación simplista: – Cada tabla (o subconjunto) es una Measurement – Cada columna es una MeasurementData – Hay que establecer qué métricas tiene cada medida• ¡Ojalá fuera tan fácil! – Es necesario estudiar el esquema completo de la base de datos y resolver manualmente la correspondencia – Algunas reglas requieren expresiones SQL (joins, subselects, etc.) Integración semántica de información de distintos repositorios de medidas de red 29
    • Correspondencia con la ontología de datos• Measurement• MeasurementData Measurement – Es un contenedor de los valores de las medidas, no los valores directamente• Facetas de MeasurementData MeasurementData – Tipo de datos – Unidad por defecto Faceta de MeasurementData – Índice – … Integración semántica de información de distintos repositorios de medidas de red 30
    • Correspondencia con la ontología de datosIntegración semántica de información de distintos repositorios de medidas de red 31
    • Correspondencia con la ontología de datos MD:MeasurementIntegración semántica de información de distintos repositorios de medidas de red 32
    • Correspondencia con la ontología de datos MGC:Protocol MD:Time MD:AverageIncomingTransferRateMeasurement MD:AverageOutgoingTransferRateMeasurementIntegración semántica de información de distintos repositorios de medidas de red 33
    • Correspondencia con la ontología de datos MD:hasMeasurementDataIntegración semántica de información de distintos repositorios de medidas de red 34
    • Correspondencia con la ontología de datos MD:defaultUnit MD:dataType MD:isMeasuredInIntegración semántica de información de distintos repositorios de medidas de red 35
    • Correspondencia con la ontología de datos• Cada entrada en el repositorio se corresponde con un ejemplar de la clase Measurement• Para cada valor de la medida habrá que: – Crear un ejemplar de MeasurementData – Añadir la medida a la propiedad “valor” – Completar información de la medida con facetas – Enlazar este ejemplar con Measurement (hasMeasurementData) Integración semántica de información de distintos repositorios de medidas de red 36
    • Bases de datos y ontologías• Hay desarrollos que permiten ver una base de datos como una ontología• En nuestro caso hemos aprovechado D2RServer – Recibe consultas en SPARQL y las traduce a SQL – Genera reglas de correspondencia por defecto a partir del esquema de una base de datos – Hay que modificar estas reglas para cada repositorio, de forma que se emplee el vocabulario de la ontología – Con este mecanismo “sólo” hay que definir correspondencia con la ontología (y no n2) Integración semántica de información de distintos repositorios de medidas de red 37
    • Paso 3: Distribución de laconsulta SPARQL Ontología MOI Int. sem. SPARQL Correspon- denciaD2RServer D2RServer D2RServer D2RServer SQL ETOMIC TopHat nmVO Iperf-OML UPNA UPMC ELTE Integración semántica de información de distintos repositorios de medidas de red 38
    • Distribución de la consulta• SPARQL es el lenguaje de consultas de la web semántica para RDF y OWL – Se consultan triplas RDF (sujeto, predicado, objeto)• Para distribuir la consulta – Cada repositorio debe proporcionar una interfaz SPARQL, utilizando por ejemplo D2RServer – El esquema de cada base de datos debe tener preestablecidas las reglas de correspondencia con la ontología Integración semántica de información de distintos repositorios de medidas de red 39
    • Consultas de repositorios independientes• Una consulta SPARQL se basa en el operador AND, por lo que hay que satisfacer todas las triplas• En Openlab, la información está distribuida en los repositorios – No es factible fusionarlos, dada la magnitud de su tamaño• Es necesario consultar cada fuente de datos únicamente respecto de la información que maneja – La interfaz se encarga de ver, a partir de las reglas de correspondencia, qué información puede consultar a cada repositorio – Posteriormente, a partir de las respuestas, la interfaz agrupa esa información y realiza la consulta completa Integración semántica de información de distintos repositorios de medidas de red 40
    • Ejemplo de consulta SPARQL Se definen losPREFIX MD: <http://www.etsi.org/moi/Data.owl#> espacios de nombresSELECT * { Se toman todas las variables ?a MD:SourceIPValue ?value_for_a Se buscan triplas que FILTER(?value_for_a = "1.2.3.4"^^xsd:string ) esta condición: cumplan Medidas con una IP de} LIMIT 25 origen Se filtran sólo las Se limitan las respuestas que tengan respuestas a 25 cierto valor Integración semántica de información de distintos repositorios de medidas de red 41
    • InterfazIntegración semántica de información de distintos repositorios de medidas de red 42
    • Conclusiones• El sistema desarrollado permite alcanzar el objetivo planteado• El uso de ontologías permite integrar de manera flexible distintos modelos de datos• Se han aprovechado resultados de investigaciones previas• Costes – Es necesario establecer las reglas de correspondencia – Las consultas deben realizarse en SPARQL y no en SQL Integración semántica de información de distintos repositorios de medidas de red 43
    • Lecciones aprendidas• Investigación – Las ontologías han probado ser una herramienta útil (una vez más) para el manejo de información – No obstante, dentro de un ámbito similar, siempre surgen problemas nuevos – En los proyectos de la UE existen múltiples intereses, y es complicado aunarlos – En el Openlab he llevado la parte administrativa en la UAM, lo cual permite ver otros aspectos relacionados con la gestión – Tras más de 10 años en este ámbito, surgen nuevos retos en otros temas • Spin-off Naudit: dedicada al análisis de redes Integración semántica de información de distintos repositorios de medidas de red 44
    • Lecciones aprendidas• Estandarización – Es complicado llegar a definir un estándar • Distintos intereses • Falta de financiación • Explotar los resultados del estándar • Mismos intereses, pero distintos ámbitos (UE, EEUU…) – No obstante, es importante intentarlo • Tratar de fijar resultados • Permitir reutilizar el conocimiento • Valoración positiva en los proyectos Integración semántica de información de distintos repositorios de medidas de red 45
    • Referencias• Openlab – http://www.ict-openlab.eu/• ETSI MOI ISG – http://portal.etsi.org/portal/server.pt/community/MOI• HPCN-UAM – http://www.hpcn.es/ – http://www.eps.uam.es/~jlopezv/ Integración semántica de información de distintos repositorios de medidas de red 46
    • Integración semántica de información de distintosrepositorios de medidas de red Jorge E. López de Vergara jorge.lopez_vergara@uam.es