¿Qué dicen de mí mis documentos?José María Alonso Cebrián, Informática 64, chema@informatica64.comEnrique Rando González, ...
CONTENIDOS ADICIONALES                               Una revisión no rigurosa puede dejar pasar                           ...
Metadatos, Información Perdida y/o Información        es decir, un conjunto de archivos en formatoOculta.                 ...
Esta filtración involuntaria de datos se puede                                                    producir también con otr...
Informaciones similares pueden obtenersetambién de algunos documentos de MicrosoftWord.                                   ...
Este ejemplo visto con el documento PDF que                       Format                 : application/pdf                ...
SELECT pruebas_0.apellidos,                  adicionales que posteriormente puedan ser         pruebas_0.nombre, pruebas_0...
Por ejemplo, un documento PDF con metadatos          MEDIDAS PREVENTIVAS: LIMPIEZA DEcomo los mostrados en la Imagen 22:  ...
ejemplo Metadata Extractor [15] o Doc Scrubber        naturaleza, éstos deben ser objeto de una[16]. Sin embargo, tras rea...
• El mantenimiento de la imagen corporativa:          dirigirían al atacante hacia recursos falsos,por ejemplo, especifica...
determinados, que incluyen la descarga masiva       las aplicaciones antivirus y antimalware podríande ficheros ofimáticos...
ha venido prestando poca atención a esta              http://es.wikipedia.org/wiki/PostScript_encapsulcaracterística de la...
Upcoming SlideShare
Loading in...5
×

Ponencia250

213

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
213
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Ponencia250"

  1. 1. ¿Qué dicen de mí mis documentos?José María Alonso Cebrián, Informática 64, chema@informatica64.comEnrique Rando González, Junta de Andalucía en Málaga, enrique.rando@juntadeandalucia.esFrancisco Oca, Informática 64, froca@informatica64.comAntonio Guzmán, Universidad Rey Juan Carlos, Antonio.guzman@urjc.esRESUMENHoy en día, gracias a Internet y a las intranets corporativas, los documentos en formato electrónicopueden ser publicados o comunicados de forma sencilla.Pero, antes de compartir o publicar documentos electrónicos, es necesario tener en consideración toda lainformación que éstos contienen y las posibles implicaciones que pudiera tener su conocimiento por partede terceros. Aunque tal afirmación pudiera parecer trivial, un elevado número de organizaciones realizaeste control de forma inadecuada.La causa del problema radica en el contenido adicional de los documentos: los metadatos, la informaciónoculta y los contenidos no deseados o informaciones perdidas. Los dos primeros son incorporados por lamayor parte de las aplicaciones utilizadas para la creación o manipulación de los ficheros; los últimos sonintroducidos por los usuarios y mantenidos posteriormente, bien por descuido, bien de formamalintencionada.La consecuencia es que quedan comprometidas tanto la seguridad de los sistemas de información como laimagen corporativa de la organización.Por otro lado, toda esta información adicional no tiene necesariamente que ser perjudicial. Los metadatosson el fundamento de la Web Semántica y de muchos Sistemas Documentales. Describen y aportan valora los documentos. Son, por tanto, un activo más que las organizaciones deben proteger y administrar.El/la presente artículo/ponencia muestra los riesgos e inconvenientes que conlleva la falta de controlsobre los contenidos adicionales de los documentos. Se proporcionan ejemplos de cómo gestionarlos,cómo protegerlos y cómo limpiar correctamente los documentos antes de hacerlos públicos.
  2. 2. CONTENIDOS ADICIONALES Una revisión no rigurosa puede dejar pasar encabezados y pies de páginas con datos noUn documento publicado contiene todos aquellos apropiados, textos o elementos invisibles por serelementos que sus autores incluyeron del mismo color que el fondo, objetos ocultosvoluntariamente en él, y que pueden ser de por otros que se les superponen, párrafos cortosdiversa naturaleza: texto, imágenes, audio, video, con datos personales, etc…etc… Pero junto con el propio documento sealmacena otra información que quizá el autor no A modo de ejemplo, obsérvese el siguientedesea, no ha valorado en su justa medida el documento PDF:impacto de la publicación de la misma osimplemente que ha sido incluida por descuido.Estos contenidos adicionales pueden haber sidoincluidos tanto por los propios autores,voluntaria o involuntariamente, como de formaautomática por las aplicaciones utilizadas para lacreación y edición de los documentos.Algunos de esos contenidos adicionales puedenaportar valor al documento y facilitar sulocalización o gestión si han sido debidamente Imagen 1: Documento PDF con información ocultatratados. Este es el caso de los metadatos. Estosson un conjunto de datos descriptivos que Los cuadros de color rojo ocultan parte del texto,aportan meta-información sobre el documento y ya que los autores consideraron que no eraque suelen almacenarse junto con él. Son oportuno mostrarlo. Sin embargo, unmetadatos, por ejemplo, el nombre o procedimiento tan simple como seleccionar todoidentificador del autor, el título, el número de el texto, usar la opción “Copiar” del menúpáginas o la fecha de creación. “Edición” y pegar en una ventana de Bloc de Notas, u otro programa similar, permite desvelarLos metadatos han sido utilizados durante años el contenido que antes quedaba oculto.en los sistemas de Gestión Documental y sonparte fundamental de la base tecnológica de lallamada Web Semántica. Gracias a ellos, lasaplicaciones futuras podrán incluir nuevasfuncionalidades y trabajar de forma automática yautónoma con documentos publicados enInternet.Sin embargo, son pocas las organizaciones quegestionan apropiadamente los contenidosadicionales de los documentos. Y con ello nosólo desaprovechan el activo que éstos suponensino que también pueden poner en compromiso Imagen 2: Texto oculto en documento PDFla seguridad de sus sistemas de información y laimagen corporativa. Muchos documentos son Por otro lado, no sólo los autores introducenpublicados o enviados a través de sistemas de información adicional en el documento. Lasmensajería electrónica, sin haber realizado un aplicaciones incorporan de forma automáticacontrol previo de sus contenidos adicionales y de otros datos que pueden tener un carácterlas repercusiones que su conocimiento por parte operacional o descriptivo.de terceros pudiera tener. Los datos de carácter operacional sonPara aportar soluciones que eviten o mitiguen introducidos por las aplicaciones de formaeste problema se deben analizar las causas que automática y no suelen ser visibles para losoriginan las publicaciones incontroladas de usuarios. A esta información adicional se leinformación. denomina “información oculta”. Las aplicaciones los utilizan como ayuda para procesar de formaPor otro lado, los autores pueden incluir correcta y eficiente la los documentos.elementos inadecuados en el documento queterminen pasando inadvertidos a los revisores y En resumen, un documento publicado puedesiendo publicados o comunicados. Se habla conllevar tres tipos de contenidos adicionales:entonces de datos perdidos.
  3. 3. Metadatos, Información Perdida y/o Información es decir, un conjunto de archivos en formatoOculta. XML comprimidos.Independientemente de la causa que los pueda • PDF: Estándar abierto de ISO utilizadooriginar, los contenidos adicionales no masivamente en Internet. PDF (Portablegestionados suponen un riesgo para las Document Format) [5] es un formato deorganizaciones. documento Postscript en el que la información se estructura como una jerarquía de objetosFORMATOS DE FICHERO relacionados. Los metadatos pueden encontrarse, dentro de esa jerarquía, en diversas formas talesEn los apartados siguientes se van a mostrar como elementos del Diccionario de Informaciónejemplos de problemas de seguridad del Documento o en objetos con contenido XMPrelacionados con varios de los tipos de archivos (eXtensible Metadata Platform) [6] (RDFmás comunes en Internet. Con ello no se quiere (Resource Description Framework) [7] / XML).indicar que otros formatos no presenten XMP es un formato de almacenamiento deproblemas similares. metadatos utilizado por muchos formatos de archivos tales como los documentos Postscript,Para este estudio se han utilizado los siguientes ficheros EPS (Encapsulated PostScript) [8] oformatos: archivos gráficos como PNG (Portable Network Graphics) [9].• ODF: El formato ODF (Open DocumentFormat) [1] es un estándar abierto aprobado por RIESGOS ASOCIADOS A LOSla ISO (International Standard Organization) [2] CONTENIDOS ADICIONALES NOque está ampliamente documentado. Es utilizado, CONTROLADOSentre otros, por el paquete ofimáticoOpenOffice.org y todas las suites ofimáticas La pregunta es ¿y qué información puedederivadas. La característica principal de este encontrarse dentro de esos formatos de ficherosformato de archivo es el almacenamiento de la que sea un riesgo para la seguridad de lainformación en ficheros XML (eXtensible organización? En los siguientes apartadosMarkup Language) [3] comprimidos. Entre los podemos ver la respuesta.distintos ficheros XML que almacenan laestructura y datos del documento son importantes Datos identificativos de personas y equipospara este estudio los siguientes: Buena parte de las aplicaciones usadas para la ◦ meta.xml: Archivo que almacena los edición de documentos almacenan datos metadatos asociados al documento. personales relativos al usuario. Por ejemplo, la primera vez que un usuario inicia una aplicación ◦ settings.xml: Archivo que almacenad de Microsoft Office aparece una ventana similar los ajustes del documento. Entre ellos a la siguiente: pueden figurar datos perdidos, como nombres de impresora, datos de conexión a bases de datos, etc… ◦ content.xml: Este archivo almacena el contenido principal del documento en sí.• MS Office: Los formatos de documentoutilizados en la suite ofimática Microsoft ffice seconvirtieron en un estándar de facto. Hasta laversión Office 2003 incluida, los documentos se Imagen 3: Información de usuario en MS Officeguardaban usando un formato dealmacenamiento estructurado en ficheros La información que aparece por defecto en elbinarios. El formato de estos ficheros binarios campo “Nombre” es la cuenta del usuario actual.fue liberado en febrero de 2008. Sin embargo, a Desafortunadamente, en muchas ocasiones estepartir de la versión de la suite de Microsoft hecho pasa desapercibido o no se reconoce laOffice 2007, el formato de archivo fue cambiado importancia que tiene.y desde entonces se utiliza OOXML (OfficeOpen XML) [4], un formato de documento OpenOffice presenta una pantalla similar:abierto aprobado por ISO como ISO 29.500 yque mantiene una estructura similar a la de ODF,
  4. 4. Esta filtración involuntaria de datos se puede producir también con otros tipos de documentos. Por ejemplo, en este fichero PDF ha quedado registrada la cuenta de usuario de su autor: Imagen 4: Información de usuario en OpenOffice Imagen 7: Información de autor en fichero PDFLos datos que se incluyan en esta pantallas serán Otros datos que pueden resultar especialmenterecordadas por las aplicaciones y podrán ser peligrosos son los relativos a impresoras. Enincluidos en los documentos creados mediante algunos casos, la información se limita, comoellas. En el caso de Microsoft Word, se revelaría mucho, a poco más que una marca y un modelo.la cuenta de acceso al sistema del autor: Es el caso de la figura siguiente, que muestra parte del contenido del settings.xml de un documento de OpenOffice: … <config:config-item config:name="PrinterName" config:type="string">EPSON Stylus DX4000 Series</config:config-item> … Imagen 8: Información de impresora en fichero ODF. Imagen 5: Información resumen en MS Word El conocimiento de la marca y el modelo de laPor otro lado, analizando el fichero meta.xml de impresora ayudar a determinar desde que equipoun documento de OpenOffice, puede observarse en concreto se editó el documento. Además,cómo aparecen detalles relativos al programa cuando se trata de una impresora compartida porusado para la creación del documento, la versión un equipo, los datos pueden aparecer en formatodel mismo, el Sistema Operativo utilizado y el UNC (Universal Naming Convention) [10],nombre propio del autor: revelando tanto el nombre del servidor como el del recurso compartido. <?xml version="1.0" encoding="UTF-8" ?> <office:document-meta … xmlns:office="urn:oasis:names:tc:opendocu <config:config-item ment:xmlns:office:1.0" config:name="PrinterName" xmlns:xlink="http://www.w3.org/1999/xlink" config:type="string">servidorHP 2000C xmlns:dc="http://purl.org/dc/elements/1.1/" </config:config-item> xmlns:meta="urn:oasis:names:tc:opendocum … ent:xmlns:meta:1.0" xmlns:ooo="http://openoffice.org/2004/office" office:version="1.0"> Imagen 9: Información de impresora en formato UNC <office:meta> <meta:generator>OpenOffice.org/2.3$Win32 O, en ocasiones, direcciones IP de equipos: OpenOffice.org_project/680m5$Build- 9221</meta:generator> <meta:initial-creator>MiNombre … MiApellido</meta:initial-creator> <config:config-item <meta:creation-date>2008-08- config:name="PrinterName" 11T11:33:23</meta:creation-date> config:type="string">10.177.1.126EPSON EPL-6200 Advanced</config:config-item> Imagen 6: Información en fichero meta.xml Imagen 10: Información de impresora con IP
  5. 5. Informaciones similares pueden obtenersetambién de algunos documentos de MicrosoftWord. Imagen 13: Ruta en perfil de usuario en MS Word Puede deducirse fácilmente que, en estos ejemplos, ambos documentos fueron editados por usuarios cuyas cuentas son “mark” y “usuario97” respectivamente. Imagen 11: Información de impresora con IP En el caso de sistemas Linux/Unix pueden apreciarse situaciones similares cuando la rutaEn este caso la impresora aparece como incluye el directorio /home:servidorAGFA-ProSet 9400SF, en el que seproporciona información sobre la marca y …modelo, el nombre del servidor que la comparte <meta:template xlink:type="simple"y del recurso compartido asociado. Esta xlink:actuate="onRequest"información permite inferir que el usuario que ha xlink:role="template"trabajado en este documento tiene permisos en la xlink:href="/home/jkl/.openoffice.org2/user/telista de control de acceso al recurso dónde es mplate/NewTemplate.ott"compartida esta impresora. xlink:title="NuevaPlantilla" meta:date="2008- 06-30T09:13:20" /> <meta:user-defined meta:name="Info 1" />Muchas aplicaciones almacenan también rutas de …archivo correspondientes a plantillas, ficherosincrustados o vinculados e imágenes insertadas.Estas rutas pueden llegar a ser tan reveladoras, o Imagen 14: Ruta a directorio HOME personalincluso más, que los nombres de las impresoras.En ocasiones aparecen en formato UNC, Los documentos PDF tampoco son inmunes aidentificando máquinas servidoras y recursos este problema. En ocasiones, durante sucompartidos. Otras veces, en sistemas Windows, creación, se incorporan a alguno de los campostomarán la forma UNIDAD:ruta, pudiendo de metadatos la ruta del documento original:ofrecer información sobre unidades mapeadas.En ocasiones rutas incluyen cuentas de usuarios,como en el siguiente documento de OpenOffice: … <meta:template xlink:type="simple" xlink:actuate="onRequest" xlink:href="/C:/Documents%20and%20Setting s/mark/Datos%20de%20programa/OpenOffice. org2/user/template/NuevaPlantilla.ott" Imagen 15: Información en propiedades PDF xlink:title="NuevaPlantilla" meta:date="2008- 08-12T10:02:14" /> Nótese que en el campo “Title” aparece una ruta <meta:user-defined meta:name="Info 1" /> de archivo en formato UNC y que el equipo que … comparte el recurso aparece identificado por su dirección IP. Por otro lado, en el campo “Autor” Imagen 12: Ruta en perfil de usuario en ODF aparece lo que podría ser una cuenta de usuario (mark). De todo lo anterior puede deducirse queO en este otro ejemplo, en un documento de el usuario “mark” tiene, al menos, permisos deMicrosoft Word: lectura sobre el recurso compartido.
  6. 6. Este ejemplo visto con el documento PDF que Format : application/pdf Modify Date : 2004:07:08 11:47:19+02:00puede parecer algo extraño es, por el contrario, Create Date : 2004:07:08 11:44:32+02:00una situación muy común cuando los Title : Listado de asistentes Creator : Acrobat PDFMaker 6.0 for Worddocumentos son generados con impresoras Author : LBRIDEvirtuales PDF. Producer : Acrobat Distiller 6.0 (Windows) Company : -- Ad Hoc Review Cycle ID : 1888595674Otra característica, como el historial de Email Subject : confirmacionrevisiones de un documento, puede proporcionar Author Email : mark23@tests.edu Author Email Display Name : Accountingsuna combinación de cuentas de usuario y rutas de Previous Ad Hoc Review Cycle ID : 2062293108archivos. La siguiente captura muestra metadatos Source Modified : D:20040708094338e información oculta extraída de un documentode Microsoft Word mediante la herramienta Imagen 18: Información extraída de documento PDFExtract de Libextractor[11]: Nótese como la información revelada no se limita a la dirección de correo electrónico, apareciendo datos sobre el software utilizado, el sistema operativo o la cuenta del usuario. Bases de datos y combinaciones de correspondencia No es habitual que se publiquen en Internet modelos utilizados para la combinación de Imagen 16: Historial de Revisiones en MS Word correspondencia, pero sí hay ocasiones en las que se proporciona una copia de un modelo a alguienEntre las propiedades del documento, ajeno a la organización con necesidadesintroducidas durante la instalación o parecidas por el simple y humano deseo deconfiguración de la herramienta, también pueden ayudar o enseñar.encontrarse direcciones de correo electrónico yotros datos personales. En estas situaciones suele tenerse en cuenta que lo que se entrega es sólo el modelo y que, en ningún caso se entregan los datos utilizados en la combinación. Sin embargo, el modelo es por sí solo bastante revelador, ya que incluye información descriptiva de la base de datos de la que extrae la información para rellenar sus campos. Imagen 17: Información personalO en un documento PDF, del cual se extraen losdatos mediante Exiftool: ExifTool Version Num : 7.00 File Name : listado.pdf Directory :. Imagen 19: Información de base de datos File Size : 481 kB File Modification Date : 2007:04:09 15:45:45 File Type : PDF En la Imagen 19, correspondiente a un modelo MIME Type : application/pdf creado con Microsoft Word, el texto Warning : Install Compress::Zlib to decode seleccionado revela prácticamente todo lo filtered streams Encryption : Standard v2.3 necesario para acceder con éxito a la base de Page Count :8 datos: Creator Tool : Acrobat PDFMaker 6.0 for Word Metadata Date : 2004:07:08 11:47:19+02:00 Document ID : uuid:0ae24002-681f-48c4-bb18- 0dc54d8eb14e
  7. 7. SELECT pruebas_0.apellidos, adicionales que posteriormente puedan ser pruebas_0.nombre, pruebas_0.tlf FROM relacionados con los obtenidos del documento pruebasmetadata.pruebas pruebas_0 inicial. DATABASE=pruebasmetadata DRIVER={MySQL ODBC 3.51 Driver} OPTION=0 Así, si un documento contiene una fotografía PWD=PassMETADATA incrustada, un análisis de los metadatos de ésta, PORT=0 SERVER=servidor normalmente en formato EXIF [13], podría UID=UsuarioMETADATA arrojar datos tan llamativos como la fecha y la hora de cuando fue tomada o la marca y elDe igual forma, en un modelo creado con modelo de cámara o teléfono móvil usado,OpenOffice se revela información sensible contribuyendo a crear un perfil de larelativa a la Base de Datos, como el nombre de la organización y/o el autor del documento.instancia, o los datos relativos a tablas ycolumnas: Metadatos y Google … Los metadatos no nacieron como algo nocivo, <text:p text:style-name="Standard"> sino como algo positivo que pudiera ayudar a <text:database-display text:table- conocer mejor la información almacenada en un name="Contactos" text:table-type="table" documento. Por ellos, su uso en los buscadores text:column-name="nombre" text:database- de información en Internet, como Google, hacen name="Referencias"><nombre></text:database- display> uso de ellos a la hora de indexar información. </text:p> Como respuesta a una búsqueda de usuario, <text:p text:style-name="Standard"> Google proporciona una serie de resultados, cada <text:database-display text:table- uno de los cuales comienza con un encabezado o name="Contactos" text:table-type="table" título. El valor de este encabezado suele text:column-name="direccion" text:database- obtenerse del campo de Título “Title” o similar name="Referencias"><direccion></text:databas de los metadatos del documento. e-display> </text:p> <text:p text:style-name="Standard"> <text:database-display text:table- name="Contactos" text:table-type="table" text:column-name="clave" text:database- name="Referencias"><clave></text:database- display> … Imagen 20: Información de base de datos Imagen 21: Resultados usando el campo titleEsta información podría ser aprovechada pararealizar ataques directos a la base de datos o para Sin embargo, hay ocasiones, bien porque se usenataques de tipo indirecto, como pudieran ser los programas que dejan vacío dicho campo, biende SQL Injection[12]. porque los usuarios hayan eliminado su contenido, en las que no existe un campo deRecursividad metadatos de los que se pueda inferir el encabezado del resultado. También puedeUna de las características más poderosas y suceder que la información contenida en eseenriquecedoras de los documentos ofimáticos es campo sea considerada como poco relevante parasu capacidad de contener ficheros incrustados de el análisis automático realizado por Google. Endiverso tipo como por ejemplo, otros esos casos Google intenta determinar valoresdocumentos ofimáticos, ficheros de audio o alternativos basándose en los encabezados y losimágenes. Estos ficheros incrustados pueden pies de los documentos, en las primeras líneas deincluir a su vez metadatos, datos ocultos e texto del documento o en elementos similares.informaciones perdidas… y más ficherosincrustados. Asimismo, algunos formatos y Esta forma de trabajar de Google conlleva que loprogramas incorporan opciones como la de que antes eran datos perdidos en un documentorecordar versiones antiguas del documento. se conviertan en metadatos, no almacenados junto con el documento, pero fácilmenteEs posible extraer también información de estos localizables mediante el buscador.documentos incrustados mediante un proceso deexploración recursivo que proporcione datos
  8. 8. Por ejemplo, un documento PDF con metadatos MEDIDAS PREVENTIVAS: LIMPIEZA DEcomo los mostrados en la Imagen 22: DOCUMENTOS De lo expuesto hasta ahora se deduce que la fuga de información a través de documentos electrónicos es un serio problema cuya complejidad se ve incrementada por el elevado número de formatos de ficheros y definiciones de metadatos que hay que gestionar. Por otro lado, las aplicaciones de creación y manipulación de documentos permiten visualizar Imagen 22: Metadatos en documento PDF y editar los metadatos incorporados a cada fichero, pero los datos ocultos suelen quedarCuyos encabezados y pies de página son los de la fuera del control del usuario.Imagen 23: Sin embargo, la mayor parte de las herramientas actuales de limpieza de documentos eliminan o modifican los metadatos, pero no tienen en cuenta la información oculta. En el caso de los documentos creados con la suite Microsoft Office, una de las mejores soluciones es la opción de “Inspeccionar” un documento que incorpora la versión 2007. Esta herramienta busca toda la información que un documento tiene tanto en metadatos como en información oculta y permite eliminarla, Imagen 23: Encabezado y pie de página independientemente de la versión del formato de archivo que se esté utilizando y de la versión dePuede terminar indexado en Google con este Office utilizada para su creación. Además,encabezado: realiza funciones similares para cualquier tipo de formato de documento que maneje la herramienta. Imagen 24: Información de base de datosEste proceso realizado por Google permitiría acualquier persona con conexión a Internetobtener la cuenta de usuario utilizada por elcreador del documento sin necesidad dedescargar el documento. De hecho, como losdatos habrían sido obtenidos directamente de losresultados de Google, la organización propietariadel fichero no tendría noticia siquiera del accesoa dicha información.Por otro lado, cualquier metadato, ya seaembebido en el documento o creado por elbuscador, que quede reflejado en los resultados Imagen 25: Información de base de datosde una búsqueda en Google plantea un problemaañadido: Incluso si la organización detecta el Para las versiones de Microsoft Office anterioresproblema y corrige o elimina el documento, la a 2007 (versiones XP y 2003), la compañía pusoCaché del buscador puede seguir almacenando a disposición de los usuarios un plug-in conlos datos anteriores durante algún tiempo y funcionalidades similares llamado RHDToolmanteniéndolos visibles para cualquier usuario [14].de Internet. Otra opción es utilizar herramientas de terceros para eliminar esta información, como por
  9. 9. ejemplo Metadata Extractor [15] o Doc Scrubber naturaleza, éstos deben ser objeto de una[16]. Sin embargo, tras realizar múltiples cuidadosa comprobación en la que, casipruebas, se puede constatar que la limpieza inevitablemente, debe intervenir un revisorrealizada por estas aplicaciones no es total, y, en humano.el caso de datos ocultos como los nombres deimpresoras, seguían almacenados en los SOLUCIONES GLOBALESdocumentos tras ser limpiados. Aplicaciones como las indicadas en el puntoPor lo que respecta a OpenOffice, el número de anterior sólo suponen una solución parcial alherramientas disponibles es muy reducido y problema, si bien suponen una considerablenormalmente no tienen en cuenta la información mejora en el nivel de seguridad. Por ello, esoculta. necesario definir una solución global que abarque todos los aspectos y funcionalidadesA este respecto, cabe destacar OOMetaExtractor asociadas a los metadatos y a la información[17], que permite extraer y eliminar metadatos e oculta.información oculta tanto para un únicodocumento como para todos los que estén La solución no debe consistir en la eliminaciónalmacenados en una determinada carpeta o sistemática de datos, puesto que los metadatos,directorio. Se trata de una herramienta de código debidamente gestionados, pueden ser utilizadosabierto que disponible para sistemas Microsoft por distintas aplicaciones para procesarWindows. automáticamente los documentos. Así lo vienen haciendo muchos sistemas de gestión documental y, en el futuro, se prevé que sea ése el modo de operación de la Web Semántica [19]. La información oculta, una vez bajo control, también puede ser aprovechada de diversas formas. En los siguientes apartados se propone un marco para el desarrollo de sistemas de gestión de estos contenidos adicionales. Políticas Corporativas sobre metadatos e información oculta Imagen 26: OOMetaextractor Dado por sentado que los datos adicionales deben ser gestionados y no borrados, esEl caso de los documentos PDF es más complejo necesario disponer de reglas que permitansi cabe. No sólo porque hay que tener en cuenta determinar si los valores contenidos en loslos distintos formatos de metadatos que puede mismos, y el uso que se hace de ellos, sonincluir, sino porque en muchas ocasiones las aceptables o no.herramientas que dicen limpiar los metadatos enrealidad no lo hacen. En su lugar, simplemente, La comparación de los datos adicionales de cadaeliminan las referencias a los metadatos, documento con estos patrones hará posible ladejándolos al margen de la jerarquía de objetos detección y resolución de situaciones de riesgo odel fichero, sin eliminarlos. no deseadas.Pruebas hechas con Adobe Acrobat indican que, A las definiciones formales de estas normas sesi se eliminan los metadatos y se guarda el les denominará en este artículo “Políticasresultado con otro nombre de archivo, Corporativas sobre metadatos e informacióndesaparecen los metadatos anteriores. oculta” o, simplemente “políticas corporativas”. En ellas se especificará la forma y los valoresOtra opción es usar el comando cat de pdftk [18], que pueden tomar los datos adicionales dentro deque copia sólo el contenido de las páginas a otro la organización y cómo y por quién pueden serarchivo. En este caso el problema es que también éstos manipulados.son eliminados otros elementos del documentocomo, por ejemplo, los enlaces. Estas políticas corporativas deben asegurar, al menos, los tres objetivos principales expresadosEn este análisis no se ha hecho referencia a los hasta el momento:datos perdidos. Debido a su especial y variada
  10. 10. • El mantenimiento de la imagen corporativa: dirigirían al atacante hacia recursos falsos,por ejemplo, especificando que el campo de monitorizados por el Sistema de Detección de“Autor” debe contener el nombre de la Intrusos (IDS) de la organización. A laorganización. componente del sistema de seguridad de metadatos cuya función es la definición y la• El correcto funcionamiento del software que aplicación de las políticas relacionadas con estapueda utilizar los metadatos: garantizando que operativa se le llamará “Metadata Honeypot”.ningún documento queda fuera de los flujos detrabajo por contener metadatos u otra La imagen falsa de red que se ofrezca debe serinformación errónea. consistente y creíble, para lo cual se creará un modelo de red que contemplará elementos como:• La seguridad: no sólo por los problemas defuga de información. A medida que proliferen los • El direccionamiento IPprogramas capaces de gestionar los metadatos yla información oculta, es de esperar que surjan • La estructura de dominios y subdominiosnuevos tipos de malware que intenten manipularestos datos con objeto de aprovechar nuevas • Las sedes, sus direcciones, etc.vulnerabilidades o provocar fallos en lasaplicaciones corporativas. • Notación para los nombres de equipos, elementos de la red y los usuariosEstas políticas incluirán, entre otras cosas,información sobre los permisos de acceso a los • Para cada equipo: nombre, dirección,metadatos y deberán ser objeto, a su vez, de unos recursos compartidos y rutas locales.permisos de acceso autorizado. • Para cada usuario: nombre propio, cuenta,Asimismo, deben dar respuesta tanto a las equipos y aplicaciones que usa, servidores ynecesidades globales de la organización como a recursos compartidos a los que accede, cuenta delas particularidades de cada una de sus unidades. correo y otros datos de contacto.Para ello, se propone utilizar un modelo formalde la organización, con sus unidades y Por supuesto, el contenido y alcance particularoperaciones, basada en un directorio LDAP, u del modelo deberá adaptarse a las necesidades deotra herramienta de similar naturaleza. cada organización. Una vez creado, deberá crearse la infraestructura de detección deEl directorio LDAP, o el directorio que en cada intrusiones que monitorice cualquier intento decaso se seleccione, deberá funcionar de forma acceso a la red inexistente.distribuida y replicada entre las distintas sedes ounidades de la organización, de forma que se El modelo así definido se integrará en lasgarantice la actualización y disponibilidad de la políticas corporativas y será utilizado parainformación. construir conjuntos de metadatos, datos ocultos e informaciones perdidas, de acuerdo con losCada nodo del árbol de directorio tendrá distintos tipos de documentos que se utilicen enasociado un conjunto de políticas que será el la organización, para que den soporte la imagenresultado de la combinación de las políticas de red ficticia.heredadas de sus nodos superiores y de laspolíticas definidas expresamente para ese nodo. La generación de conjuntos de datos se podrá realizar en tiempo real, en el momento deComponente Metadata Honeypot asignarlos al documento, o de forma masiva, durante la configuración y las actualizaciones delLos datos adicionales, presentes en los sistema. Durante la manipulación, publicación,documentos, son un vector de ataque que puede envío o compartición de los documentos seser aprovechado por los ciberdelincuentes para incorporará a los mismos los correspondientesdeterminar una imagen de las redes internas de a conjuntos de metadatos que contemplarán, entrela organización, y del funcionamiento de ésta, otras, las necesidades del Metadata Honeypot.que les ayude a realizar con éxito sus actividadesilícitas. Monitorización proactiva de las publicacionesAnte esta situación, las organizaciones podrían Los intentos de establecer un modelo de red aintroducir metadatos modificados de forma que partir de los datos adicionales incluidos en losproporcionen al atacante una imagen falsa de su documentos siguen unos patrones muyred interna o su funcionamiento. Estos metadatos
  11. 11. determinados, que incluyen la descarga masiva las aplicaciones antivirus y antimalware podríande ficheros ofimáticos. La monitorización y hacer recomendable integrar ambos elementos endetección de estos comportamientos sospechosos un mismo producto. De hecho, como se indicópermitiría tomar las contramedidas oportunas, anteriormente, es muy probable que en el futuroque podrían variar desde denegar los posteriores surjan nuevos tipos de malware orientados a laaccesos al posible atacante a, en casos de manipulación y detección de metadatos,especial gravedad, suspender temporalmente la información oculta y datos perdidos.publicación de documentos. Tampoco se debe olvidar la importancia de losEste control se complica en entornos con procesos manuales de aprobación de contenidosrecursos distribuidos. En estos casos será en los sistemas de publicación. En esta tarea, senecesario construir una red de servidores de debe presentar a los revisores las informacionesmonitorización de accesos que repliquen entre sí adicionales que los documentos acarrean y laslas situaciones detectadas, ya sea a intervalos implicaciones que éstas pueden tener. Todo elloregulares, bajo demanda o ante situaciones de con un lenguaje y una forma comprensibles.alarma. Deberá garantizarse que todo servidorweb, así como cualquier otro tipo de servicio de Como regla general, no debería ser posiblepublicación de contenidos, pueda comunicarse e aprobar la publicación de un documento si antesintegrarse con, al menos, uno de los servidores no se ha dado el visto bueno, de forma expresa, ade monitorización. todos los datos adicionales asociados a él.Protección en los procesos internos Consideraciones de funcionamientoLas medidas de protección anteriores, aunque Existen múltiples formatos de documento. Ynecesarias, son manifiestamente insuficientes. cada uno puede almacenar uno, o incluso varios,Un documento elaborado utilizando los medios formatos de metadatos y otras informacionesde una organización puede salir fuera de ésta a adicionales. Sin embargo, las políticastravés de una inmensa variedad de canales no corporativas deben hacer referencia a un únicoformales, tales como copias en medios extraíbles, modelo global de metadatos en la organización.accesos ilegítimos o no autorizados, envíos porcorreo electrónico, publicaciones en páginas web Esta diferencia de enfoque se puede resolverparticulares o simplemente siendo copiados mediante el uso de extensiones, que actuaríandesde una unidad de red. como intermediarios entre el sistema de protección de datos adicionales y los documentosAnte esta dificultad, no cabe otra solución que gestionados.integrar las políticas corporativas en todos losprocesos de creación, manipulación, Cada extensión gestionaría uno o varios formatoscomunicación y publicación de documentos. La de documentos, bien basándose en la extensiónmonitorización debe realizarse en tiempo real del fichero o en su contenido. Su principalpara asegurar, en todo momento, la idoneidad de función sería asegurar la consistencia de loslos conjuntos de datos adicionales. Todo ello, metadatos con las políticas corporativas,incluso en el caso de que no se prevea su adaptándolas a las peculiaridades de cadapublicación o remisión. formato de documento y a los distintos tipos de operaciones que se pueden llevar a cabo sobreAsimismo, sería preciso disponer de la opción de los mismos.realizar comprobaciones bajo demanda oprogramadas. Para asegurar la interoperatividad entre los diferentes sistemas de gestión de datosComo resultado de estos análisis se podrían adicionales en los documentos y las extensionesdetectar posibles inconsistencias que, cuando escritas por terceros, deberán establecersefuera posible, serían corregidas de forma protocolos estándares de interacción entreautomática. En caso de que la gravedad del ambos.problema así lo aconsejara, se producirían lascorrespondientes alertas y actuaciones de CONCLUSIÓNseguridad. Los documentos incluyen informacionesLa monitorización deberá llevarse a cabo en adicionales que, debidamente gestionadas,todos los equipos en los que se almacene, pueden contribuir a mejorar la seguridad, lagestione o manipule documentos. Las similitudes imagen y el funcionamiento de lasentre este proceso y la forma en que funcionan organizaciones. Sin embargo, hasta la fecha, se
  12. 12. ha venido prestando poca atención a esta http://es.wikipedia.org/wiki/PostScript_encapsulcaracterística de la tecnología. El resultado es un adoelevado riesgo de fuga de información y, en [9] PNGocasiones, daños causados a la imagen http://es.wikipedia.org/wiki/PNGcorporativa. [10] UNC http://www.webopedia.com/TERM/U/UNC.htmlEstos datos adicionales deben ser considerados [11] Libextractorcomo un nuevo recurso que hay que proteger y http://gnunet.org/libextractor/administrar, puesto que se prevé que jueguen un [12] SQL Injectionpapel fundamental en la evolución de los http://www.owasp.org/index.php/SQL_injectionparadigmas relacionados tanto con Internet como [13] EXIFcon los Sistemas de Información. http://es.wikipedia.org/wiki/Exchangeable_imag e_file_formatREFERENCIAS [14] RHDTool http://www.microsoft.com/downloads/details.aspRichard M. Smith, 2003. Microsoft Word bytes x?FamilyID=144e54ed-d43e-42ca-bc7b-Tony Blair in the butt. Publicado en la web con 5446d34e5360&displaylang=esURL: [15] Metadata Extractorhttp://www.computerbytesman.com/privacy/blair http://meta-extractor.sourceforge.net/.htm [16] Doc Scrubber http://www.javacoolsoftware.com/docscrubber/inAlonso Cebrián, José María y Rando González, dex.htmlEnrique, 2008. Metadatos en Microsoft Office. [17] OOMetaExtractorWindows TI Magazine, nº 135. Publicado en la http://www.codeplex.com/OOMetaextractorweb con URL: [18] pdftkhttp://elladodelmal.blogspot.com/2008/09/metad http://www.accesspdf.com/pdftk/atos-en-microsoft-office-i-de-v.html [19] Web Semantica http://es.wikipedia.org/wiki/Web_sem%C3%A1nticaAlonso Cebrián, José María y Rando González,Enrique, 2008. Metadatos e Información Ocultaen Documentos de Openoffice. PC World PRO,nº 257, pp. 82-91. Publicado en la web con URL:http://elladodelmal.blogspot.com/2008/11/metadatos-e-informacin-oculta-en.htmlAlonso Cebrián, José María, Rando González,Enrique, Guzmán Sacristán Antono y Oca,Fracisco 2008. Modelo de referencia para lagestión y protección de metadatos. Publicado enel libro de actas de la ConferenciaIberoamericana de Internet/WWW 2008.[1] ODFhttp://es.wikipedia.org/wiki/OpenDocument[2] ISOhttp://www.iso.org/[3] XMLhttp://www.w3c.es/divulgacion/guiasbreves/tecnologiasXML[4] OOXMLhttp://www.microsoft.com/spain/interop/openxml/ds_open_xml.mspx[5] PDFhttp://es.wikipedia.org/wiki/.pdf[6] XMPhttp://es.wikipedia.org/wiki/XMP[7] RDFhttp://es.wikipedia.org/wiki/Resource_Description_Framework[8] EPS

×