• Like
 Esp #001-no son los documentos; son los datos-traducido
Upcoming SlideShare
Loading in...5
×

Esp #001-no son los documentos; son los datos-traducido

  • 709 views
Uploaded on

 

More in: Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
709
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • It’s not the documents; it’s the DATA! _________________________________________________ Early public records Intricate data collection Potential for error in data entry Potential for error in filing No machine retrieval or analysis Even today, OCR would be impossible http://cultureandcommunication.org/deadmedia/index.php/Bertillon_System This rare Bertillon Card (named after the inventor of Anthropometry) Decline of Bertillonage Fingerprint killed the Bertillon star The complexity of the Bertillon system —the very thing that provided it with such accurate and reliable data—also proved to be its downfall: it was simply too cumbersome to replicate with sufficient accuracy. As soon as Bertillon’s procedures began to be disseminated outside of Paris there were problems; as Cole explains: Learning the system from translated books, far from the exacting presence of Bertillon himself, identification clerks seldom replicated the rigor that characterized operations in Paris. Instead, they skimped on learning the morphological vocabulary, glossed over the precise movements in the measuring process, and contented themselves with sloppily recording a few measurements. Worse, most identification bureaus, too proud to simply adopt Bertillon’s system wholesale, took it upon themselves to modify various aspects of the system. (Cole 2001, 52) Bertillon anticipated these problems, writing a strongly-worded message in his instruction manual directed towards all those who would consider meddling with his finally tuned methods: The arrangement of these instruments was the subject of many experiments and numberless improvements before they reached their present shape, which we consider as final. So we reject in advance every modification, every further change, however slight, either in their form or in their manner of using them. That is a great temptation for beginners, to whom numerous new ideas occur, but who are not aware that all these ideas, even those that they believe to be the most original, the most personal, have already been proposed by others, tried and finally rejected for divers reasons. (Bertillon 1896, 19) Alas, Bertillon’s warnings were not heeded, and the accuracy of anthropometric measurements—and the reputation of the system as a whole—suffered as result. Even if the integrity of Bertillon’s system could be sustained outside of Paris, it was soon to be overtaken by another form of criminal identification. As Kaluszynski notes, “at the last moment before it seemed likely to dominate the future, anthropometry was to undergo a rude shock. Its success had barely been established and savored when its supremacy began to falter in the face of a new and infallible technique” (2001, 128). Of course, the new technique was fingerprinting, a much simpler process than Bertillonage. “A fingerprint is a physical sign that cannot be falsified or disguised, and the mathematical likelihood of two individuals having identical fingerprints is infinitely small” (128). Occam’s razor would dictate that fingerprinting soon supplant Bertillonage as the world-wide standard for criminal identification. ====================================== No son los documentos; son los DATOS! _________________________________________________ Registros públicos antigüos Colecciones de datos intrincados Error potencial en la alimentación de datos Error potencial en el archivo Recuperación o análisis no mecánica Incluso hoy, el reconocimiento óptico de carcatéres sería imposible http://cultureandcommunication.org/deadmedia/index.php/Bertillon_System Extraña “tarjeta de Bertillon” (denominada así en honor al inventor de la Antropometría) Declinaje del “Bertillonage” La huella dactilar eliminó la estrella de Bertillon Gracias a Francois Cuando me invitó, él dijo “se audaz” “ Realmente audaz? No soy el indicado si deseas que pasemos dos días hablando de consejos para codificar “Ruby en Rieles” o algo igualmente estrecho. Ese no es el futuro importante” “ Pero si por AUDAZ quieres decir salvaje y loco entonces me anoto” “ Si,” dijo. “Salvaje y loco” Así que trataremos de empujar los límites con Ustedes y haremos un poco de experimentación en las próximas 48 horas. No esperen mucha recompensa la semana que viene: tenemos por objetivo ayudarlos a construir unas bases de éxito personal e institucional que dará fruto en unos 36 meses. Existe una racionalidad en este enfoque y distinto a la mayoría de los entrenamientos para periodistas, nuestra perspectiva se basa en unos conceptos teóricos: La complejidad del sistema de Bertillon -aquello mismo que le proporcionó información precisa y fiable-, también resultó ser su perdición: era demasiado complicado para reproducir con la suficiente precisión. Tan pronto como los procedimientos de Bertillon comenzaron a divulgarse fuera de París, hubo problemas, como Cole explicaAprender el sistema a partir de libros traducidos, lejos de la presencia exigente del Bertillon, los empleados de identificación rara vez replicaron el rigor que caracterizó las operaciones en París. En su lugar, escatimaron en aprender el vocabulario morfológico, pasaron por alto los movimientos precisos en el proceso de medición, y se contentaron con la grabación descuidada de unas pocas mediciones. Peor aún, la mayoría de las oficinas de identificación, demasiado orgullosas como para adoptar simplemente el sistema de Bertillon, completo, se encargaron de modificar diversos aspectos de éste. Bertillon se anticipó a estos problemas, escribiendo un mensaje fuerte en su manual de instrucciones dirigido a todos aquellos que consideraran entrometerse en su método, finalmente ajustado: El arreglo de estos instrumentos ha sido objeto de muchos experimentos e innumerables mejoras antes de alcanzar su forma actual, que consideramos como definitiva. Por lo tanto rechazamos de antemano cualquier modificación, todos los nuevos cambios, no obstante leves, ya sea en su forma o en su manera de usarlos. Eso es una gran tentación para los principiantes, a los que se les ocurren muchas ideas nuevas, pero que no están conscientes de que todas estas ideas, incluso las que ellos creen que son las más originales, las más personales, ya han sido propuestas por otros, juzgadas y finalmente rechazadas por razones diversas. (Bertillon de 1896, 19) Por desgracia, las advertencias de Bertillon no fueron escuchadas, y la exactitud de las mediciones antropométricas y la reputación del sistema en su conjunto-sufrió como resultado. Incluso si la integridad del sistema de Bertillon se hubiese podido mantener fuera de París, estaba a punto de ser superado por otra forma de identificación criminal. Como señala Kaluszynski ", a última hora cuando parecía que iba a dominar el futuro, la antropometría iba a sufrir un duro revés. Su éxito había sido establecido y apenas saboreó su supremacía cuando empezó a fallar frente a una nueva e infalible técnica "(2001, 128). Por supuesto, la nueva técnica fue las huellas dactilares, un proceso mucho más simple que Bertillonage. "Una huella digital es una señal física que no puede ser falsificada o encubierta, y la probabilidad matemática de que dos personas tengan huellas digitales idénticas es infinitamente pequeño" (128). La navaja de Occam impondría que las huellas digitales pronto reemplazarían al Bertillonage como el estándar mundial para la identificación criminal.
  • Important point #1: Nothing is as important - and valuable - as a good theory! Good theory helps us find our way when we get bogged down in the relatively trivial matters of producing the news. e.g. At the end of the day, does it really matter in a liberal democracy if we use a 2 pt. OR 3pt rule when laying out a page or if a cell in an HTML table is padded 1, 2 or 3 pixels? Not a bit. ======================================= Punto importante # 1: Nada es tan importante - y valioso - como una buena teoría! Una buena teoría nos ayuda a encontrar nuestro camino cuando nos empantanamos en los asuntos relativamente triviales de la producción de las noticias. Ej. Al final del día, ¿es realmente importante en una democracia liberal, si usamos una regla de 2 puntos o de 3 puntos al montar una página o si una celda de una tabla HTML se rellena con 1, 2 o 3 píxeles? Ni un poco.
  • Important Point #2 -- The document is not the data The DOCUMENT is only the first phase. We need to EXTRACT the data in/on the document to perform analysis That DATA will – originally – exist as 1s and zeros. Or if not, we need to translate the data to appropriate digital format. ==================================== Punto importante # 2 - El documento no son los datos El DOCUMENTO constituye solamente la primera. Necesitamos EXTRAER los datos en el documento para realizar el análisis. Los DATOS, existirá –originalmente- como unos y ceros. Si no es así necesitaremos traducir los datos al formato digital apropiado.
  • All those 1s and 0s exist in the Datasphere
  • Datasphere = environment holding all conceptual data of interest to humans Datasphere = similar to biosphere, except resources not depleted or transformed, merely copied Journalist: one species in the Datasphere Environment changes: Species either evolve or die =================================== Dataesfera = entorno que comprende todos los datos conceptuales de interés para los humanos Dataesfera = similar a la biosfera, con la excepción de que los recursos no se agotan o se transforman, simplemente son copiados Periodista:una especie de la Dataesfera Cambios en el entorno: las especies evolucionan o mueren
  • The Datasphere: that conceptual environment where all information-processing species reside Journalist: one species in the datasphere Environment changes: Species either evolve or die ======================= La Datósfera: Entorno conceptual donde residen todas las especies que procesan información Periodistas: Una de las especies de la datósfera Cambios en el entorno: las especies o evolucionan o mueren
  • Important point #4 The document is not the data. Without analysis, the data are not the story. =============================== Punto importante # 4: El documento no son los datos. Sin el análisis, los datos no son la historia
  • Important point #5 Important point: ‘Theory of Journalistic Process ’ ================================ Punto importante #5 Punto importante: ’Teoría del proceso periodístico ’
  • Big changes in the datasphere [Have to investigate other research tools: Google Timeline taken down] More digital data ~100% of all communications created/exist as 1s and 0s In 1997, Hal Varian reported 97% of content was digital; I think that in 15 years, that 3% gap has been closed BIG Data More transparency Overview of all FOIA, Roger Vleugels - http://right2info.org/resources/publications/Fringe%20Special%20-%20Overview%20FOIA%20-%20sep%2020%202010.pdf/at_download/file More tools for analysis – Google search: +”data analysis” +patents 1960-2010: Google search =============================== Grandes cambios en la datósfera [Hay que investigar otras herramientas porque cronologde la búsquedas de google fue eliminado] Más datos digitales ~100% de todas las comunicaciones creadas, existen como 1s y 0s In 1997, Hal Varian reportó que el 97% de los contenidos era digital; yo creo que en 15 años, esa brecha del 3% estará cerrada. MUCHOS datos Más transparencia Resumen de todos los FOIA, (Acta de la Libertad de Información)Roger Vleugels - http://right2info.org/resources/publications/Fringe%20Special%20-%20Overview%20FOIA%20-%20sep%2020%202010.pdf/at_download/file Más herramientas para el análisis– Búsquedas de Google: +”data analysis” +patents 1960-2010: Google search
  • More digital data ~100% of all communications created/exist as 1s and 0s In 1997, Hal Varian reported 97% of content was digital; I think that in 15 years, that 3% gap has been closed More transparency Overview of all FOIA, Roger Vleugels - http://right2info.org/resources/publications/Fringe%20Special%20-%20Overview%20FOIA%20-%20sep%2020%202010.pdf/at_download/file More tools for analysis – Google search: +”data analysis” +patents 1960-2010: Google search ================================ Más datos digitales ~100% de todas las comunicaciones creadas, existen como 1s y 0s In 1997, Hal Varian reportó que el 97% de los contenidos era digital; yo creo que en 15 años, esa brecha del 3% estará cerrada. MUCHOS datos Más transparencia Resumen de todos los FOIA, (Acta de la Libertad de Información)Roger Vleugels - http://right2info.org/resources/publications/Fringe%20Special%20-%20Overview%20FOIA%20-%20sep%2020%202010.pdf/at_download/file Más herramientas para el análisis– Búsquedas de Google: +”data analysis” +patents 1960-2010: Google search
  • Parallel Processing in Camp Generalized Skill Set(s) Locate/Mark/Retrieve Data Formats Data/ Mark/ Clean Data Verify Metadata Retrieve Data Analytic Tools Story-telling Tools Metrics ======================================= Procesamiento paralelo en el seminario Conjunto de destrezas generalizadas Localizar/Marcar/Recuperar Formato de datos Datos/ Marcar/ Limpiar Verificación de datos Metadatos Recuperar Datos Herramientas analíticas Herramientas narrativas Métrica
  • You can’t be a know-it-all Journalism’s Great White Hunter is dead. Too much to learn; not enough time So are hierarchical organizations ================================= Usted no puede ser un sabeloto La figura del periodista como un “Gran cazador blanco” está muerta. Mucho que aprender; sin tiempo suficiente Así son las organizaciones jerárquicas.
  • Collaboration: Challenges & Tools Balance “process standards” vs. creativity/innovation Need common OS? Maybe. Unless… … shift to Browser/Cloud systems IT dept. barriers Will virtual machines help? Who’s the lead dog in the organization? Who are you champions? ==================================== Colaboración: desafíos y herramientas Equilibre “los procesos estándar” vs. la creatividad/innovación Necesitan sistemas operativos comunes? Quizás. A menos que… … cambie para navegadores/ Sistemas de nube Barreras del departamento de Tecnologías de la Información Podrán ayudar las máquinas virtuales? Quién es el “perro guía” de la organización? Quienes son sus campeones?
  • Collaboration: Challenges & Tools Collaboration objectives … Browser-based Free or cheap Save/export data Levels of access ================================ Colaboración: desafíos y herramientas Objetivos de colaboración … Basada en navegadores Gratis o baratas Guardar/exportar los datos Niveles de acceso
  • Collaboration: Challenges & Tools Balance “process standards” vs. creativity/innovation Need common OS? Maybe. Unless… … shift to Browser/Cloud systems IT dept. barriers Will virtual machines help? Who’s the lead dog in the organization? Who are you champions?
  • Aplicaciones de marcapáginas Objetivos: Acceso a través del navegador – pero sin el equipo estandar Creación/manejo de sub-carpetas, categorias & palabrs clave, anotaciones Intercambio privado y/o público Archivo y exportación a sistemas de respaldo Ejemplos: Xmarks: www.xmarks.com/ Diigo: www.diigo.com/index Freeware/shareware buscar en www.tucows.com Entrada de datos: OK, los hemos bajado. Dónde se van a guardar? Dropbox, SugarSync , Syncplicity $$, Jungle Disk ($3p/m), Zumodrive (2gb=$3p/m), AeroFS , SpiderOak , MiMedia , Wuala , Quanp , Evite MS Windows Live, SkyDrive and Mesh – dan más trabajo que ganancia Marcapáginas: Busque en Tucows; Xmarks, Diigo, Goals bookmarks: guarde en el PC, en la nube, sincronice, exporte, comparta Obtenga los datos en la forma más menuda, en el mínimo común denominador.
  • DATA IN: Store & Share in the Cloud OK, it’s downloaded. Where ya gonna save it? Multiple back-up sites: desktop and… Safer in Cloud than otherwise Passwords, but share capabilities Easier with “Cloud-sync” apps Free to low-cost
  • No need to translate images
  • Vínculos a respaldos/sitios de almacenaje y herramientas en “la nube” OK, está descargado. Dónde se va a guardar? Evite MS Windows Live, SkyDrive and Mesh – dan más problemas que beneficios Dropbox - www.dropbox.com Gladinet - http://www.gladinet.com/ SugarSync - www.sugarsync.com Syncplicity - www.syncplicity.com Jungle Disk ($3p/m) - www.jungledisk.com Zumodrive (3p/m) - www.zumodrive.com AeroFS - www.zumodrive.com SpiderOak - spideroak.com MiMedia , Wuala , Quanp ,
  • Entrada de datos en la Era Digital  Análisis  Salida de información Los nuevos datos son ubicuos, compartibles, escalables. Los costos de recuperación, copia y almacenaje son triviales Pueden ser validados, y explorados por individualidades y aplicaciones
  • Move data from “out there” to analytic site/tools Seeking fine-grained data, NOT aggregations Seek data in original form (i.e. NO PDFs) Who collected the data? Why? How? Who proofed/edited the data? Why? How? If from data base, first ask for “record” or “code sheet” or “schema” Definitions of variables or fields. Constant or ??? Get data in lowest common denominator format: Comma-delimited files in ASCII or Text
  • Range of file “states/form” Range of the challenge in extracting and analyzing the data “ JSON is an important standard for ease of interaction across systems. It's becoming the preferred route over XML in many cases. “ And as geo-spatial data explodes, addressing the standards there might be helpful. I would include KML, GeoJSON and SHP files for vector and many options for raster: bil, netCDF, ECW, GeoTIFF, etc.” (Guerin) ======================================== Variedad de archivos "estados / formas“ Rango del desafío en la extracción y el análisis de los datos "JSON es una norma importante para facilitar la interacción entre los sistemas. Se está convirtiendo en la ruta preferida sobre XML, en muchos casos. “ Y a medida que explota la cantidad de los datos geo espaciales, abordaríamos las normas estandar que podrían ser útiles. Yo incluiría KML, GeoJSON y archivos SHP de vector y muchas opciones para el raster: bil, netCDF, ECW, GeoTIFF, etc "(Guerin)
  • Files, Transparency, Ease of Analysis “ The sweet spot of file types for data analysis” ---------------------------------------------------------------------------------- And even these are NOT perfect; have to know some of the underlying assumptions inherent in these file types. That said, this is still the best point of departure when seeking to acquire files and their data. Just as an example, csv does not allow trailing zeros in a numeric field, so my zip would collapse from 02151 to 2151. Or, the field would be represented as text, "02151" (surrounded by quote marks). Some translation programs do that automatically, but there is no standard. Same problem with phone numbers, some equations, etc.  Csv also assumes field headers are on one line. They need to be in one cell in excel to translate correctly that way. Often, they are not, or the excel file has multiple levels of heads. XML is the general link format people want to use, but not all states have adopted it, and a standard schema. Yeah, csv standard does not even allow a blank row or a formatting row (like ---------) between the header and the live data table.  The format row is usually read as a zero, not null, and that screws up averages, medians and so forth. Excel "cheats" on calculating medians, etc. (SSR) Should be ANSI standard CVS (SSR) ======================================= Archivos, Transparencia, Facilidad de Análisis “ El espacio óptimo para el análisis de datos ” ---------------------------------------------------------------------------------- E incluso éstos NO son perfectos, hay que conocer algunos de los supuestos inherentes a este tipo de archivos. Dicho esto, éste sigue siendo el mejor punto de partida cuando se trata de adquirir los archivos y sus datos. A modo de ejemplo, csv no permite ceros en un campo numérico, por lo que mi código postal colapsaría de 02151 a 2151. O bien, el campo se representaría como texto, "02151" (rodeado de comillas). Algunos programas de traducción hacen eso automáticamente, pero no hay un estándar. El mismo problema surge con los números de teléfono, algunas ecuaciones, etc Csv también asume que los encabezados de campo están en una línea. Tienen que estar en una celda en Excel para traducir correctamente de esa manera. A menudo, no están, o el archivo de Excel tiene varios niveles de encabezados XML es el formato general de vínculo que las personas desean utilizar y un esquema estándar, pero no todos los estados lo han adoptado. Sí, el estándar de csv ni siquiera permite una fila en blanco o una fila de formato (como ---------) entre la cabecera y la tabla de datos en tiempo real. El formato de registro se suele leer como un cero, no nulo, y eso produce error en los promedios, medianas y así sucesivamente. Excel " hace trampas" en el cálculo de las medianas, etc (SSR) Debe ser la norma ANSI CVS (SSR)
  • NB: THE SUNSHINENM.COM HOMEPAGE HAS BEEN FIXED SOMEWHAT SO I NEED TO FIND OTHER EXAMPLES TO ILLUSTRATE THESE POINTS. Data In: “Typical” problems with sites Barriers data = barriers to analysis NO site search capability; no site map Failure to use open-standard HTML; using closed-standard Adobe Flash/Shockwave environment. Page formats/layouts not consistent; too many drill-downs instead of search-driven generators Jiggly roll-overs; too much effort spent on bling Impossible to download or scrape data for analysis Information available only in Adobe PDF files; notoriously unfriendly to data analysis. ======================================== Data In: “Typical” problems with sites Barreras en los datos = barreras para el análisis Sitio SIN capacidad de búsquedas; sitio sin mapa La no utilización de estándares abiertos HTML ; utilización de estándares-cerrados en ambientes Adobe Flash/Shockwave Formatos/diseños de páginas inconsistentes muchos “drill-down” en lugar de generadores accionados por la búsqueda Jiggly roll-overs; too much effort spent on bling Imposibilidad de descargar o de obtener datos para el análisis Información disponible solo en archivos Adobe PDF los cuales son notoriamente no amistosos con el análisis de datos.
  • Muy buena descripción del proceso del periodismo analítico, pero …. Fuente: http://www.guardian.co.uk/news/datablog/2011/apr/07/data-journalism-workflow#zoomed-picture
  • It’s not the documents; it’s the DATA! _________________________________________________ Early public records Intricate data collection Potential for error in data entry Potential for error in filing No machine retrieval or analysis Even today, OCR would be impossible http://cultureandcommunication.org/deadmedia/index.php/Bertillon_System This rare Bertillon Card (named after the inventor of Anthropometry) Decline of Bertillonage Fingerprint killed the Bertillon star The complexity of the Bertillon system —the very thing that provided it with such accurate and reliable data—also proved to be its downfall: it was simply too cumbersome to replicate with sufficient accuracy. As soon as Bertillon’s procedures began to be disseminated outside of Paris there were problems; as Cole explains: Learning the system from translated books, far from the exacting presence of Bertillon himself, identification clerks seldom replicated the rigor that characterized operations in Paris. Instead, they skimped on learning the morphological vocabulary, glossed over the precise movements in the measuring process, and contented themselves with sloppily recording a few measurements. Worse, most identification bureaus, too proud to simply adopt Bertillon’s system wholesale, took it upon themselves to modify various aspects of the system. (Cole 2001, 52) Bertillon anticipated these problems, writing a strongly-worded message in his instruction manual directed towards all those who would consider meddling with his finally tuned methods: The arrangement of these instruments was the subject of many experiments and numberless improvements before they reached their present shape, which we consider as final. So we reject in advance every modification, every further change, however slight, either in their form or in their manner of using them. That is a great temptation for beginners, to whom numerous new ideas occur, but who are not aware that all these ideas, even those that they believe to be the most original, the most personal, have already been proposed by others, tried and finally rejected for divers reasons. (Bertillon 1896, 19) Alas, Bertillon’s warnings were not heeded, and the accuracy of anthropometric measurements—and the reputation of the system as a whole—suffered as result. Even if the integrity of Bertillon’s system could be sustained outside of Paris, it was soon to be overtaken by another form of criminal identification. As Kaluszynski notes, “at the last moment before it seemed likely to dominate the future, anthropometry was to undergo a rude shock. Its success had barely been established and savored when its supremacy began to falter in the face of a new and infallible technique” (2001, 128). Of course, the new technique was fingerprinting, a much simpler process than Bertillonage. “A fingerprint is a physical sign that cannot be falsified or disguised, and the mathematical likelihood of two individuals having identical fingerprints is infinitely small” (128). Occam’s razor would dictate that fingerprinting soon supplant Bertillonage as the world-wide standard for criminal identification. ====================================== No son los documentos; son los DATOS! _________________________________________________ Registros públicos antigüos Colecciones de datos intrincados Error potencial en la alimentación de datos Error potencial en el archivo Recuperación o análisis no mecánica Incluso hoy, el reconocimiento óptico de carcatéres sería imposible http://cultureandcommunication.org/deadmedia/index.php/Bertillon_System Extraña “tarjeta de Bertillon” (denominada así en honor al inventor de la Antropometría) Declinaje del “Bertillonage” La huella dactilar eliminó la estrella de Bertillon Gracias a Francois Cuando me invitó, él dijo “se audaz” “ Realmente audaz? No soy el indicado si deseas que pasemos dos días hablando de consejos para codificar “Ruby en Rieles” o algo igualmente estrecho. Ese no es el futuro importante” “ Pero si por AUDAZ quieres decir salvaje y loco entonces me anoto” “ Si,” dijo. “Salvaje y loco” Así que trataremos de empujar los límites con Ustedes y haremos un poco de experimentación en las próximas 48 horas. No esperen mucha recompensa la semana que viene: tenemos por objetivo ayudarlos a construir unas bases de éxito personal e institucional que dará fruto en unos 36 meses. Existe una racionalidad en este enfoque y distinto a la mayoría de los entrenamientos para periodistas, nuestra perspectiva se basa en unos conceptos teóricos: La complejidad del sistema de Bertillon -aquello mismo que le proporcionó información precisa y fiable-, también resultó ser su perdición: era demasiado complicado para reproducir con la suficiente precisión. Tan pronto como los procedimientos de Bertillon comenzaron a divulgarse fuera de París, hubo problemas, como Cole explicaAprender el sistema a partir de libros traducidos, lejos de la presencia exigente del Bertillon, los empleados de identificación rara vez replicaron el rigor que caracterizó las operaciones en París. En su lugar, escatimaron en aprender el vocabulario morfológico, pasaron por alto los movimientos precisos en el proceso de medición, y se contentaron con la grabación descuidada de unas pocas mediciones. Peor aún, la mayoría de las oficinas de identificación, demasiado orgullosas como para adoptar simplemente el sistema de Bertillon, completo, se encargaron de modificar diversos aspectos de éste. Bertillon se anticipó a estos problemas, escribiendo un mensaje fuerte en su manual de instrucciones dirigido a todos aquellos que consideraran entrometerse en su método, finalmente ajustado: El arreglo de estos instrumentos ha sido objeto de muchos experimentos e innumerables mejoras antes de alcanzar su forma actual, que consideramos como definitiva. Por lo tanto rechazamos de antemano cualquier modificación, todos los nuevos cambios, no obstante leves, ya sea en su forma o en su manera de usarlos. Eso es una gran tentación para los principiantes, a los que se les ocurren muchas ideas nuevas, pero que no están conscientes de que todas estas ideas, incluso las que ellos creen que son las más originales, las más personales, ya han sido propuestas por otros, juzgadas y finalmente rechazadas por razones diversas. (Bertillon de 1896, 19) Por desgracia, las advertencias de Bertillon no fueron escuchadas, y la exactitud de las mediciones antropométricas y la reputación del sistema en su conjunto-sufrió como resultado. Incluso si la integridad del sistema de Bertillon se hubiese podido mantener fuera de París, estaba a punto de ser superado por otra forma de identificación criminal. Como señala Kaluszynski ", a última hora cuando parecía que iba a dominar el futuro, la antropometría iba a sufrir un duro revés. Su éxito había sido establecido y apenas saboreó su supremacía cuando empezó a fallar frente a una nueva e infalible técnica "(2001, 128). Por supuesto, la nueva técnica fue las huellas dactilares, un proceso mucho más simple que Bertillonage. "Una huella digital es una señal física que no puede ser falsificada o encubierta, y la probabilidad matemática de que dos personas tengan huellas digitales idénticas es infinitamente pequeño" (128). La navaja de Occam impondría que las huellas digitales pronto reemplazarían al Bertillonage como el estándar mundial para la identificación criminal.

Transcript

  • 1. No son los documentos;son los DATOS! Tom Johnson Director Gerente Inst. De Periodismo Analítico Santa Fe, New Mexico USA tom@jtjohnson.com 1
  • 2. “Para sobrevivir y prosperar en la esfera de datos dinámicos o datósfera” Presentación en D(ata) + P(eriodismo) + Seminario 2012 = Seminario de dos día s auspiciado por DIRECCION WEB FECHA LUGAR Esta presentación en Power Point y hoja de notas están en : http://Johnson-IREwatchdog.notlong.com 2
  • 3. 1 Punto importanteNada es tanimportante - yvalioso - comouna buena teoría 3
  • 4. 2Punto importanteEl documentono son losdatos. 4
  • 5. 3Punto importanteTodos esos unos yceros existen en laDatósfera 5
  • 6. Datósfera cambiante: Especies en la biosfera: Entrada Salida de energía Metabolismo latente de energía• Periodistas, et al., en la dataesfera Entrada Salida de datos Análisis de información6
  • 7. iador Speciesrin the Infosphere Periodista to His Abogado Economista Chofer de camión de basura Maestro La Datósfera: o r de Entorno conceptual t ad o s jus ur A seg donde residen todas las especies que Policía procesan7 información
  • 8. 4Punto importanteEl documentono son losdatos.Sin el análisislos datos no sonla historia 8
  • 9. 5 Next two days Punto importante “Teoría del proceso periodístico”Entrada de datos Análisis Salida de información 9
  • 10. Grandes cambios en la datósfera• Más datos digitales analysis” +patents Búsqueda de Google: +”data• ~100% de todas las comunicaciones creadas, existen como 1s y 0s• Más transparencia – 90 países tiene leyes de libertad de información• Más herramientas para el análisis 10
  • 11. Grandes cambios en la datósfera• Más datos digitales – ~100% de todas las comunicaciones credas, existen como 1s and 0s• Más transparencia – 90 países poseen leyes de libertad de información• Más herramientas para el análisis• Más aplicaciones de “nube” y más espacio para almacenar 11
  • 12. Procesamiento paralelo en elseminario Periodismo= producto + servicio Perspectiva/Filosofía/Teoria  Entrada de datos  Análisis  Salida de información  Proceso RRAW-PPdD Nuevas prácticas de gerenciaSem Los tres 100s  Colaboración2012 Conjunto de destrezas generalizadas Localizar/ - Formatos Herramients Herramientas Marcar/ de datos analíticas narrativas Recuperar - Limpieza Datos de datos Métrica - Verificació n de datos - Metadatos 12
  • 13. Ustedes no pueden ser un sabelotodo• La figura del periodista como un “Gran cazador blanco” está muerta.• Mucho que aprender; sin tiempo suficiente• Así son las organizaciones jerárquicas. 13
  • 14. Colaboración: Desafíos y herramientas• Equilibre “los procesos estándar” vs. la creatividad/innovación• Necesitan sistemas operativos comunes? Quizás. A menos que…• … cambie para navegadores/ Sistemas de nube• Barreras del departamento de Tecnologías de la Información • Podrán ayudar las máquinas virtuales? • Quién es el “perro guía” de la organización? Quienes son sus campeones? 14
  • 15. Colaboración: Desafíos y herramientasObjetivos de colaboración …•Basada en navegadores•Gratis o baratas•Guardar/exportar los datos•Niveles de acceso 15
  • 16. Colaboración: Desafíos y herramientasColaboración con…•Software de colaboraciónhttps://secure.wikimedia.org/wikipedia/en/wiki/Collaborative_s•Wikis • https://secure.wikimedia.org/wikipedia/en/wiki/Wikis • Comparación de software para Wikis https:// secure.wikimedia.org/wikipedia/en/wiki/Comparison_of_wik 16
  • 17. Entrada de datos: RecuperaciónAplicaciones de marcapáginas • Objetivos: • Acceso a través del navegador – pero sin el equipo estandar • Creación/manejo de sub-carpetas, categorias & palabrs clave, anotaciones • Intercambio privado y/o público • Archivo y exportación a sistemas de respaldo • Ejemplos: • Xmarks: www.xmarks.com/ • Diigo: www.diigo.com/index • Freeware/shareware buscar en www.tucows.com 17
  • 18. ENTRADA DE DATOS: Guardar y compartiren la nube OK, está descargado. Dónde se va a guardar? •Multiples sitios de respaldo: de escritorio y… • Más seguros en la nube que en otra parte • Contraseñas, pero capacidades compartidas • Más fácil con las aplicaciones de “la nube sinconizada” • Gratis o de bajo costo 18
  • 19. ENTRADA DE DATOS: Guardar y compartir en lanube OK, está descargado. Dónde se va a guardar?• Evite MS Windows Live, SkyDrive and Mesh – dan más problemas que beneficios Your Hard Drive •Dropbox - www.dropbox.com 19
  • 20. ENTRADA DE DATOS: Guardar y compartir en la nube OK, está descargado. Dónde se va a guardar? Carpetas, subcarpetas, sub-• Evite MS Windows Live, SkyDrive and Mesh – dan más Vista de su navegador subcarpetas, etc. problemas que beneficios •Dropbox - www.dropbox.com Sincronización casi instantánea con/desde su escritorio 20
  • 21. ENTRADA DE DATOS: Guardar y compartir en la nube OK, está descargado. Dónde se va a guardar?• Evite MS Windows Live, SkyDrive and Mesh – dan más problemas que beneficios •Dropbox - www.dropbox.com •Gladinet - http://www.gladinet.com/ •SugarSync - www.sugarsync.com •Syncplicity - www.syncplicity.com •Jungle Disk ($3p/m) - www.jungledisk.com •Zumodrive (3p/m) - www.zumodrive.com •AeroFS - www.zumodrive.com •SpiderOak - spideroak.com •MiMedia, Wuala, Quanp, 21
  • 22. Enfocando la fase #1: Aspectos de la “Entrada de datos” 22
  • 23. Entrada de datos en la EraDigital  Análisis  Salida de información• Notas • Los nuevos datos son• Texto ubicuos,• Numérico compartibles,• Imagenes escalables.• Cuadros/Graficos • Los costos de• Mapas recuperación, copia y• Audio almacenaje son• Video triviales• Átomos  Bits • Pueden ser validados,• Cómo? Quién? y explorados por individualidades y aplicaciones 23
  • 24. Entrada de datos: Objetivos• Mover los datos de "allá afuera" a los sitios de análisis / herramientas• Buscar datos desgranados, no agrupaciones• Buscar datos en su forma original (Ej. NO PDFs) • Quién recogió los datos? Porqué? Cómo? • Quién corrigió/editó los datos? Porqué? Cómo? • Si es de una base de datos, preguntar primero por “record” u “hoja de códigos” o “esquema” • Definición de las variables o campos. Constantes o??? • Obtener los datos en el formato con menor común denominador: archivos delimitados por comas en ASCII o texto 24
  • 25. Archivos, Transparencia, Facilidad deAnálisis 25
  • 26. Archivos, Transparencia, Facilidad deAnálisis El espacio óptimo para el análisis de datos 26
  • 27. Entrada de datos: Problemas “típicos” con lossitiosBarreras en los datos = barreras para el análisis • Sitio SIN capacidad de búsquedas; sitio sin mapa • La no utilización de estándares abiertos HTML; utilización de estándares-cerrados en ambientes Adobe Flash/Shockwave • Formatos/diseños de páginas inconsistentes muchos “drill-down” en lugar de generadores accionados por la búsqueda • Imposibilidad de descargar o de obtener datos para el análisis • Información disponible solo en archivos Adobe PDF los cuales son notoriamente no amistosos con el análisis de datos. 27
  • 28. Preparando los datos: DNA Analítico Cualitativo Cuantitativo Geo-localización •Quién •Cuántos/cuánto •Todas las •Qué •Qué categorías narraciones tienen •Cuándo •Qué tipo de datos y geografía qué niveles? •Porqué •La gente está •Cuáles cambios? interesada en saber •Dónde •Cuál cronología qué tan cerca está •Cómo de mi? Media Ecology Association - Junio 2007 Mexico City 28
  • 29. Datos Noticias de enviados última horaProceso del Periodismo Analítico – UK_Guardian Eventos Datos • Todos los Teorías a ser datos vienen recurrentes compartidos exploradas suciosQué Qué comparar o Qué significan Qué otros datos se señalar cambios los datos ajustan para usarse juntos? • Se asume lafalta? Hojas de cálculo “distribución Datos en Columnas innecesarias Datos medidos divina” • No se validan formato Celdas fusionadas en unidades de datos incorrecto distintas Realizar los cálculos de los datos • No se limpian los datos los datos Comprobación Recalcular si de validez de es necesario los resultados Equipo Noticia SALIDA gráfico Herramientas Simplemente gratis para publicar 29 Tabla de fusión de Google
  • 30. Datos Noticias de enviados última hora Eventos Datos Teorías a ser recurrentes compartidos exploradas Qué comparar o Qué significan Qué otros datos se señalar cambios los datos ajustan para usarse juntos? Hojas de cálculo Datos en Datos medidos Columnas innecesarias formato Celdas fusionadas en unidades de datosincorrecto distintas Realizar los cálculos de los datos Comprobación Recalcular si de validez de es necesario los resultados Equipo Noticia SALIDA gráfico 30 Herramientas Simplemente
  • 31. Preguntas sobre “Entrada de Datos” #1 – Mantenga una bitácora (Pruebe usarEntrada de datos Análisis  Notesync.com)Salida deDatos cualitativos, cuantitativos o • ¿ información• Notas geográficos?• Texto • ¿Cambios? ¿Cómo se manejarán los lapsos de• Numérico tiempo?• Imágenes •Objetivo:• Cuadros/Gráficos esforzarse por obtener los datos• Mapas originales y en las unidades más pequeñas.• Audio • Los datos en línea rara vez están• Video completos o son exactos. •¿Dónde están los datos? ¿En cuál formato?31¿I-
  • 32. Preguntas sobre “Entrada de Datos” #1 – Mantenga una bitácora (Pruebe a usarEntrada de datos Análisis  Notesync.com)Salida de información •¿Quién creó los datos? ¿Porqué? ¿Cómo?•Notas ¿Existen catalizadores jurídicos para la•Texto creación? ¿Si es así, qué dicen?•Numérico•¿Han cambiado las definiciones y el proceso•Imágenes de recolección?•Cuadros/Gráficos•Mapas •¿Quién podría revisar y editar los datos?•Audio ¿Cuál era/es el proceso de selección para•Video asegurar la exactitud? ¿Quién ha analizado los datos? ¿Con qué propósito y con cuáles métodos? 32
  • 33. Entrada de Datos  Análisis  Salida deinformaciónEntrada de datos  Análisis  Salida de información • ¿Qué estamos buscando? ¿Cómo podemos ser•• Notas sorprendidos? Texto• Numerico • Fuente• Imágenes • Definición• Cuadros/Gráficos• Mapas • Contexto• Audio • Estimación• Video• ÁtomosBits • Conteo ¿Cómo? ¿Quién? • Estadística • Geoestadística • Análisis de Redes Sociales • Contabilidad forense 33
  • 34. Entrada de datos  Análisis  Salida deinformaciónEntrada de datosAnálisis Salida de información ¿Qué estamos•Notas • buscando? • Difusión•Texto•Numerico ¿Cómo podemos ser sorprendidos? • Web•Imágenes • Fuente • Audio•Cuadros/Gráficos • Definición•Mapas • Contexto • Video•Audio • • Estimación Conteo • Texto•Video•ÁtomosBits • Estadística • Visualización de • Geoestadística¿Cómo? • Análisis de Redes datos Sociales • Contabilidad • Mapas forense • Bases de datos dinámicas • Archivos 34
  • 35. No son los documentos;son los DATOS! Tom Johnson Director Gerente Inst. De Periodismo Analítico Santa Fe, New Mexico USA tom@jtjohnson.com 35
  • 36. 3Important pointAll those 1s and 0sexist in theDatasphere 36