Apuntamentos sobre o xornalismo deprecisión (de computación ou de datos)                    Carlos Neira Cortizas
Contidos   Estatística e xornalismo   Formación adicional   Procedemento   Fundamentos do traballo con datos e BD   F...
Estatística e xornalismo   Teoría: O novo xornalismo de precisión (Meyer)   Práctica: o 20% das novas con cifras teñen e...
Estatística e xornalismo                              Exercicios:                                  Textos: Curso de     ...
Formación adicional   Formación transversal       Bases de datos, GIS       Estatística, minaría de datos       Intern...
Procedemento   Noticia descritiva: táboas e gráficos de usar e tirar       Folla de cálculo e base de datos   Noticia(s...
Fundamentos do traballo con datos   Infinidade de libros sobre análise de datos   Bastantes menos sobre a obtención e o ...
Bases de datos   Datos       Estruturados       Semiestruturados       Sen estrutura   Bases de datos SQL       Clie...
Fontes de datos   Institutos e Oficinas de Estatística: IGE, INE, Eurostat   Organismos gobernamentais: Ministerios, IEF...
Open Data   Power to the people + business       Parte de filosofía máis ampla: open-source governance, ética hacker    ...
Open Data   Recursos       Data.gov: EUA / Obama, pioneiros       CPEIG: Colexio Profesional de Enxeñaría en Informátic...
GIS   Datos xeolocalizados       Todos os datos das ciencias sociais (persoas) son xeorreferenciables       A difusión ...
Obtención e tratamento de datos   Mundo analóxico       „Picado‟ de datos e OCR de texto, listados e táboas numéricas  ...
Obtención e tratamento de datos   Rede (II)       Sindicación de contidos           Fluxo personalizado de noticias: po...
Obtención e tratamento de datos   Rede (e III)       Combinando a análise de datos coa        programación e o desenvolv...
Software de análise de datos   Complementos       MS Excel templates & macros (BiPlot, Colored Bar Chart, Geocoding tool...
Visualización de datos   Nomes:       Edward Tufte, o gurú da visualización de datos       Hans Rosling, Gapminder e o ...
Visualización de datos
Visualización de datos
Visualización de datos
Visualización de datos
Exemplos   Manifestación do 17 de Maio de 2012    na Praza da Quintana       Asistencia:           Organización: 25.000...
Exemplos   Sondaxes electorais áutonómicas en    Galicia       Comportamento:           Subestiman sistematicamente ao ...
Graciñashttp://calidonia.eu/ calidonia.hibernia@gmail.com
Upcoming SlideShare
Loading in …5
×

Apuntamentos sobre o xornalismo de precisión

1,005 views

Published on

Presentación empregada nunha charla sobre xornalismo computacional ou de datos para o alumnado de último curso de Ciencias da Comunicación da USC

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,005
On SlideShare
0
From Embeds
0
Number of Embeds
80
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Apuntamentos sobre o xornalismo de precisión

  1. 1. Apuntamentos sobre o xornalismo deprecisión (de computación ou de datos) Carlos Neira Cortizas
  2. 2. Contidos Estatística e xornalismo Formación adicional Procedemento Fundamentos do traballo con datos e BD Fontes de datos e Open Data Obtención e tratamento de datos Software de análise de datos Visualización de datos
  3. 3. Estatística e xornalismo Teoría: O novo xornalismo de precisión (Meyer) Práctica: o 20% das novas con cifras teñen erros, a maioría de gráficos son inapropiados  Erros máis comúns:  Selección de datos irrelevantes ou menos relevantes  Sumas incompletas  Confusión de magnitudes, díxitos significantes  Confusión de medidas (absolutas/relativas, nivel/variación, posición/dispersión)  Avaliación de series temporais (estacionalidade, ciclo, tendencia)  Non consideración ou malinterpretación das marxes de erro en enquisas  Correlación (lineal) non implica causación  Escolla incorrecta do tipo de gráfico, escala, etiquetado, cor…  Suxestión de comparacións incongruentes  Exceso de detalles e adornos  Exemplos: Malaprensa, Junk charts
  4. 4. Estatística e xornalismo  Exercicios:  Textos: Curso de ética xornalística  Gráficos: Tables2Graphs, ChartChooser  Debate:  Os/as xornalistas odian as matemáticas (?)  Letras ou ciencias vs. letras e ciencias  Nivel da educación en España (informe PISA)  Criterio editorial > rigor profesional e científico
  5. 5. Formación adicional Formación transversal  Bases de datos, GIS  Estatística, minaría de datos  Internet, web, redes sociais, APIs, the cloud  Expresións regulares, programación, algoritmos  Desenvolvemento de aplicativos  Deseño gráfico, infografía, visualización de datos  Idiomas: inglés técnico Formación especializada  Socioloxía  Politoloxía  Economía financeira, macroeconomía  …
  6. 6. Procedemento Noticia descritiva: táboas e gráficos de usar e tirar  Folla de cálculo e base de datos Noticia(s) en profundidade: construción de bases de datos persoais e explotación demorada  Aplicativos especializados Formar un equipo ou buscar asesoramento nos ámbitos que se precisan e non se dominan  Recursos / Imprescindible O 80% do traballo vaise na recompilación e preparación de datos e non na análise  Tempo / Paciencia
  7. 7. Fundamentos do traballo con datos Infinidade de libros sobre análise de datos Bastantes menos sobre a obtención e o tratamento de datos  Introduction to Data Technologies (Paul Murrell)  Programación (code is poetry)  HTML / CSS  Almacenamento de datos  Metadatos  XML  Bases de datos  Consultas  SQL  Procesamento de datos  Expresións regulares
  8. 8. Bases de datos Datos  Estruturados  Semiestruturados  Sen estrutura Bases de datos SQL  Clientes:  MS Access, OpenOffice Base, Kexi  Servidores:  MySQL, PostgreSQL, Microsoft SQL Server, Oracle, SQLite, MariaDB, DB2, Informix… Bases de datos NoSQL  BigTable (Google)  DynamoDB (Amazon)  CouchDB, Cassandra, Hadoop, Hbase (Apache)  MongoDB, SimpleDB, Lotus Domino, InfinityDB…
  9. 9. Fontes de datos Institutos e Oficinas de Estatística: IGE, INE, Eurostat Organismos gobernamentais: Ministerios, IEF Fundacións e institucións económicas: IEEG Barrié, NCG, La Caixa, BBVA, FUNCAS, Instituto L.R. Klein, Ardán, Camerdata, BCE, OCDE, World Bank  Lobbies económicos, de pago (a información é poder) Google Public Data (+ fontes en inglés) Portais colaborativos de datos e buscadores especializados: Freebase, Zanran Copias históricas de contidos estáticos de sitios cambiados ou desaparecidos: Archive
  10. 10. Open Data Power to the people + business  Parte de filosofía máis ampla: open-source governance, ética hacker  Acceso universal á información, e gratuíto (non ao „repago‟)  Ecosistemas e comunidades abertas e colaborativas, participación e decisión  RISP (reutilización información sector público), devolución ao público  Datos estruturados, estándares abertos, linked data e interoperabilidade  O licenciamento debe permitir un uso comercial, xerar negocio cos datos A situación aquí e hoxe:  As iniciativas parten do ámbito tecnolóxico e non do estatístico ou administrativo  Máis datos pechados que abertos  >50% dos datos xa estaban en organismos estatísticos e rexistros administrativos  Publícanse táboas e frecuencias marxinais e non datos en bruto, matrices ou microdatos  Publícanse formatos non abertos e/ou non automatizables (por ex.: PDF)  Marco lexislativo timorato, Lei de Transparencia en curso = oportunidade perdida
  11. 11. Open Data Recursos  Data.gov: EUA / Obama, pioneiros  CPEIG: Colexio Profesional de Enxeñaría en Informática de Galicia  Organiza o I Concurso OpenData  Abert@s (portal da Xunta de Galicia)  Datos.gob.es (portal da Administración Xeral do Estado)  Parte do proxecto Aporta  Fundación CTIC  Publica o Catálogo mundial de datos abertos  Asociación Pro Bono Público  Organiza o Desafío AbreDatos  Media-lab Prado: experiencias TIC comunitarias e procomún  CKan: aplicativo para instalar un servidor propio de datos abertos
  12. 12. GIS Datos xeolocalizados  Todos os datos das ciencias sociais (persoas) son xeorreferenciables  A difusión e a ubicuidade acadadas polas TIC (portátiles, smartphones, tablets, GPS, redes sen fíos, etc.) estenden a produción de datos a calquera lugar  A tecnoloxía e as redes sociais facilitan a creación masiva de datos (big data) sobre calquera actividade humana  Na internet os datos (e non a publicidade) son a primeira fonte de ingresos, de xeración de negocio e de innovación  Software libre: gvSIG, GRASS  Servizos web: Google Maps e Google Earth, OpenStreetMap, IkiMap  Datos: GeoCommons, Natural Earth, CNIG-IGN, IET Xunta  Actualidade: La Cartoteca
  13. 13. Obtención e tratamento de datos Mundo analóxico  „Picado‟ de datos e OCR de texto, listados e táboas numéricas Almacenamento masivo  En soporte óptico: DVDs do Censo, BDs electorais do Ministerio do Interior… Pantalla  Webscraping: Scrapy / Scraper Wiki Rede (I)  Copia  Descarga directa  Clonador de sitios: HTTrack  Clonador de sitios desaparecidos: Warrick sobre Archive.org…  Xeración  Formularios públicos: Google Docs > Google Drive  Sistema profesional e multilingüe de enquisas: LimeSurvey
  14. 14. Obtención e tratamento de datos Rede (II)  Sindicación de contidos  Fluxo personalizado de noticias: por ex.: RSS de Google News das noticias con “xornalismo”  Planet agregando noticias nun CMS: FeedWordPress para WordPress  Agregación, contaxe e visualización de palabras/etiquetas máis frecuentes: FeedVis  Xerador de RSS para webs sen sindicación: OpenDapper  Ferramentas avanzadas  Tubaxes e filtros para xerar datos estruturados: Yahoo Pipes  Depuración e limpeza de datos: Google Refine, DataCleaner  Repositorio/Xestor de contidos xornalísticos cun CMS: ManagingNews sobre Drupal  Distribución OpenSuse para xornalismo de datos: Computational Journalism Server
  15. 15. Obtención e tratamento de datos Rede (e III)  Combinando a análise de datos coa programación e o desenvolvemento  APIs: social networks & crowdsourcing: Google, Facebook,Twitter, Nestoria  Natural language processing & sentiment analysis: TweetFeel (en), Tuitómetro (es), Daedalus (gl)  Algorithms, machine learning & recommendation systems: Netflix Prize  Enterprise data & Public data = Big Data
  16. 16. Software de análise de datos Complementos  MS Excel templates & macros (BiPlot, Colored Bar Chart, Geocoding tool, Interactive Regression, Motion charts)  MS Excel add-ins (Analyse-It, Arma, ChartTools, CleanCharts, ErrorBars, Excellent Analytics, FuzzyLookup, LOESS utility, PowerPivot, SolverStat, XLMiner, XLStat, XY Chart Labeler) Paquetes estatísticos e matemáticos  Matlab, R, SAS, SOFA, SPSS, Statistica Aplicativos de minaría de datos  Enterprise Miner (SAS), Orange, RapidMiner, SPSS Modeller (IBM) Paquetes de intelixencia de negocio  Cognos 8 BI / DB2 Data Warehouse (IBM), Data Mining (Oracle), Knime, Netweaver Business Warehouse (SAP), Pentaho Solucións  Gate (textmining) Paquetes de integración  Weka, Keel, Tanagra Bibliotecas de minaría de datos Especialidades Prototipos de investigación
  17. 17. Visualización de datos Nomes:  Edward Tufte, o gurú da visualización de datos  Hans Rosling, Gapminder e o boom da representación de datos na rede  Xocas G.V., un galego nas infografías do NYT Exemplos:  Complexidade: Bestiario, The Observatory of Economic Complexity, Visual Complexity, Visualizing.org,  Interacción: Build Last.fm, TouchGraph for Facebook, Twitterfall  Tempo real: Infomous, NewsMap Ferramentas:  Gephi, Google Fusion Tables, ManyEyes, Tableau, Wordle Actualidade:  Blogs de visualización de datos
  18. 18. Visualización de datos
  19. 19. Visualización de datos
  20. 20. Visualización de datos
  21. 21. Visualización de datos
  22. 22. Exemplos Manifestación do 17 de Maio de 2012 na Praza da Quintana  Asistencia:  Organización: 25.000 persoas  Real: +/- 3.500 persoas  Recursos:  Asistencia  Fotografías panorámicas e de perímetro  Manifestómetro (blog)  Manifestómetro (medidor)  Aberración:  „Sempre se dixo que…‟ na Quintana caben 15.000 persoas  Iso supón, coa praza limpa de obstáculos, 4,5 persoas / m2  3 veces a media histórica
  23. 23. Exemplos Sondaxes electorais áutonómicas en Galicia  Comportamento:  Subestiman sistematicamente ao PP  O 75% das enquisas poñían por diante do PP a suma de PSOE e BNG, e en só 1 de 3 resultados reais isto aconteceu.  Hai cociñas demoscópicas que engordan sistematicamente ao PP, e iso fai que, ás veces, atinen  Recursos:  BD construída ao longo de 12 anos  Folla de cálculo e complementos  Blog para a difusión  Interpretación:  Cos últimos datos a posibilidade de que o PP perda a Xunta son mínimas
  24. 24. Graciñashttp://calidonia.eu/ calidonia.hibernia@gmail.com

×