Latinoware2012

642 views

Published on

Organografos: Reorganizando seu conteúdo digital.
A era digital está nos inundando de informação. Hierarquias são os padrões cognitivos que nos permitem reduzir o espaço de informação para uma dimensão compatível com nossos limites cognitivos. Nossas ferramentas de gerenciamento de conteúdo digital usam e abusam de hierarquias, mas há muito o que melhorar. Não temos mecanismos para avaliar a qualidade de uma organização, construímos intuitivamente hierarquias estáticas, e somos incapazes de compartilhar facilmente nossos critérios organizacionais. Nesta palestra, discutiremos estes temas e uma nova abordagem de organização de informação digital que permita a construção de hierarquias dinâmicas, contextuais, reconfiguráveis e compartilháveis.

Published in: Technology
2 Comments
2 Likes
Statistics
Notes
No Downloads
Views
Total views
642
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
6
Comments
2
Likes
2
Embeds 0
No embeds

No notes for slide

Latinoware2012

  1. 1. Latinoware 2012 - IX Conferência Latino-Americana de Software Livre ORGANOGRAFOS Reorganizando seu Conteúdo Digital Rodrigo Dias Arruda Senra IC-Unicamp / Globo.com
  2. 2. Apenas um rapaz latino americano... • Engenheiro de Computação Graduação-MSc-(PhD em dez 2012) IC-Unicamp • Desenvolvedor1996, hoje na Globo.com ) (no mercado desde e Projetista de Software • Entusiasta de FLOSS 1999) (atuante na comunidade desde 2
  3. 3. Roteiro• Provocação Filosófica• Motivação• Problemas• Organografos• Organicer (preview) 3
  4. 4. Provocação Filosófica
  5. 5. Os Primeiros Nerds 5
  6. 6. Os Primeiros Nerds 5
  7. 7. Os Primeiros Nerds 5
  8. 8. Os Primeiros Nerds 5
  9. 9. Os Primeiros Nerds 5
  10. 10. Os Primeiros Nerds 5
  11. 11. Os Primeiros Nerdshttp://www.ciencialivre.pro.brInformação ampla e irrestrita 5
  12. 12. Motivação
  13. 13. 7
  14. 14. k-Means Hull Sebastiani Support Vector Content Management Chen Machines Clustering Nearest Neighbors Sokal Hierarchies Information Retrieval Python Semantic Web Neural Folksonomy Mongo Data Sharing Classification Nets RSS Javascript Naïve Bayes Social Networks Visualization Digital Libraries Organization Cognition Syndication Tagging Jaccard XML Personal DesktopCouchDB Databases Feeds Go Evaluation CAPES User Interfaces Taxonomy Crescenzi Information Extraction CNPq Automation Cosine NoSQL Classification RDF Organographs Dice Matching Wrappers INCT 7 Fapesp
  15. 15. 8
  16. 16. Quantos conceitos ? 8
  17. 17. Quantos conceitos ?Em que ordem eles apareceram ? 8
  18. 18. Quantos conceitos ?Em que ordem eles apareceram ? Como categorizá-los ? 8
  19. 19. Quantos conceitos ?Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? 8
  20. 20. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ?Quais as relações entre os conceitos ? 8
  21. 21. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ?Quais as relações entre os conceitos ?Quais são relevantes para mim agora ? 8
  22. 22. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ?Quais as relações entre os conceitos ?Quais são relevantes para mim agora ? ... 8
  23. 23. Quantos conceitos ? Em que ordem eles apareceram ? Como categorizá-los ? De onde vieram ? Quais as relações entre os conceitos ? Quais são relevantes para mim agora ? ...[Miller 1956] regra 7±2: capacidade cognitiva é limitada 8
  24. 24. Nearest Neighbors Evaluation Naïve Bayes Support Vector Machines Clustering Classification Neural Nets k-Means Classification Sokal ChenCrescenzi Social NetworksSebastiani Feeds Folksonomy Tagging Hull Syndication Taxonomy Cognition RSS Data Sharing Hierarchies Automation Personal Desktop WrappersInformation Extraction Organization Content Management Digital Libraries VisualizationInformation Retrieval Organographs User Interfaces Dice Matching Databases Fapesp Cosine NoSQL Go INCT Jaccard CouchDB Mongo Python CAPES Javascript XML RDF CNPq Semantic Web 9
  25. 25. 10
  26. 26. Problemas
  27. 27. Qual das categorias abaixo é a que melhoracomoda o objeto acima ? 12
  28. 28. MotivaçãoVermelhos ? Triangulos ? Relacionados ? 13
  29. 29. Uma breve história no tempo 14
  30. 30. Uma breve história no tempo 14
  31. 31. Uma breve história no tempo 14
  32. 32. Uma breve história no tempo 14
  33. 33. Uma breve história no tempo 14
  34. 34. Uma breve história no tempo 14
  35. 35. Uma breve história no tempo 14
  36. 36. Uma breve história no tempo 14
  37. 37. Uma breve história no tempoMuito mais difícil que 14
  38. 38. O que há de errado ? 15
  39. 39. O que há de errado ?1. Única categoria para conteúdo Multi-facetado 15
  40. 40. O que há de errado ?1. Única categoria para conteúdo Multi-facetado2. Categorias definidas manualmente 15
  41. 41. O que há de errado ?1. Única categoria para conteúdo Multi-facetado2. Categorias definidas manualmente3. Critério não é explícito 15
  42. 42. O que há de errado ?1. Única categoria para conteúdo Multi-facetado2. Categorias definidas manualmente3. Critério não é explícito4. Relação estática de pertinência 15
  43. 43. O que há de errado ?1. Única categoria para conteúdo Multi-facetado2. Categorias definidas manualmente3. Critério não é explícito4. Relação estática de pertinência5. Organização não é reutilizável 15
  44. 44. Objetivos
  45. 45. Objetivos1. Avaliar hierarquias criadas manualmente2. Reorganizar conteúdo dinamicamente3. Reutilizar organização
  46. 46. Avaliar Hierarquias 17
  47. 47. Avaliar Hierarquias muito conteúdo junto 17
  48. 48. Avaliar Hierarquias muito conteúdo junto duplicado, deslocado 17
  49. 49. Avaliar Hierarquias muito conteúdo junto duplicado, deslocado muitos agregadores 17
  50. 50. Avaliar Hierarquias muito conteúdo junto duplicado, deslocado muitos agregadoresprofundo demais 17
  51. 51. Reorganizar conteúdo dinamicamente Autor Data de PublicaçãoAlice 2011 Artigo 1 2008 Artigo 2Beto 2011 Artigo 3 18
  52. 52. Reorganizar conteúdo dinamicamente Autor Data de Publicação Data de Publicação AutorAlice 2011 Artigo 1 2008 Artigo 2Beto 2011 Artigo 3 18
  53. 53. Reorganizar conteúdo dinamicamente Autor Data de Publicação Data de Publicação AutorAlice 2011 2011 Artigo 1 Alice Artigo 1 2008 Artigo 2 Beto Artigo 3Beto 2008 2011 Artigo 3 Alice Artigo 2 18
  54. 54. Reorganizar conteúdo dinamicamente a TAREFA é importante! Autor Data de Publicação Data de Publicação AutorAlice 2011 2011 Artigo 1 Alice Artigo 1 2008 Artigo 2 Beto Artigo 3Beto 2008 2011 Artigo 3 Alice Artigo 2 18
  55. 55. Reutilizar organização 19
  56. 56. Reutilizar organização 19
  57. 57. Reutilizar organização 19
  58. 58. Organografos
  59. 59. Metodologiacoleção 21
  60. 60. Metodologiacoleção organizar 21
  61. 61. Metodologiacoleção organizar avaliar 21
  62. 62. Metodologiacoleção organizar avaliar reorganizar 21
  63. 63. Metodologiacoleção organizar avaliar compartilhar reorganizar 21
  64. 64. 22
  65. 65. Organografos ... são artefatos que tornam explícito como organizarinformação digital no contexto de uma tarefa específica. 22
  66. 66. Organographs O = <Hin(V,E), forg, Hout(V,E)>Hin(V,E), Hout(V,E): Input and Output Hierarchiesforg: FHil(vagg,vagg) + FCat(vagg,vcnt) vagg notation eagg ecnt vcnt 23
  67. 67. Papéis Autoria de Organografo NLP Domínio ML Data UX Container Autor do Organofrafo OrganografoExtração de Similaridade Classificadores Algoritmos deInformação Ontologias Iteradores Visualização Algoritmos Tarefa ! 24
  68. 68. Estrutura de um OrganografoHierarquia de Entrada:• localização ( URL )• Navegação (crawler/iterador)Transformação: • política de extração de informação • Remapeamento da estrutura hierarquica (FHil) • Política de categorização (FCat)Hieraquia de Saída:• localização (URL)• política de visualização 25
  69. 69. Execução de Organografo Workflow de TransformaçãoÍndice de Facetas FCat() Extração FHil() Navegação da Pre-processamento Hierarquia Hierarquia Resultante Iterador Hierarquia de Origem Usuário do Organografo Visualização
  70. 70. ImplementaçãoCrawler: filesystem, relational DB, OO DB, WebExtração de Informação: patterns,dictionaries, rules, probabilities, templates/wrappersMedidas de Similaridade: matching, dice, jaccard, overlap, cosineOntologias: ACM subject headings, Qualis Index, SKOSClassificadores: decision trees, naïve bayes, max. entropyVisualização: user-mode filesystem(fuse, dokan), InfoVis toolkit (Web) 27
  71. 71. Example 28
  72. 72. Example Task: visualização Task: extração info Task: transformação Coleção de Entrada 29
  73. 73. acmccs98 = acm_extractor(‘http://www.acm.org/about/class/1998/ccs98.xml’)organograph: input: collection(‘file:///some/local/dir/docs’) output: collection(‘rodsenra@dropbox:/output’) id: ‘docs by year’ level: label: format(‘YYYY’, input.Vcnt.publication_date) level: classifier: naive_bayes(classes=acmccs98.Vagg[1], train=acmccs98.Vagg[2:] + acmccs98.Vcnt) label: classifier.class
  74. 74. Organicer
  75. 75. Organicer 32
  76. 76. Organicer 32
  77. 77. Organicer 32
  78. 78. Organicer 32
  79. 79. Organicer 32
  80. 80. Conclusão
  81. 81. Trabalhos Relacionados•Topic Modeling LSA, LDA, Hierarchical Bayesian Blei 201; Blei, Ng, & Jordan, 2003; Griffiths & Steyvers, 2002; 2003; 2004; Hofmann, 1999; 2001• Personal Information Management CALO, UMEA, X-COSIM, Haystack, UpLib, Iris Zimmermann 2005; Arndt 2007; Lansdale 1988; Kaptelinin 2003; Janssen & Popat 2003; Karger et al 2003• Semantic Desktop Nepomuk, SEMSOC Giannakidou et al 2008; Groza et al 2007• Fundamental Research Classification; Clusterization; NLP; Information Extraction
  82. 82. Resumo• Organografos: metodologia, arquitetura,utilização• Capturar a tarefa por trás de uma organização• Avaliar, reorganizar e compartilhar. 35
  83. 83. Agradecimentos• Laboratório de Sistemas de Informação (IC-Unicamp) http://www.lis.ic.unicamp.br• Brazilian Institute for Web Science Research http://webscience.org.br• Globo.com 36
  84. 84. http://2012.pythonbrasil.org.br
  85. 85. Obrigado a todos pela atenção. Rodrigo Dias Arruda Senra http://rodrigo.senra.nom.br rsenra@acm.orgAs opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde quenão sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no materialresultante. Em caso de alterações, favor consultar o autor.Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêmseus direitos de copyright.

×