• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Análise de Assunto
 

Análise de Assunto

on

  • 1,377 views

 

Statistics

Views

Total Views
1,377
Views on SlideShare
1,377
Embed Views
0

Actions

Likes
0
Downloads
33
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Análise de Assunto Análise de Assunto Presentation Transcript

    • Universidade Federal de São Carlos (UFSCar) Departamento de Ciência da Informação (DCI)Biblioteconomia e Ciência da Informação (CBCI) Análise de Assunto • Ana Tereza de Pádua • Andréa Cristina Dornelles Italiano • Daniel André Rigo Guirra • Josimeire Moura da Silva • Rodrigo Rafael Mendonça dos Santos • Walison Aparecido de Oliveira Análise Documentária
    • Introdução 2Análise de assunto é a operação-base para todoprocedimento de recuperação de informações.É feita em dois momentos: • Quando recebem o documento; • Ao receberem um pedido de informação;Maior problema da indexação: Descrever oconteúdo dos documentos.
    • Recuperação da informação: Processo de entrada e saída 3 Análise Conceitual Vocabulário Documentos Análise de Controlado Assunto Documentos Tradução da Análise Perfil dos Documentos Documentos Conceitual em Termos (Termos de Indexação) de Indexação PEDIDOS DE DOCUMENTOS Arquivo de Armazenagem Busca Perfis DO ARQUIVO Doc. X Pedido Tradução da Análise Perfis dos Pedidos Vocabulário Conceitual em Termos (Estratégia de Controlado de Indexação Busca) Análise Análise de BUSCA Pedidos Conceitual ConteúdoFonte: LANCASTER, F.W. Vocabulary control for information retrieval. Washington, Information Resources Press, 1972. 233p. (ADAPTADO)
    • Estabelecendo um assunto 4 Primeira etapa – compreensão do texto como um topo • título • introdução e subtítulos dos capítulos e parágrafos • ilustrações, tabelas, diagramas • conclusões • palavras ou grupos de palavras graficamente diferenciadas Segunda etapa – identificação de conceitos • procedimento lógico • categorias fundamentais (objetos, materiais, processos, equipamentos) Terceira etapa - seleção de conceitos • objetivos do sistema • necessidades do usuário
    • 5Antony Charles Foskett (1973) – “Abordagem temática da informação” Especificidade “extensão em que o sistema nos permite ser precisos ao especificar um documento que estejamos processando” Exaustividade “resultado de uma decisão administrativa, sendo extensão com que analisamos um determinado documento, a fim de estabelecer exatamente qual o conteúdo temático que temos de especificar”
    • 6 No que isso interfere?!Sistema de Busca e Recuperação de Informação
    • Revocação e Precisão 7• Revocação • mede a proporção de documentos relevantes recuperados• Precisão • mede quantos documentos relevantes foram recuperados
    • 8Curva de Recall x Precision (CARDOSO, O.N.P. Recuperação de Informação.Universidade Federal de Lavras. Lavras-MG, 20-?)
    • Revocação e Precisão 9 Itens não Itens relevantes relevantes
    • Revocação e Precisão 10 Itens recuperados Itens nãorecuperados B C A D
    • Revocação e Precisão 11• Revocação • Relevantes Recuperados / Total de itens relevantes • A / (A+D)
    • Revocação e Precisão 12 Itens recuperados Itens não B recuperados C A D
    • Revocação e Precisão 13• Revocação • Relevantes Recuperados / Total de itens relevantes • A / (A+D)• Precisão • Relevantes Recuperados / Total Recuperados • A / (A+B)
    • Revocação e Precisão 14 Itens recuperados Itens não B recuperados C A D
    • 15Exaustividade
    • 16Especificidade
    • 17 Estabelecido o assuntoTransformar os conceitos selecionados em termos ou símbolos autorizados para a representação no sistema
    • 18Uso de instrumentos decontrole de linguagem ThesauriListas de cabeçalhos de assunto Sistemas de Classificação
    • 19Domínio da linguagem-padrão do sistema Composta pelo vocabulário e sintaxe
    • 20 O vocabulário compõe-se de unidades isoladas; A sintaxe estabelece o modo pelo qual essas unidades serão combinadaspara a efetiva comunicação do pensamento.
    • 21 Importante!!!Impõe limitações ao número de termosfixados para representar o conteúdoestabelecidos pelas relações entre ostermos.Sua existência não deve influenciar aanálise.
    • 22Conceitos não representados nalinguagem usada, o indexador deverá usar descritores mais genéricos ou dependendo do sistema a admissão de novos termos é aceito.
    • 23Controle de qualidade da indexação está ligadaa dois elementos básicos:Ao desempenho do indexador;À qualidade dos instrumentos de indexação.
    • 24A consistência da indexação!! Deve ser regular considerando: o fator tempo, um alto grau de imparcialidade, uma submissão às diretrizes da indexação adotadas pelo sistema.
    • 25 Suas dificuldades Grupo grande; Trabalho em diferentes locais;Elementos de subjetividade interfiram.
    • 26 Para Lancaster:•O vocabulário controlado é indispensável;•Operam de maneira eficiente pela experiência em sistemasautomatizados;•O elemento humano de alto nível é muito mais necessário naetapa de pesquisa do que no momento de indexação;•É indiscutível o controle de qualidade para lucrar muitoatravés do estabelecimento de contato mais efetivo entreindexador e o usuário, qualidade da linguagem adotada e umfator importante, qualidade de atualização dessas linguagensem resposta a novos desenvolvimentos na terminologia,necessidades dos usuários e do próprio sistema.
    • 27A linguagem controlada podeexercer duas funções:Prescritiva – estabelece limites rígidos para arepresentação dos conceitos, facilita a escolhados termos;Sugestiva – mais flexível, indica as melhoresformas de representação, sem impô-las aoindexador.
    • 28O sistema que permite a interação usuário indexador sistemastem demonstrado ser mais eficientedo que aqueles onde ela não existe.
    • 29Análise de coleções e documentos• Os primeiros estudos visando a classificação de documentos, dividiam-nas do geral para o específico. É o caso das tradicionais classificações bibliográficas, também chamadas de hierárquicas, que criavam cadeias de termos seguindo o princípio da hierarquia;• RANGANATHAN propôs a “Colon Classification” – uma classificação geral que divide o conhecimento humano com base nas categorias fundamentais (Personalidade, Matéria, Energia, Espaço, Tempo – PMEST);
    • 30 Lancaster, apresenta quatro abordagens para se gerar um vocabulário controlado:1. Gerar um vocabulário empiricamente com base na indexação de um conjunto representativo de documentos;2. Modificar um vocabulário já existente;3. Extrair o vocabulário de um outro já existente;4. Reunir termos de diferentes fontes: especialista na área, dicionários, glossários, índices, etc.
    • 31 A construção de Thesaurus of Engininnering and Scientific Terms (TEST) obedeceu a alguns critérios na seleção dos termos:• Aceitabilidade do termo em dicionários, enciclopédias, etc;• Utilidade do termo em comunicações, em índices e em sistemas de recuperação de informação;• O número de fontes que usam esse termo;• A pertinência desse termo com outros já selecionados.
    • 32Quando nos baseamos apenas nasopiniões de especialistas temos asdesvantagens abaixo:– Eles podem não estar familiarizados com a leitura, e mais importante, com as necessidades dos usuários potenciais do sistema;– Eles podem tomar decisões que não são úteis tendo em vista o objetivo de recuperar informações;– Podem dar mais importância a sua própria especialidade, causando desequilíbrio no sistema como um todo.
    • 33• Vocabulário controlado: Instrumento prático, devendo ser capaz de representar conceitos que realmente ocorrem na literatura do assunto;• Um vocabulário desenvolvido empiricamente a partir da indexação da literatura da área, tem grande garantia literária, enquanto que um vocabulário desenvolvido por especialistas pode não ter nenhuma.
    • 34 A análise de documentos é um processo que ajuda a:• Determinar as principais categorias de termos para uma área;• Optar pelo melhor termo para representar um conceito;• Estabelecer quais relações úteis entre os termos, tendo em vista a recuperação das informações;• Estabelecer hierarquias necessárias.
    • 35Para o indexador , o conhecimento dasrelações entre termos e categorias é deextrema importância para se estabelecerrepresentações adequadas para assuntoscompostos e complexos.
    • 36Normalmente existem três relações entre os termos:1- Relação de equivalência ou relaçõespreferenciais:Alguns conceitos podem ser representados por maisde um termo, que são semelhantes ou designificação quase idêntica. Nesse caso deve-seescolher o termo mais conhecido ou o menosambíguo. Ex: revista e periódico Genética e hereditariedade Curvatura ou flexão
    • 372-Relações hierárquicas: expressam ideias de subordinação entretermos.-relação gênero - espécie: ex: processamento técnico Registro Catalogação Classificação Indexação-relação parte/todo: nesse caso dá-se preferência aos assuntosmais específicos. EX: árvore Raiz Tronco Galhos Folhas
    • 383-Relações associativas ou de coordenação: conceitosligados, cuja ideia de um faz lembrar a ideia do outro.Elas só devem ser mantidas na indexação quandofacilitam realmente a recuperação da informação.Ex:Genética: pais e filhosCausa efeito: ensino e aprendizagemInstrumental: escrita e lápisMaterial: papel e livroSimilaridade de processo: catalogação e classificação
    • 39Ao criar uma linguagem de indexação, deve-seestabelecer uma ordem de prioridade entre osdiversos conceitos.Essa ordem é determinada a partir daimportância que esse conceitos têm para osusuários.
    • 40Vários autores criam regras básicas tentando estabelecer aordem de citação dos assuntos complexos.Ex: -assunto antes da forma bibliográfica: Física-dicionário.- assunto antes do lugar (com a preposição em): “A educação no Brasil”= Educação- Brasil- Assunto depois do lugar (com a preposição de): Rios do Brasil = Brasil-Rios- Concreto, depois o processo: Tratamento de metais = Metais-tratamento.- Todo-parte: índices de revista = Revistas - índices
    • 41 AUTOMAÇÃO EANÁLISE DE ASSUNTO
    • 42• A primeira idéia de usar computadores no processamento lógico da análise de assunto de documentos foi proposta por LUHN em 1957.• O sistema utilizado foi o KWIC (keyword and context), um sistema pré- coordenado, sua vantagem era a velocidade do processamento de entrada de documentos.• Indicava o uso de títulos dos documentos como “matéria prima” para a representação de assunto. (SISTEMA PRÉ-COORDENADO: Combinação feita na etapa de entrada, na indexação)
    • 43• Um grande número de serviços de informações publicaram bibliografias indexadas pelo sistema KWIC : Bioresearch Index, Biological Abstracts, Chemical Abstracts, etc.• Com o aperfeiçoamento e o aumento da capacidade dos equipamentos de processamentos de dados, o tipo de lógica empregado no sistema KWIC mostrou estar aquém da real capacidade dos computadores.
    • 44• Desenvolveram-se então sistemas usando um maior grau de lógica, baseando-se: – Na estatística das palavras do texto; – Na determinação de pesos para termos, de acordo com sua importância no assunto; – Na frequência com que determinadas palavras ocorrem juntas nas frases ou parágrafos.• Estas pesquisas foram desenvolvidas na década de 60, mas como alguns problemas não conseguiram ser superados, na década de 70 foram poucos os pesquisadores que se dedicaram ao assunto.
    • 45• Outra corrente que tem estudado a possibilidade de aplicação dos computadores à analise de texto é baseada na teoria da gramática transformacional de CHOMSKY e HARRIS.• O modelo transformacional acredita que existe um conjunto finito de sentenças-padrão (Kernel Sentences) para as quais todo conjunto infinito de sentenças em linguagem natural poderia ser transformado.
    • 46• Todas as línguas tem uma estrutura superficial e uma estrutura profunda. – Esta última é relativa ao modo como as idéias são formadas na mente humana e portanto seria universal, enquanto que a estrutura superficial pode variar de acordo com as línguas. – Ao colocarmos todo o texto nos termos de sua estrutura profunda estaremos realmente analisando este texto, chegando às sentenças-padrão.
    • 47• Experiências realizadas por Harris na Universidade de Pensilvânia chegaram a conjuntos de sentenças-padrão de documentos, que muito se assemelhavam aos resumos dos textos feitos com intenção de disseminação de informação.
    • 48• Alguns autores como Anderson & Perez-Carballo (2001) em seu trabalho sobre a natureza da indexação, colocam que para a busca de informações, textos ou documentos em um sistema de informação, é necessário que os termos estejam descritos e indexados. A descrição requer alguns tipos de análise,dos quais dois são destacados pelos autores: a análise humana e a análise algorítmica realizada pelos computadores.
    • 49• A análise humana examina o documento e textos para considerar o contexto que representam;• A análise automática identifica e compara os componentes do texto – os símbolos que formam o texto.
    • 50• O ideal é que um sistema de recuperação da informação ofereça as duas abordagens de análise/indexação da informação: tornando o processo de busca e recuperação da informação mais exaustivo e eficiente e, com resultados mais relevantes.
    • 51• Os autores argumentam ainda que , em se tratando de indexação de materiais especiais como imagem e som, por exemplo, a indexação automática apenas engatinha, uma vez que sua base é a linguagem contida nos textos. O Altavista é uma ferramenta de busca na Web que utiliza a indexação automática de imagens desde 1998, tentando encontrar imagens que sejam visualmente similares ao comando de busca determinado pelo usuário.Imagem “visualmente” similar não é a mesma que imagem “conceitualmente” similar . Assim sendo, os resultados quase sempre parecem estar baseados na cor e na estampa e não em um detalhe particular da imagem.
    • Referência e Bibliografia 52• ARAUJO, R.H.J., Precisão no processo de busca e recuperação da informação.Brasilia. Thesaurus, 2007.176p.• CARDOSO, O.N.P. Recuperação de Informação. Universidade Federal de Lavras. Lavras-MG, 20-?• CESARINO, M. A. da N.; PINTO, M. C. M. F. Análise de assunto. Revista de Biblioteconomia, Brasília, v. 8, n. 1, p. 32-43, jan.-jun. 1980. Disponível em:<http://www.tempusactas.unb.br/index.php/RBB/article/viewFile/244/224>.A cesso em: 29 jul. 2010.• FOSKETT, A.C. Abordagem temática da informação. São Paulo, Polígono, 1973, 347 p.