SlideShare a Scribd company logo
1 of 184
Download to read offline
UNIVERSIDADE FEDERAL DE GOIÁS 
INSTITUTO DE INFORMÁTICA 
JOSÉ MAURO DA SILVA 
SINAPSE 
Uma Metodologia para Extração de 
Conhecimentos em Objetos Textuais Baseada 
em Conceito para o Português do Brasil. 
Goiânia 
2007
JOSÉ MAURO DA SILVA 
SINAPSE 
Uma Metodologia para Extração de 
Conhecimentos em Objetos Textuais Baseada 
em Conceito para o Português do Brasil. 
Dissertação apresentada ao Programa de Pós– 
Graduação do Instituto de Informática da Universi-dade 
Federal de Goiás, como requisito parcial para 
obtenção do título de Mestre em Ciência da Compu-tação. 
Área de concentração: Ciência da Computação. 
Orientador: Prof. Dr. Cedric Luiz de Carvalho 
Co–Orientadora: Profa. Dra. Ana Paula Labois-sìere 
Ambrósio 
Goiânia 
2007
JOSÉ MAURO DA SILVA 
SINAPSE 
Uma Metodologia para Extração de 
Conhecimentos em Objetos Textuais Baseada 
em Conceito para o Português do Brasil. 
Dissertação defendida no Programa de Pós–Graduação do Ins-tituto 
de Informática da Universidade Federal de Goiás como 
requisito parcial para obtenção do título de Mestre em Ciên-cia 
da Computação, aprovada em 02 de Agosto de 2007, pela 
Banca Examinadora constituída pelos professores: 
Prof. Dr. Cedric Luiz de Carvalho 
Instituto de Informática – UFG 
Presidente da Banca 
Profa. Dra. Ana Paula Laboissìere Ambrósio 
Instituto de Informática – UFG 
Prof. Dr. Eduardo Simões de Albuquerque 
Instituto de Informática – UFG 
Prof. Dr. Ilmério Reis da Silva 
Universidade Federal de Uberlândia – UFU
Todos os direitos reservados. É proibida a reprodução total ou 
parcial do trabalho sem autorização da universidade, do autor e do 
orientador(a). 
José Mauro da Silva 
Graduou-se e especializou-se em Ciência da Computação pela UFG 
- Universidade Federal de Goiás. No período de sua graduação, foi 
monitor no Instituto de Informática da UFG. Durante o Mestrado, 
propôs uma arquitetura conceitual para o Projeto DWeb e publicou 
artigo científico no congresso CollECTOR (Collaborative Eletronic 
Commerce Technology and Research) - Chile. Atualmente desen-volve 
pesquisas em Descoberta de Conhecimento em Texto, Gestão 
do Conhecimento e Web Semântica.
Dedico este trabalho aos meus pais, José Clemente da Silva (in 
memoriam) e Orozita Batista da Silva, que apesar da origem humilde, 
souberam passar a todos os seus filhos os valores da sabedoria, honestidade, 
humildade e a fé em DEUS e Nossa Senhora Aparecida como proposta de luta 
pela vida.
Agradecimentos 
Ao Instituto de Informática da UFG, pela utilização de suas depen-dências, 
e a todo o seu pessoal, sejam professores ou funcionários, sempre 
dispostos a cooperar e cujo contato foi indispensável para a minha formação 
acadêmica e para a vida. 
A Dataprev - Empresa de Tecnologia e Informações da Previdência 
Social, pela liberação de horário para estudos. Aos meus colegas de trabalho, 
que entenderam a minha difícil caminhada, fico grato pelo apoio. 
Aos professores Dr. Leandro Krug Wives (UFRGS) e Dra. Viviane 
Moreira Orengo (UFRGS), pelas inestimáveis informações que sedimentaram 
a base deste trabalho, respectivamente, sobre mapeamento de características 
textuais por conceito e o algoritmo RSLP. 
Aos Profs. Dr. Cedric Luiz de Carvalho e Dra. Ana Paula Laboissière 
Ambrósio, respectivamente, orientador e co-orientadora, pelas orientações. 
Aos meus colegas e amigos do mestrado que, assim como eu, tiveram 
um grande esforço em conseguir conciliar trabalho, estudo e família. Fico 
grato pela amizade, companheirismo e solidariedade nos momentos difíceis 
e nos momentos de alegria e descontração. 
Aos colegas e professores Ms. Edison A. M. Morais, Ms. Júnio César 
de Lima, Prof. Dr. Fábio Nogueira de Lucena (UFG) e Prof. D.Sc. Ricardo de 
Almeida Falbo (UFES), pelas ontologias e textos para realização de testes. 
Aos Profs. Dr. Eduardo Simões de Albuquerque e Ms. Marcio Greyck 
Batista Dias, pelas cartas de apresentação ao mestrado. 
Ao meu grande amigo Eng. de Computação Fernando Lemes Povoa, 
pelo apoio na materialização e enriquecimento de minhas idéias, ao qual, 
tenho especial estima e gratidão. 
A meus irmãos Helena Eloísa da Silva, Paulo Edison da Silva, Luís 
Carlos da Silva e demais parentes e amigos, pelos incentivos e paciência nas 
diversas ausências. 
A DEUS, por tudo.
“A textura semântica da linguagem é hologramática à sua ma-neira: 
quando nos referimos ao dicionário de uma língua, vemos 
que uma palavra se define por outras palavras, que por sua vez se 
define por outras palavras, e, pouco a pouco, a definição de cada 
palavra implica em si a maior parte das palavras dessa língua. 
Se lermos um texto, a formação do sentido é um processo dialó-gico/ 
recorrente: as palavras mais usuais têm vários sentidos virtu-ais, 
e a precisão do sentido de uma palavra numa frase depende do 
sentido das palavras que fazem parte da mesma frase ou do mesmo 
discurso; o sentido destas diferentes palavras toma forma em fun-ção 
do sentido global da frase ou discurso, o qual toma forma em 
função do sentido particular das diferentes palavras. Assim, com-preendemos 
a frase a partir do sentido das palavras ao mesmo 
tempo que o sentido das palavras se cristaliza a partir do que 
emerge da frase [80].” 
Edgar Morin, 
La Mèthode 3. La Connaissance de la Connaissance/1.
Resumo 
da Silva, José Mauro. SINAPSE. Goiânia, 2007. 182p. Dissertação de 
Mestrado. Instituto de Informática, Universidade Federal de Goiás. 
Nas últimas décadas, o grande avanço da ciência e tecnologia com suas in-venções, 
novos materiais, equipamentos e métodos gerou a necessidade de 
criação de novos termos ligados a diversas especialidades. Associado ao di-namismo 
científico-tecnológico e à dinâmica natural das línguas, tais termos 
sofrem constantes alterações nos seus significados, o que leva a dificuldades 
para nomear adequadamente esses avanços, bem como ao agravamento do 
problema da Gestão do Conhecimento. A disponibilização de objetos tex-tuais 
em organizações, através de instrumentos de comunicação escrita e, em 
especial, disponíveis na Web, possibilitou a construção de corpus eletrônicos 
de textos técnicos e científicos, propiciando assim a implementação de méto-dos 
de Extração Automática de Terminologias, os quais, têm sido de grande 
interesse dos pesquisadores de Processamento de Línguas Naturais. O obje-tivo 
desse projeto de mestrado foi propor: a) uma metodologia, através de um 
arcabouço computacional, direcionada para extração de unidades terminoló-gicas 
complexas presentes em corpora de domínio de conhecimento específico; 
b) baseado em conhecimentos estatísticos e lingüísticos, analisar estruturas 
textuais e a descobrir conhecimentos (conceitos) relevantes implícito nos mes-mos; 
c) organizar este dados em uma estrutura de Matriz Atributo x Valor, 
possibilitando seu pós-processamento, como por exemplo: agrupamento, inde-xação, 
visualização etc. Especificamente, foram analisados corpus de textos 
dos domínios: Jurídico, Computação, Agropecuário, Astronomia e Climatolo-gia. 
O método proposto emprega técnicas tradicionais, porém, com enfoque 
diferenciado e propõe dois métodos de determinação de importância baseado 
no grau de substantivação (absoluto e relativo) de conceitos. 
Palavras–chave 
Gestão do Conhecimento, Extração Automática de Terminologia, Des-coberta 
de Conhecimento em Texto.
Abstract 
da Silva, José Mauro. SINAPSE. Goiânia, 2007. 182p. MSc. Disserta-tion. 
Instituto de Informática, Universidade Federal de Goiás. 
In the last decades, the great advance of science and technology brought 
into being countless inventions, as well as new materials, new equipments 
and methods, and consequently required (or demanded) the continuous cre-ation 
of new terms (neologisms) related to various specialities. According to 
the scientific-technological evolution of the languages, the meanings of those 
terms change continually making it difficult to name suitably the advances 
and hindering the Knowledge Management. The available textual objects 
in organizations through writing communication instruments, specially in the 
Web, have made it possible to work out electronic corpus of technical and sci-entific 
texts, and so introduced the possibility of elaborating Terminologies 
Automatic Extraction methods, of great interest for the Natural Language 
Processing researchers. The aim of this master degree projects is to propose: 
a) a methodology through a computational framework, turned to the complex 
terminological units extractions, from corpora of specific knowledge domain 
(or field); b) based on linguistic and statistic knowledge, to analyze textual 
structure and discovery significant concepts implicit in them; c) to organiza-tion 
them in an Attribute x Value Array form, so that they can be post-processed, 
as for example: clustering, indexing, visualization etc. Specifically 
was analyzed text corpus of the domain: Juridical, Computer Science, Tech-nical 
of Agriculture and Cattle Raising, Astronomy and Climatology. The pro-pose 
method uses traditional techniques but seen from a different point of 
view two methods of importance determination, based on concept level subs-tantivation 
(absolute and relative) are also proposal. 
Keywords 
Knowledge Management, Terminologies Automatic Extraction, Kno-wledge 
Discovery from Text
Sumário 
Lista de Figuras 13 
Lista de Tabelas 14 
1 Introdução 15 
1.1 Problemas 15 
1.1.1 Problemas Específicos 19 
1.1.2 Problema Pesquisado 20 
1.2 Motivação 20 
1.3 Hipótese 22 
1.4 Objetivo 22 
1.4.1 Objetivos Específicos 22 
1.4.2 Restrições Relacionadas aos Objetivos 23 
1.5 Metodologia de Estudo e Pesquisa 24 
1.6 Organização da Dissertação 26 
I Fundamentação Teórica 27 
2 Gestão do Conhecimento 28 
2.1 Visão Geral da Gestão do Conhecimento 28 
2.2 Dado 30 
2.3 Informação 31 
2.3.1 Formalização do Processo de Comunicação 32 
2.3.2 Comunicação Efetiva 33 
2.3.3 Interferências no Processo de Comunicação 33 
2.3.4 Informação Relevante 34 
2.4 Uma Abordagem Epistemológica 35 
2.5 Conhecimento 36 
2.6 Teoria da Criação do Conhecimento Organizacional 37 
2.7 Comunidades Virtuais de Prática - CoPs 39 
3 Processo de Descoberta de Conhecimento 42 
3.1 Descoberta de Conhecimento em Banco de Dados 42 
3.1.1 Reconhecimento de Padrões 43 
3.1.2 Tipos de Padrões Descobertos 44 
3.1.3 Tipos de Fontes de Dados 45 
3.2 Descoberta de Conhecimento em Texto 46
4 Pesquisas em Área Relacionadas 50 
4.1 Recuperação de Informações 50 
4.1.1 Modelos de IR 51 
4.1.2 Avaliação de Sistema IR 52 
4.2 Lingüística Computacional 53 
4.2.1 Processamento de Linguagem Natural 54 
4.2.2 Lingüística de Corpus 55 
Etiquetagem 55 
4.3 Web Semântica 57 
4.3.1 A Inteligência 59 
4.3.2 A Interoperabilidade 63 
4.3.3 A Integração 63 
5 Preparação de Corpus Textuais 65 
5.1 Visão Geral da Preparação de Corpus Textuais 65 
5.2 Pré-processamento do Texto 66 
5.2.1 Itemização 67 
5.2.2 Filtragem 69 
5.2.3 Conflação 69 
Lematização 70 
Stemming 71 
5.2.4 Seleção de Termos Índices 73 
5.2.5 O Modelo de Espaço Vetorial 74 
5.2.6 O Processamento Lingüístico 77 
6 Métodos de Mineração de Texto 79 
6.1 Classificação de Texto 79 
6.1.1 Seleção de Termos Índices 81 
6.1.2 Classificação Naive Bayes 81 
6.1.3 Classificação Nearest Neighbor 82 
6.1.4 Árvore de Decisão 83 
6.1.5 Suport Vector Machines 83 
6.2 Agrupamentos 84 
6.3 Extração de Informações 85 
6.3.1 Classificação Através de Extração de Informações 86 
6.3.2 IE Através de Modelos Ocultos de Markov 86 
6.3.3 IE Através de CRF 86 
7 Pós-processamento do Texto 88 
7.1 Pós-processamento do Texto 88 
8 Extração de Características 91 
8.1 Analisando “Conceitos” 91 
8.2 Uma Visão Terminológica 94 
8.3 Os Percursos Onomasiológico e Semasiológico 94
9 Pesquisas Relacionadas à Extração de Características 96 
9.1 Análise das Pesquisas Relacionadas 96 
9.2 Trabalhos Relacionados 97 
9.3 Os Desafios Implícitos 108 
II Desenvolvimento e Resultados 112 
10 Projeto DWeb 113 
10.1 O Projeto DWeb e a Web Semântica 113 
10.1.1 Requisitos Para o Projeto DWeb 114 
10.1.2 Princípios Básicos do Projeto DWeb 115 
10.2 Serviços Básicos e Módulos DWeb 116 
11 Protótipo Proposto 117 
11.1 Uma Visão Gráfica do SINAPSE 118 
11.2 Uma Visão Conceitual do SINAPSE 122 
11.2.1 Classes Gramaticais Restritas 122 
11.2.2 Estratégia de Solução 124 
Identificação de Itens Lexicais 124 
Identificação de Itens Terminológicos 125 
Domínio de Conhecimento 128 
Língua Portuguesa 129 
Caráter Esquivo das Línguas 129 
Seleção de Termos mais Importantes 130 
Análise de Importância de Conceitos 131 
Mecanismo de Cálculo do Índice de Importância de Conceito133 
11.2.3 Processo de Descoberta de Conhecimento 136 
11.2.4 Textos de Qualquer Tamanho 136 
11.2.5 Mapeamento por Conceito 136 
11.3 Metodologia SINAPSE 138 
12 Resultados 145 
12.1 Estratégias de Testes 145 
12.2 Ferramentas de Testes 147 
12.3 Estatísticas de Descoberta de Conhecimento 148 
12.4 Estatísticas de Determinação da Importância do Conceitos 153 
13 Conclusões 156 
13.1 Possíveis Aplicações 157 
13.2 Contribuições Específicas 159 
13.2.1 Artigos Publicados como Autor ou Co-autor 160 
13.3 Limitações deste Trabalho 161 
13.4 Trabalhos Futuros 161 
Referências Bibliográficas 163
A Tabelas Stemming RSLP 173 
A.1 Tabelas de Regras para Stemming: RSLP 173 
B Memória de Cálculo 179 
C Matriz Atributo x Valor 182
Lista de Figuras 
4.1 Arquitetura Padrão do W3C para a Web Semântica. [14] 58 
4.2 Componentes da Inteligência, segundo Sternberg [92]. 60 
4.3 Componentes de Agentes Racionais, segundo Russell e Nor-vig 
[91]. 61 
11.1 Visão Gráfica de Alto Nível do SINAPSE. 119 
11.2 Visão Gráfica da Metodologia SINAPSE. 120 
11.3 Diagrama de classes do SINAPSE. 122 
11.4 Estrutura dos Conceitos. 137 
12.1 Comparativo Entre Stemming SINAPSE x RSLP. 148 
12.2 Representação do Numérica do Texto Analisado. 149 
12.3 Comparativo Conceitos Por Domínio. 150 
12.4 Taxa de pertinência entre domínios cruzados. 151 
12.5 Nível Geral de Indeterminação de Classes Gramaticais. 152 
12.6 Grau de substantivação absoluta do conceito - ISA 154 
12.7 Comparativo dos Índices ISA x ISR. 155
Lista de Tabelas 
4.1 Conjunto Mínimo de Etiquetas - Eagles 56 
9.1 Ferramentas EAT por linha de pesquisa 109 
9.2 Ferramentas EAT por Idioma de atuação 110 
9.3 Ferramentas EAT e seus Níveis de Análise Lingüística. 110 
9.4 Ferramentas EAT de Fundamentação Estatística 111 
11.1 Matriz de Candidatos a Conceitos do SINAPSE 127 
11.2 Ontologias Usadas no Teste do SINAPSE 128 
11.3 Tabela de Exemplo de Índice ISA 144 
A.1 Regras para a Redução do Plural 173 
A.2 Regras para Redução do Feminino 174 
A.3 Regras para a Redução do Advérbio 174 
A.4 Regras para Redução Aumentativo-Diminutivo 174 
A.5 Regras para Redução de Vogais 175 
A.6 Regras para Redução de Substantivo 175 
A.7 Regras para Redução de Substantivo (continuação) 176 
A.8 Regras para Redução de Verbos 177 
A.9 Regras para Redução de Verbos (Continuação) 178 
B.1 Textos em Domínios Adequados 179 
B.2 Textos em Domínios Cruzados 179 
B.3 Somatório do Grau de Indeterminação 180 
B.4 Índices de Substantivação ISA e ISR 180 
B.5 Experimento Geral SINAPSE 181 
C.1 Matriz Atributo x Valor : Segurança Computacional 182 
C.2 Matriz Atributo x Valor : Aquecimento Global 182 
C.3 Matriz Atributo x Valor : Corpos Celestes 183 
C.4 Matriz Atributo x Valor : Aquecimento Global 183 
C.5 Matriz Atributo x Valor : Doenças do Gado 183
CAPÍTULO 1 
Introdução 
Os ambientes atuais das organizações são caracterizados pelas incer-tezas, 
mudanças contínuas e necessidades de inovações. Além disso, os pro-blemas 
relacionados ao processo de globalização agrava ainda mais o cenário 
organizacional atual. Este aspecto dinâmico, força as organizações a se ade-quarem, 
em termos de estrutura e rotinas de trabalho, na busca por melhores 
práticas, idéias inovadoras, sinergias criativas e processos de descoberta; algo 
que, segundo alguns autores, não pode ser obtido da informação, por melhor 
que seja a sua gestão, e sim, pelo uso efetivo de conhecimento oriundo de di-versas 
fontes, sendo o mesmo considerado como uma vantagem competitiva e 
sustentável [38], [65]. 
Em meados dos anos 90 surgiu um novo melhoramento organizacional 
baseado no KM (Knowledge Management ou Gestão do Conhecimento), que é 
a confluência entre a área de Tecnologia da Informação e Administração. Ini-cialmente, 
KM foi visto como uma forma inovadora para a solucionar diversos 
problemas organizacionais, criando o que foi referenciada por Peter Drucker 
como “sociedade do conhecimento” [49], [81]. Entretanto, na prática, muito do 
que foi chamado de Knowledge Management não passou de IM (Information 
Management ou Gestão de Informações) [38], onde, os melhoramentos ficaram 
restritos à captura, codificação e armazenamento de informações [65], e, nes-tas 
iniciativas pode-se destacar a ocorrência de problemas, alguns dos quais 
são discutidos a seguir. 
1.1 Problemas 
Nesta Seção, apresenta-se um conjunto de problemas relacionados a 
KM e observados nas áreas da Ciência da Computação, Comunicação e Gestão 
de Pessoas. 
• Na área de Ciência da Computação:
1.1 Problemas 16 
– Problema da confusão entre dado, informação e conhecimento - 
no que diferem e o que significam - gerou iniciativas tecnológicas 
com resultados insatisfatórios. O sucesso ou fracasso organizacional 
muitas vezes pode depender de se saber de qual deles - dado, 
informação e conhecimento - se precisa, com qual se pode contar e o 
que se pode fazer com cada um deles, bem como entender o que são e 
o processo de transição entre cada um deles é essencial à realização 
bem sucedida do trabalho ligado ao conhecimento [38]; 
– Problema da diversidade de aplicações computacionais que execu-tam 
as mais diversas funções de negócio, sem considerar os aspec-tos 
interdisciplinares em alguns escopos de atuação. Pode-se citar 
o tratamento léxico, sintático, semântico e pragmático sobre os con-teúdos 
das informações que trafegam pelas mesmas, estudado em: 
lingüística computacional, processamento de linguagem natural e 
descoberta de conhecimento em texto, que visam, minimizar os pro-blemas 
do vocabulário [20]. Entre os quais, as ambigüidades que 
podem acontecer mediante a ocorrência de sinonímia1, homonímia2 
etc. Tais problemas são bastante evidentes emsistemas CSCW3 [62] 
(Computer-Supported Cooperative Work ou Trabalho Cooperativo 
Suportado por Computador) [20]. 
– Problema da perda de conhecimento tácito utilizado nos diver-sos 
processos, atividades, procedimentos e tarefas organizacionais, 
quando da evasão de recursos de conhecimento, específicos de uma 
pessoa, sem o devido registro e controle [38], [81]; 
– Problema da arquitetura de algumas aplicações para KM, existen-tes 
no mercado, que focam os aspectos estáticos do conhecimento, 
ignorando os seus principais aspectos (dinâmicos), quais sejam: ex-periência, 
verdade fundamental, complexidade, normas práticas e 
intuição, discernimento, valores e crenças [38]; 
1Problema relacionado ao fato de existirem diferentes palavras capazes de expressar a 
mesma idéia. 
2Problemas relacionado ao fato de existirem palavras similares que expressam idéias ou 
objetos diferentes. 
3De uma forma genérica, o CSCW é uma área científica interdisciplinar que estuda a forma 
como o trabalho em grupo pode ser suportado por tecnologias de informação e comunicação, de 
forma a melhorar o desempenho do grupo na execução das suas tarefas. O CSCW enquadra-se 
num domínio científico interdisciplinar, envolvendo diversas áreas científicas: Sistemas 
Distribuídos, Comunicação Multimídia, Telecomunicações, Ciência da Computação, Ciência 
da Informação, Psicologia, Percepção e Teoria Sócio-Organizacional.
1.1 Problemas 17 
– Problema da ambigüidade terminológica, ocasionada pela falta de 
definição explícita de contexto nas aplicações computacionais [18]. 
O contexto ou domínio de conhecimento deve ser delimitado e es-pecificado 
de forma explícita, através de algum tipo de estrutura 
formal, de maneira a minimizar os problemas relacionados às am-bigüidades 
terminológicas [20]; 
– O problema da identificação e exploração de conhecimento tácito 
que pode comprometer o uso efetivo do conhecimento de forma 
completa (tácito e explícito) dentro da organização [81]; 
– O problema da não integração das aplicações em nível corporativo, 
crucial para ambientes organizacionais distribuídos, pois, podem 
acarretar diversas dificuldades no que tange aos aspectos gerenci-ais, 
em especial, os relacionados a KM; 
– O problema da manipulação semântica das informações transaci-onadas 
entre e através de aplicações computacionais que, na sua 
maioria, atinge, no máximo, o nível de tratamento léxico, ignorando 
os demais níveis de entendimento em atos comunicativos, quais se-jam, 
sintático, semântico e pragmático; 
– O problema da sobrecarga de informação4 [111] ocorrida durante 
a recuperação de informações armazenadas por falta de estrutura, 
organização e acesso aos conhecimentos, através de mecanismos 
que contemplem os aspectos semânticos que tal instrumento exige; 
• Na área de Comunicação: 
– Problema da captura e organização de conhecimento (tácito) [81], 
através de diversos instrumentos de comunicação escrita, quais se-jam: 
memorandos, ofícios, políticas empresariais, normas, instru-ções 
de procedimentos, pareceres, resoluções, bem como, ferramen-tas 
de comunicação eletrônicas tradicionais, quais sejam: e-mail5, 
4A sobrecarga de informação se refere à dificuldade de selecionar informações relevantes 
em processos de busca em sistema IR [57]. 
5Ferramenta de comunicação onde a informação é enviada imediatamente a uma ou mais 
pessoas, realizando a comunicação de acordo com a conveniência do remetente, permitindo 
ao receptor ler a mensagem quando e como achar mais conveniente, ou seja, trata-se de uma 
ferramenta de comunicação assíncrona.
1.1 Problemas 18 
chat6, fórum7, brainstorming eletrônico8, etc. 
– Problema da diversidade de vocabulário organizacional, segundo 
alguns autores, no processo de interação9 homem e computador as 
pessoas tendem a usar termos diferentes para descrever conceitos 
similares o que pode acarretar entendimentos dúbios de certas 
situações; 
– Problema da retenção dos conhecimentos de pessoas em fase de 
aposentadoria e aposentáveis10 ou em processo de desligamento das 
organizações; 
– Problema do uso excessivo de papel e a dificuldade de manipulá-los 
em atos comunicativos; 
• Na área de Gestão de Pessoas: 
– Problema da dificuldade de acesso ao conhecimento de mais alta 
qualidade na organização; 
– Problema cultural e de poder em relação ao conhecimento organiza-cional; 
– Problema da captura dos fatores intangíveis do conhecimento, ou 
seja o know-how; 
– Problema do aprendizado organizacional; 
– Problema do preparo psicopedagógico para a transferência de co-nhecimentos 
organizacionais; 
– Problemas relacionados à escolha de ferramenta usuais de trans-ferência 
e registro do conhecimento (narrativas, mestre-aprendiz, 
CoP e mentoring11); 
6Ferramenta de comunicação que vai desde um simples bate-papo, entrevista online até a 
transmissão de eventos e suporte ao cliente e se caracteriza por ser síncrona. 
7Ferramenta de comunicação onde qualquer pessoa pode enviar sua contribuição e se 
comunicar com um grupo. Para a criação e envio de mensagens pode-se utilizar o correio 
eletrônico ou outras ferramentas para esse fim. Atualmente é uma das ferramentas de 
intranet mais usadas para colaboração e compartilhamento. 
8O Brainstorming foi desenvolvido pelo publicitário Alex Osborn nos anos 40, foi rapida-mente 
incorporado na linguagem das empresas. Trata-se da mais conhecida técnica de gera-ção 
de idéias, notadamente eficaz, quando usada adequadamente, existindo na modalidade 
presencial ou eletrônica [68] 
9refere-se as modalidades de comunicação síncrona e assíncrona. 
10Refere-se as pessoas que estão aptas a requerer suas aponsentadorias. 
11Refere-se a uma técnica utilizada em gestão do conhecimento para auxiliar na captura de 
conhencimento.
1.1 Problemas 19 
– Problema da falta de conhecimento, bem como a redundância de 
esforços devido à esta falta de conhecimento; 
Este conjunto de problemas, que estão relacionados à Gestão do Co-nhecimento 
em ambientes organizacionais, em uma análise mais aprofun-dada, 
remete-se a um conjunto menor de problemas, porém, de abragência 
mais geral. Estes problemas mais abrangentes aponta para a investigação de 
processos de descoberta de conhecimento em textos, especificamente para o 
Português do Brasil, baseado em método(s) e/ou técnica(s) que aprimore(m) 
os métodos e técnicas atuais. Tais problemas podem ser observados na Seção 
(1.1.1), a seguir. 
1.1.1 Problemas Específicos 
Castellví e outros [19], apresentam alguns problemas neste nível. 
Estes, observam que apesar dos estudos sobre automação de extração de 
terminologia, estes ainda apresentam os seguintes problemas: 
• Identificação de termos complexos, isto é, determinação de onde uma 
frase terminológica começa e onde termina; 
• Reconhecimento de termos complexos, isto é, decidir se os constituintes 
discursivos são uma frase terminológica ou uma unidade livre; 
• Identificação da natureza de uma unidade lexical, isto é, saber se uma 
unidade lexical em um texto especializado tem natureza terminológica 
ou é linguagem de uso geral; 
• Apropriar-se de uma unidade terminológica para obter o vocabulário 
(isto deve ser orientado para solução do ponto de vista de automação). 
Perini [87] aponta ainda, problemas relacionados à lingüística, afir-mando 
o seguinte: 
• Não existe critério seguro que permita saber, em certos casos, onde ter-mina 
umitemléxico e onde começa outro. Tal afirmação entra emconcor-dância 
com o primeiro item dos problemas relacionados anteriormente 
por Castellví [19]. Ainda segundo Perini, esse problema surge quando se 
tem casos de homonímia ou polissemia, observando que não se sabe 
como distingüir casos de polissemia de casos de homonímia. Por exem-plo: 
frente a uma forma como folha, como decidir se se trata de um item 
léxico com dois significados (polissemia) ou de dois itens léxicos que
1.2 Motivação 20 
se pronunciam e escrevem da mesma maneira (homonímia). Ainda se-gundo 
ele, o léxico fica indefinido, implicando dessa forma, em dificulda-des 
de determinação de traços lingüísticos (algo que é necessário fazer 
para estabelecer a importância relativa das classes gramaticais das pa-lavras). 
Assim, pode-se resumir os problemas a serem tratados no âmbito 
desta dissertação conforme explanado na Seção (1.1.2), a seguir. 
1.1.2 Problema Pesquisado 
Esta dissertação pretende tratar dos problemas relacionados à identi-ficação 
de itens lexicais que, por natureza, devem ser itens terminológicos 
de um domínio de conhecimento específico da língua portuguesa e, ao 
mesmo tempo, minimizar ou solucionar o caráter esquivo das línguas na 
seleção de termos mais importantes a serem utilizados para o processo 
de descoberta de conhecimento em textos de qualquer tamanho. 
Os problemas expostos nesta Seção (1.1) motivaram o conteúdo deste 
trabalho. 
1.2 Motivação 
As organizações criam e manipulam grandes quantidades de infor-mações 
na forma de documentos, especificamente, informações codificadas na 
forma de textos. Segundo Tan [101], cerca de 80% das informações organi-zacionais, 
estão em formato textual. Estas informações são disponibilizadas 
(construídas) através de instrumentos de comunicação escrita, quais sejam: 
memorandos, ofícios, políticas empresariais, normas, instruções de procedi-mentos, 
pareceres jurídicos, resoluções, bem como, ferramentas de comuni-cação 
eletrônica tradicionais, também conhecidas como Sistemas de Mensa-gens12, 
quais sejam: e-mail, chat, fórum, brainstorming eletrônico, etc., tam-bém 
são constituídas por informações textuais. Assim, uma das motivações 
desta dissertação é a realização de tratamento computacional de informações 
neste formato (textual) cuja a fonte da informação seja os sistemas de mensa-gens 
organizacionais. 
12Os Sistemas de Mensagens são processos de comunicação onde duas ou mais pessoas 
transmitem e/ou recebem mensagens através de um sistema completo ou parcialmente 
compartilhado de sinais, símbolos e comportamentos. Os sistemas mais modernos manipulam 
além de mensagens, gráficos, imagens, sons e vídeos, podendo ser síncronas ou assícronas.
1.2 Motivação 21 
Outra motivação desta dissertação é contribuir para a construção do 
Projeto DWeb13 (detalhado na Seção 10.1). Neste caso, a motivação se dá 
na contribuição para materialização da arquitetura conceitual proposta em 
relatório técnico [98], a qual prevê a construção de um ambiente com suporte 
a KM baseado em CoPs, que tem como requisito fundamental o tratamento de 
mensagens textuais de forma a extrair conhecimento neles contido. 
Finalmente, a terceira motivação é contribuir através de desenvolvi-mento 
de técnicas de extração de características que gere uma Matriz Atri-buto 
x Valor (exemplos no Apêndice C). Esta matriz deve dar suporte a 
pós-processamento (como por exemplo: agrupamentos, indexação, visualiza-ção 
etc.) de documentos textuais para o Português do Brasil. 
A língua Portuguesa, originária do Latim, se origina da família das 
línguas Indo-européias14, e é falada atualmente em todos os continentes [33], 
[41]: 
• Europa: Portugal continental, arquipélago dos Açores e a ilha da Ma-deira; 
• África: arquipélago de Cabo Verde, ilha de São Tomé e Príncipe e, no 
continente, Angola, Guiné-Bissau e Moçambique; 
• Ásia: Goa, Damão, Dio, Ceilão e Macau; 
• Oceania: metade ocidental da ilha de Timor; 
• América: Brasil. 
Neste contexto, deve-se observar, que o Português é a quinta lingua-gem 
em número de falantes nativos no mundo, totalizando, conforme pesquisa 
recente, em torno de 210 milhões de falantes nativos e outros 15 milhões de 
pessoas que usa como segunda língua. Dessa forma, em relação à população 
mundial fica atrás apenas dos seguintes idiomas: Mandarim, Hindu, Inglês e 
Espanhol [104], [85]. 
Tais fatos justificam e motivam a orientação deste trabalho para 
este idioma. Além disso, conforme observado durante a pesquisa em relação 
ao tema proposto, existe uma carência substancial de tais técnicas para o 
Português. A grande maioria dos trabalhos são orientados para o Inglês e 
Francês (melhores detalhes na Seção 9) [35]. 
13Refere-se a um projeto de pesquisa em andamento no INF/UFG. 
14Como exemplo pode-se citar: Sânscrito, Armênio, Teutônico, Baltoeslávico, Celta, Grego e 
Latim.
1.3 Hipótese 22 
Baseado nestas motivações, pode-se propor uma hipótese de pesquisa 
científica como se pode obervar a seguir. 
1.3 Hipótese 
Esta dissertação pretende provar a seguinte hipótese no contexto, da 
língua portuguesa: 
É possível obter classes gramaticais restritas15 de palavras sem o uso 
de analizadores morfossintáticos16. 
Esta hipótese deve se orientar pelos objetivos desta dissertação, como 
se pode ver a seguir. 
1.4 Objetivo 
O objetivo geral desta dissertação é: 
Desenvolver uma metodologia, baseada em conceitos, que aprimore 
qualitativamente e quantitativamente as técnicas atuais de obtenção de ve-tores 
característicos, para formação de uma Matriz Atributo x Valor dos 
conhecimentos descobertos em textos na língua portuguesa para domínios de 
conhecimento específicos. 
Observação: pode-se visualizar exemplos deMatriz Atributo x Valor 
no Apêndice C. 
1.4.1 Objetivos Específicos 
Os objetivos específicos deste trabalho são: 
• Verificar a exeqüibilidade de algoritmos de Stemming como ferramenta 
de obtenção de classes gramaticais pela operação reversa de formação de 
palavras da língua portuguesa do Brasil; 
• Construir um framework17 direcionado para tratamento semântico de 
mensagens textuais visando a aquisição de conhecimentos tácitos em 
15Refere-se as classes gramaticais: advérbio, substantivo e verbo. 
16Também referênciados como analizadores gramaticais, POS (Part-of-speech ou Parte do 
Discurso) tagging. Refere-se à marcação da classe gramatical (substantivo, verbo, adjetivo 
etc) de cada palavra. 
17“No desenvolvimento do software, um framework ou arcabouço é uma estrutura de 
suporte definida em que um outro projeto de software pode ser organizado e desenvolvido. 
Um framework pode incluir programas de suporte, bibliotecas de código, linguagens de 
script e outros softwares para ajudar a desenvolver e juntar diferentes componentes de um
1.4 Objetivo 23 
ambientes organizacionais estruturados em CoPs (Comunidades Virtu-ais 
de Prática) e orientados para a Gestão do Conhecimento para a lín-gua 
portuguesa; 
• Organizar os conhecimentos descobertos em fontes textuais de informa-ções 
não estruturadas através de KR (Knowledge Representation ou Re-presentação 
do Conhecimento) [39] utilizando-se de técnicas ligadas à 
lingüística e à estatística, de forma a possibilitar posterior processamen-tos, 
quais sejam: agrupamento, indexação, visualização possibilitando 
acesso facilitado a tais conhecimentos, objetivando a sua estruturação 
para KM. 
Estes objetivos, possivelmente, implicarão em algumas restrições 
quanto ao framework em relação ao tipo de aplicação proposto como se pode 
ver a seguir. 
1.4.2 Restrições Relacionadas aos Objetivos 
Os objetivos geral e específicos sofrerão algumas restrições devido 
aos tipos de aplicações computacionais que se beneficiarão dos serviços de 
descoberta de conhecimento emtexto providos pelo framework proposto. Entre 
os tipos de aplicação, propostos inicialmente, pode-se citar: chat, forum e e-mail. 
As restrições são as seguintes: 
• Tempo: todas as aplicações são de funcionamento em linha, onde, o 
tempo de resposta ao usuário é muito importante. Desta forma, as 
operações de pré-processamento deverão ser suficientemente rápidas 
para não comprometer a qualidade dos serviços prestados. Da mesma 
forma, as interações com os usuários devem ser bastante trabalhadas 
para não prejudicar o resultado final. 
• Tamanho: o Corpus18, em geral, poderá ser de pequeno tamanho. As-sim, 
a análise estatística fica limitada ao cálculo da quantia de vezes 
projeto de software. Frameworks são projetados com a intenção de facilitar o desenvolvimento 
de software, habilitando designers e programadores a gastarem tempo determinando as 
exigências do software do que com detalhes tediosos de baixo nível do sistema [102].” 
18Segundo Sardinha [93], corpus é “um conjunto de dados lingüísticos (pertencentes ao uso 
oral ou escrito da língua ou a ambos), sistematizados segundo determinados critérios, sufici-entemente 
extensos em amplitude e profundidade, de maneira que sejam representativos da 
totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal maneira que pos-sam 
ser processados por computador, com a finalidade de propiciar resultados vários e úteis 
para a descrição e análise.”
1.5 Metodologia de Estudo e Pesquisa 24 
que os termos relevantes aparecem. Sendo este quantitativo um valor 
muito pequeno de palavras de um Corpus, que poderá gerar dificuldades 
quando da ocorrência de termos denominados Hapax Legomena19 [93]. 
• Lingüística: as operações relacionadas à análise lingüística devem ser 
limitadas em relação ao custo computacinal. Por exemplo: os níveis de 
análise morfológica, sintática, semântica e pragmático discursivo podem 
ser computacionalmente muito caros para este tipo de processamento. 
A busca pelos objetivos definidos (datalhados anteriormente na Seção 
1.4) iniciou-se através de uma metodologia de estudo aprentada na Seção 1.5, 
a seguir. 
1.5 Metodologia de Estudo e Pesquisa 
A metodologia de estudo foi realizada em duas partes. Inicialmente, 
realizou-se uma pesquisa na área de Web Semântica (foco inicial pretendido), 
que culminou na proposição de uma arquitetura conceitual para o Projeto 
DWeb [98] (detalhado na Seção 10.1). Nesta etapa, observou-se o carater inter-disciplinar 
da Web Semântica, ligando a esta conceitos como inteligência, 
interoperação e integração. Neste ponto, foi realizada uma extensa pes-quisa 
e leitura de bibliografia e documentos complementares, principalmente, 
nas sub-áreas: 
• Inteligência Artificial: 
– Agentes Racionais, Ontologias, Thesauros, Processamento de Lin-guagem 
Natural, Palavra, Significado, Contexto, Mineração de 
Texto, Mineração de Texto na Web, Extração de Conhecimento, Re-cuperação 
de Informações e Mecanismos de Busca de Informações. 
• Lingüística Computacional: 
– Corpus Lingüísticos, Tratamento de Ambigüidades e Atos de Fala. 
• Engenharia de Software: 
– Engenharia de Software Orientada a Agentes. 
• Banco de Dados: 
19Hapax Legomena refere-se a termos pouco freqüêntes [93].
1.5 Metodologia de Estudo e Pesquisa 25 
– Integração de Fontes Heterogêneas de Informações, Biblioteca Di-gital 
e Indexação Semântica de Informações. 
• Ciência da Informação: 
– Documento; 
• Comunidades Virtuais de Prática e Automação de Processos de Negócio. 
A segunda parte da pesquisa relaciona-se, especificamente, com os ob-jetivos 
desta dissertação, o qual, se buscou delinear o escopo através de pes-quisas 
adicionais, especificamente: KDD (Knowledge Discovery in Database 
ou Descoberta de Conhecimento em Banco de Dados), KDT (Knowledge 
Discovery from Text ou Descoberta de Conhecimento em Textos) (ambos de-talhados 
na Seção 3), Lingüística Computacional (detalhada na Seção 4.2) e 
Terminologia (detalhada na Seção 8). 
Após extensa pesquisa e leitura dessa bibliografia, obteve-se uma 
noção do estado da arte relativo ao tema proposto. Dessa forma, foram 
identificados os métodos, ferramentas e problemas ainda não solucionados. 
Assim, pressupõe-se que um dos problemas encontrados está relacionado à 
identificação e seleção de termos para representar documentos. Pode-se 
citar os seguintes exemplos: composição de termos índice em sistemas IR, 
composição de descritores em processos de agrupamento, composição de 
nós em processos de visualização através de grafos etc. Desta forma, pode-se 
obter alguma forma de otimizar este processo, principalmente, na fase de 
pré-processamento, que é composta de diversos sub-processos, o que, pode 
comprometer substancialmente os custos cumputacionais. 
Visando a construção do Projeto DWeb (detalhado na Seção 10.1), 
buscou-se a implementação de tratamentos de mensagens textuais, de forma 
a lhes agregar o processo de descoberta de conhecimento em seus conteúdos, 
bem como possibilitar a sua organização através da técnica de CA (Clustering 
Analisys ou Análise de Agrupamento), indexação, visualização, etc. Dessa ma-neira, 
visando atender um dos requisitos do Projeto DWeb [98], que é, Propi-ciar 
a gestão de conhecimento orientada a comunidades virtuais de 
prática [55]; (melhor detalhado na Seção 10.1.1), projetou-se um Protótipo 
com vistas a implementar e testar tais sub-processos. 
Finalmente, foram analisados os resultados da metodologia proposta 
e o texto desta dissertação foi elaborado e organizado conforme a estrutura 
apresentada a seguir.
1.6 Organização da Dissertação 26 
1.6 Organização da Dissertação 
Este trabalho está estruturado em duas partes, onde: 
A Parte I trata da fundamentação teórica, onde se faz uma revisão 
bibliográfica sobre descoberta de conhecimento, a qual é a base para siste-mas 
de extração automática de terminologias. Dessa forma, esta Parte está 
estruturada nos seguintes Capítulos: 
Gestão do Conhecimento (2), Processo de Descoberta de Co-nhecimento 
(3), Pesquisas em Área Relacionadas (4), Preparação 
de Corpus Textuais (5), Métodos de Mineração de Texto (6), Pós-processamento 
do Texto (7), Extração de Características (8) e Pesqui-sas 
Relacionadas à Extração de Características (9). 
A Parte II é a partemais importante deste texto. Nela, são expostos os 
argumentos que irão sustentar e dar força à tese proposta e os resultados da 
pesquisa. Dessa forma, apresenta-se uma solução tecnológica adotada neste 
texto e está estruturada nos seguintes capítulos: 
Projeto DWeb (10), Protótipo Proposto (11), Resultados (12) e 
Conclusões (13).
Parte I 
Fundamentação Teórica
CAPÍTULO 2 
Gestão do Conhecimento 
Neste Capítulo, é apresentada uma abordagem introdutória sobre 
Gestão do Conhecimento, focando especialmente em um conjunto básico de 
conceitos sobre processos de descoberta de conhecimento em objetos textu-ais. 
O Capítulo divide a exposição em cinco Seções, quais sejam, Visão Geral 
da Gestão do Conhecimento (2.1) Dado, Informação e Conhecimento 
(2.2), Uma Abordagem Epistemológica (2.4), Teoria da Criação do Co-nhecimento 
Organizacional (2.6) e Comunidades Virtuais de Prática - 
CoPs (2.7). 
2.1 Visão Geral da Gestão do Conhecimento 
Nas últimas décadas do século XX, ocorreu uma profunda transfor-mação 
nos paradigmas econômicos mundiais. O velho preceito: terra, capital 
e trabalho cedeu lugar ao novo combustível da economia - o conhecimento 
[49], [81], [38]. Neste contexto, as organizações estão se conscientizando de 
que o potencial tecnológico não só pode incrementar o trabalho do conhe-cimento, 
como o fato de que esse potencial só poderá ser explorado se elas 
entenderem realmente como o conhecimento é desenvolvido e compartilhado 
[38]. 
O conhecimento começou a ser desenvolvido pelo homem desde a pré-história, 
o que é confirmado a partir de achados arqueológicos [44]. Porém, 
o seu compartilhamento só pôde ser melhor evidenciado a partir do advento 
da escrita, fenômeno revolucionário para as sociedades orais, em 3000 a.C. na 
Mesopotâmia, pelo povo babilônico [60]. 
Este compartilhamento foi potencializado, através de inovações tec-nológicas 
dos processos comunicativos, em especial, a partir da criação da 
imprensa por Gutenberg [49], que possibilitou a comunicação de “um para 
muitos” e que vigorou até o século XX [54].
2.1 Visão Geral da Gestão do Conhecimento 29 
Atualmente, uma nova revolução surge com a comunicação de “mui-tos 
para muitos” ou de “todos para todos”, viabilizada pelos avanços tecnoló-gicos 
das últimas décadas, em especial a Internet, em particular a Web1, pos-sibilitando 
uma nova dimensão de comunicação, bem como um novo método 
de compartilhamento de conhecimento, disponibilizado por diversas fontes do 
saber humano. Como aprimoramento da Web atual, surge a Web Semântica 
(melhor detalhado na Seção 4.3), cuja proposta é possibilitar o entendimento 
semântico do ponto de vista do software, que apresenta-se como uma das mais 
recentes contribuições para este processo [15]. 
Apesar das evoluções dos processos comunicativos, as organizações 
têm encontrado dificuldades na busca por processos que minimizem ou re-solvam 
os problemas relacionados a KM (melhor detalhado na Seção 1.1), de 
forma a se manterem competitivas frente às inúmeras necessidades de inova-ção 
[38]. 
Segundo a APQC (acrônimo do termo em inglês, American Produc-tivity 
and Quality Center), citado em [71], o termo Gestão do Conhecimento 
pode ser definido da seguinte forma: 
Definição 1 (Gestão do Conhecimento) É um processo sistemático de co-nectar 
pessoas com pessoas, e pessoas com o conhecimento que elas precisam 
para agir eficazmente e criar novo conhecimento. As iniciativas de gestão do 
conhecimento visam melhorar o desempenho de uma organização e das pes-soas 
que nela trabalham, por meio da identificação, captura, validação 
e transferência de conhecimento. O objetivo não é simplesmente comparti-lhar 
conhecimento, embora este seja um subproduto valioso do processo. 
Um dos aspectos fundamentais relacionado a KM nas organizações é 
o tratamento dos documentos e dos fluxos informacionais que, em essência, 
transportam dados, informações e conhecimentos. Segundo Tan [101], cerca 
de 80% das informações organizacionais trafegam no formato textual. 
Assim, o tratamento computacional, aplicado sobre objetos textuais na 
busca por conhecimento em organizações, cria novos horizontes com relação a 
estes, tais como: identificação, preservação, aquizição, utilização, dissemina-ção, 
em fim, possibilita a minimização do problema da KM. 
Para que este objetivo organizacional aconteça é necessário criar me-canismos 
e processos que facilitem o manuseio do conhecimento, principal-mente, 
no que tange ao tratamento semântico dos objetos textuais que trans- 
1Refere-se a versão multimídia da Internet.
2.2 Dado 30 
portam os conhecimentos organizacionais. Para tanto, se faz necessário o en-tendimento 
acerca do conhecimento, bem como a distinção entre estes, dados 
e as informações, como se pode observar na Seção 2.2 a seguir. 
2.2 Dado 
Para Valdemar Setzer, “dado” é uma seqüência de símbolos quantifi-cáveis. 
Nesta visão, um texto passa a ser um “dado”. Ele sugere ainda que 
a “informação” pode ser caracterizada mas não pode ser definida, declarando 
não ser possível processar “informação” diretamente em um computador sem 
que a mesma seja antes reduzida a “dado”. Finalmente, argumenta que “co-nhecimento” 
é uma abstração interior, pessoal, de alguma coisa que foi ex-perimentada 
por alguém. Nesta argumentação o conhecimento não pode ser 
descrito totalmente, mas, é possível conceituá-lo em termos de “informação” 
[95]. 
Pode-se observar, em [95], que existe a prevalença da visão epistemo-lógica 
do “realismo” de Aristóteles (melhor detalhada na Seção 2.4), na qual 
o conhecimento é fruto exclusivo da experimentação. 
Wives [111] argumenta que, do ponto de vista computacional, “dado” 
é tudo aquilo que é fornecido como entrada para ser processado, enquanto, 
“informação” é tudo que este processo retorna como saída. Dessa forma, não 
haveria distinção, em processos computacionais, para “dado”, “informação” ou 
“conhecimento”, onde cada um desses, assumindo o papel de entrada será 
denominado “dado”. 
Uma definição mais formal para “dado” pode ser encontrada em Da-venport 
[38] e Abel [2], onde se tem, repectivamente: 
Definição 2 (Dado - Davenport) “Dados são conjuntos de fatos distintos e 
objetivos, relativos a eventos [38].” 
Definição 3 (Dado - Abel) “Representação simbólica de um objeto ou infor-mação 
do domínio sem considerações de contexto, significado ou aplicação [2].” 
Nesta útlima definição se faz uso do termo “domínio” que é definido 
por Abel [2], como se segue: 
Definição 4 (Domínio - Abel) “Qualquer conjunto relativamente circuns-crito 
de atividades [2].”
2.3 Informação 31 
Dessa maneira, o “dado” é objetivo e carece de significado de para 
transformá-los em “informações”, que é mais útil para o ser humano. Con-forme 
argumentado por Peter Drucker, citado em [38], informações são “dados 
dotados de pouca relevância”. Dessa forma, se faz necessária a agregação de 
valores, através de métodos especificados em Davenport [38], como se pode 
ver a seguir: 
• Contextualização: sabe-se qual a finalidade dos dados coletados. 
• Categorização: conhece-se as unidades de análise ou componentes 
essenciais dos dados. 
• Cálculo: os dados podem ser analisados matematicamente ou estatísti-camente. 
• Correção: os erros são eliminados dos dados. 
• Condensação: os dados podem ser resumidos para uma forma mais 
concisa. 
Assim, após a aplicação de um ou mais desses métodos pode-se obter 
a “informação”, que é melhor detalhada na Seção 2.3 a seguir. 
2.3 Informação 
Nesta dissertação, umas das bases conceituais sobre “informação” é a 
visão na qual se ancora os modelos mecanicistas (ou físicos) de comunicação 
[97], oriundos da Teoria da Informação de Claude Shannon e outros [96] e 
citado em [54], que define informação como: 
Definição 5 (Informação - Claude Shannon) “O que acrescenta algo a 
uma representação [...] Recebemos informação quando o que conhecemos se 
modifica. Informação é aquilo que logicamente justifica alteração ou reforço de 
uma representação ou estado de coisas. As representações podem ser explíci-tas 
como num mapa ou proposição, ou implícitas como no estado de atividade 
orientada para um objetivo do receptor”. 
Nesta abordagem, o conceito de informação é visto como algo que um 
agente receptor recebe, através de uma mensagem, de um agente emissor 
em um processo de comunicação (melhor detalhado na Seção 2.3.1). E a 
sua medida de representatividade ou importância é dada pela entropia2 
2Refere-se à importância de um dado termo em um domínio de conhecimento específico 
[66], oriundo da Teoria da Informação de Claude Shannon e outros [96].
2.3 Informação 32 
(melhor detalhada na Seção 5.2.4), que define a medida da importância de 
uma palavra no contexto de um dado domínio [66]. 
Em contraposição ao modelo de Claude Shannon, Dretske citado em 
[81], argumenta que uma teoria genuína da informação seria uma teoria so-bre 
o conteúdo de mensagens, e não uma teoria sobre o modelo do qual esse 
conteúdo é incorporado. Nesta dissertação, busca-se a descoberta por conheci-mentos 
emmensagens textuais emprocessos comunicativos, embora passíveis 
de problemas3 (melhor detalhado na Seção 1.1), tais processos possibilitam 
uma forma de tratar estas mensagens em diversos níveis lingüísticos e/ou es-tatísticos. 
A informação é um fluxo de mensagens, enquanto o conhecimento é 
criado por esse próprio fluxo de informação, ancorado nas crenças e compro-missos 
de seu detentor. Assim, o conhecimento está relacionado com a ação 
humana [81]. 
O problema da comunicação entre os seres humanos trata do processo 
de transferência de informação entre estes e, dessa forma, tem uma forte re-lação 
de como esta tramita em processos comunicacionais. A formalização dos 
processos comunicativos, apresentados na Seção 2.3.1 e adaptado de Russell 
e Norvig [91], permite um melhor entendimento do conceito de informação, 
como se pode ver a seguir. 
2.3.1 Formalização do Processo de Comunicação 
Definição 6 (Processo de Comunicação) Um evento de comunicação tí-pico, 
em um contexto O, é um conjunto de processos, onde um emissor E emite 
uma mensagem M usando palavras W, passando o pensamento P e a informa-ção 
I, de modo a informar o receptor R sobre algo. 
O contexto O delimita o escopo onde ocorre o evento de comunicação 
em termos de conhecimento de mundo do emissor CME e receptor CMR e suas 
respectivas ontogenias OE e OR. Os conhecimentos de mundo CME e CMR 
definem os conhecimentos de senso comum de cada participante do evento 
de comunicação. As ontogenias OE e OR, segundo Humberto Maturana [76], 
formam o conjunto de todas as modificações que o ser vivo é capaz de sofrer 
e que depende de sua estrutura inicial e condiciona suas interações com o 
meio. Em um dado evento de comunicação, o emissor E e o receptor R estão 
envolvidos nos seguintes processos: 
3Refere-se a ocorrência de fenômenos durante atos comunicativos, como por exemplo, 
ambigüidade etc.
2.3 Informação 33 
• Intenção: o emissor E decide que existe uma mensagem M a ser infor-mada 
ao receptor R. 
2 
′• Geração: o emissor E codifica a mensagem M em uma forma (como por 
exemplo: vocal ou escrita) através de um canal C, de tal maneira que o 
receptor R possa, no contexto O, deduzir o significado ou algo próximo 
ao que deseja o emissor E. Neste processo de transmissão de mensagem, 
podem ocorrer ruídos K provocados por este canal C. 
• Síntese: o emissor E produz uma instância W’ das palavras W. 
• Percepção: o receptor R percebe a realização física de W’ como We a 
decodifica como W2. 
• Análise: o receptor R deduz que W2 tem significados possíveis S1, ..., Sn. 
O processo de análise se divide em: interpretação (análise) sintática, 
interpretação semântica e interpretação pragmática. 
• Eliminação de Ambigüidades: o receptor R deduz que o emissor E 
pretendia transmitir o significado Si (onde, i = 1, ..., n e o caso ideal é 
Si = M). Dessa forma, a comunicação funciona por que o receptor R 
faz o trabalho de concluir qual interpretação é aquela que o emissor 
E provavelmente pretendia transmitir. O termo “provavelmente” está 
relacionado ao fato de que as ambigüidades são inerentes ao processo de 
comunicação e que deve passar por algum processo de desambigüização. 
• Incorporação: o receptor R decide acreditar em Si (ou não), bem como 
percebe o pensamento P e a informação I do emissor E. 
2.3.2 Comunicação Efetiva 
A comunicação efetiva ocorre quando a mensagem recebida W2 pelo 
receptor R é igual ou similar à mensagem M enviada pelo emissor E em sua 
forma original e com os seus atributos: pensamento P e informação I. 
2.3.3 Interferências no Processo de Comunicação 
O processo de comunicação pode ser comprometido pela ocorrência de 
distorções que alterem o conteúdo da mensagem M. Estas distorções podem 
ocorrer devido a vários fatores. O primeiro fator é a ocorrência de ruídos 
K proveniente do canal C, os quais devem sofrer tratamento no sentido de 
minimizar as distorções finais da mensagem M.
2.3 Informação 34 
Além disso, os conhecimentos de mundo do emissor CME podem ser 
diferentes dos conhecimentos de mundo do receptor CMR, o que pode acar-retar 
erros de interpretação semântica (sentido) e interpretação pragmática 
(contexto) durante o processo de comunicação. O ideal é que conhecimentos de 
mundo do emissor CME e do receptor CMR sejam iguais ou similares, refle-tindo 
um domínio de conhecimento único ou seja, o mesmo contexto. Em ou-tras 
palavras, o evento de comunicação, idealmente, deve utilizar uma única 
fonte de conhecimentos de senso comum. 
Um último caso que pode ocorrer e, provavelmente o mais difícil de se 
contornar os seus efeitos, são as discrepâncias naturais entre as ontogenias 
OE e OR. Como a maioria dos processos de comunicação construídos pelo 
ser humano ocorrem através de componentes genéricos, a individualização 
das experiências fica comprometida. Uma forma de solucionar, ou pelo menos 
minimizar o problema em eventos de comunicação, é através de processos com 
capacidades adaptativas e de individualização por meio do uso de perfis dos 
participantes emissor E e receptor R para cada contexto O. 
A busca por conhecimento em processos comunicativos deve, neces-sariamente, 
envolver os diversos paradigmas existentes, quais sejam: mode-los 
físicos, modelos psicológicos, modelos sociológicos, modelos antropológicos, 
modelos semiológicos e modelos sistêmicos [97]. Assim, é possível aproveitar 
as melhores características (ou número de variáveis que intervêm nessa fun-ção 
humana) de cada um, objetivando a aquisição do conhecimento. Dessa 
forma, tenta-se agregar valor à busca por informações, em especial, as infor-mações 
relevantes como se pode ver a seguir. 
2.3.4 Informação Relevante 
Apesar da alta disponibilidade de informações naWeb atual, nem toda 
informação obtida em processos de busca são relevantes. Na busca por infor-mações, 
existem fatores que atuam para formar a “relevância das informa-ções” 
mediante necessidade de informação de um determinado usuário. 
Para Stefano Mizarro, citado em [111], informação relevante é aquela 
que o usuário precisa para satisfazer sua necessidade de informação em 
determinado momento. Ela deve estar no contexto e momento que o usuário 
necessita dela. Ou seja, o que é relevante em um determinado momento pode 
não ser em outro. 
Dessa forma, pode-se definir a relevância de uma informação como:
2.4 Uma Abordagem Epistemológica 35 
Definição 7 (Informação Relevante) Seja InfRev um conjunto de infor-mações 
relevantes. Seja NI uma necessidade de informação definida por uma 
função e seus argumentos U, representando um usuário, O o contexto de uso e 
T o momento (tempo) de ocorrência da necessidade de informação, que é dada 
pela fórmula a seguir InfRev = NI(U,O, T). 
Um conjunto de informações relevantes cria as condições para a ob-tenção 
de conhecimentos. Uma abordagem sobre conhecimento, em uma visão 
epistemológica, é dada na Seção 2.4, a seguir. 
2.4 Uma Abordagem Epistemológica 
A epistemologia estuda os fundamentos filosóficos do conhecimento. 
Neste contexto, Ikujiro Nonaka e Hirotaka Takeuchi [81], em relação a epis-temologia 
ocidental tradicional, enfatiza a natureza absoluta, estática e não 
humana do conhecimento. Esta epistemologia é baseada, normalmente, em 
proposições da lógica formal (como por exemplo, lógica de predicados de pri-meira 
ordem). Os referidos autores, argumentam ainda, que consideram o co-nhecimento 
como um processo humano dinâmico de justificar a crença pessoal 
com relação à verdade. 
Ainda segundo Ikujiro Nonaka e Hirotaka Takeuchi [81], a epistemo-logia 
ocidental pode ser particionada em duas correntes: racionalismo e em-pirismo. 
No racionalismo, a aquisição do conhecimento será através de ra-ciocínio 
dedutivo, da qual a Matemática é seu principal representante. Ela se 
caracteriza pela existência de conhecimento a priori. As suas argumentações 
se referem a conceitos, leis e teorias. Entre seus principais defesores, estão 
Platão (doutrina designada por idealismo) e Descartes. 
No empirismo, a aquisição do conhecimento será através de indução, 
via experiências sensoriais. Seu principal representante é a Ciência Expe-rimental. 
Suas argumentações se referem às experiências sensoriais. Entre 
seus principais defensores estão Aristóteles (doutrina que fundamenta o con-ceito 
de realismo.) e Locke [81]. Na visão empirista de Piaget, citado em [2], 
o conhecimento é oriundo das experiências tiradas do meio por estímulos sen-sórios 
sem uma organização interna. 
No contexto desta dissertação, a qual é direcionada para extração 
de conhecimentos em objetos textuais, quando se faz esta extração baseada 
em conhecimentos lingüísticos, os fundamentos epistemológicos também são 
particionados nestas duas correntes, como se pode ver a seguir.
2.5 Conhecimento 36 
Assim como em outras áreas, a Lingüística também sofre influência de 
correntes epistemológicas distintas. Para Johns citado em [93], a Lingüística 
de Corpus trabalha dentro de um quadro conceitual voltado para a abordagem 
empirista e visualiza a linguagem como um sistema probabilístico. Neste 
contexto, a visão empírica é exercida pela primazia em relação aos dados, em 
geral, sob forma de corpus. 
Para McEnergy e outros, citado em [93], essa posição empirista se-gue 
um vertente contrária à corrente racionalista da linguagem, ou seja, de 
uma maneira geral o conhecimento provém de princípios estabelecidos a pri-ori. 
Nesta corrente, o estudo lingüístico fundamenta-se na introspecção como 
forma de verificar modelos de funcionamento da linguagem e seu processa-mento 
cognitivo. 
Os dois principais representantes da corrente empirista e da corrente 
racionalista na área de conhecimentos lingüísticos são, respectivamente, Hal-liday 
(probabilidade) e Noam Chomsky (possibilidade) [93]. No contexto desta 
dissertação, considera-se as duas visões filosóficas complementares e busca-se 
princípios de ambas na descoberta por conhecimentos em objetos textuais em 
organizações, como se pode ver na Seção 2.5 a seguir. 
2.5 Conhecimento 
O conhecimento é o objeto da Gestão do Conhecimento e da Engenha-ria 
de Conhecimento que busca capturá-lo, muito embora, a compreensão do 
seu significado seja ainda controverso [2]. 
O conhecimento pode ser formalmente definido conforme se pode ob-servar 
em Davenport [38] e Fischler e Firschein, citados em [64], respectiva-mente: 
Definição 8 (Conhecimento - Davenport) “Conhecimento é uma mistura 
fluida de experiência condensada, valores, informação contextual e insigh ex-perimentado, 
a qual proporciona uma estrutura para a avaliação e incorpo-ração 
de novas experiências e informações. Ele tem origem e é aplicado na 
mente dos conhecedores. Nas organizações, ele costuma estar embutido não só 
em documentos ou repositórios, mas também em rotinas, processos, práticas e 
normas organizacionais.” 
Definição 9 (Conhecimento - Fischler e Firschein) “Conhecimento se re-fere 
à informação armazenada ou a modelos utilizados por uma pessoa ou
2.6 Teoria da Criação do Conhecimento Organizacional 37 
máquina para interpretar, prever e responder apropriadamente ao mundo ex-terior.” 
Segundo Abel [2], o conhecimento possui um componente descritivo, 
ou estático, ou seja, como o ser humano identifica e organiza os conceitos no 
seu modelo mental (melhor compreendido pelos pesquisadores de Ciência da 
Congnição e Inteligência Artificial), e um componente dinâmico, que descreve 
como as descrições são aplicadas na solução de problemas, ainda permanece 
pobremente explicado. Além disso, pode-se classificá-lo de acordo como os 
tipos de informações com as quais constroem o corpo do conhecimento, quais 
sejam: conhecimento declarativo, procedural, semântico, episódico e meta-conhecimento. 
Nesta dissertação considera-se a teoria a seguir. 
2.6 Teoria da Criação do Conhecimento Orga-nizacional 
A Teoria da Criação do Conhecimento Organizacional foi proposta 
por Ikujiro Nonaka e Hirotaka Takeuchi em [81]. Esta teoria é central para 
este trabalho e, devido a isto, esta Seção é inteiramente dedicada ao seu 
entendimento e na modelagem de uma estrutura conceitual para a Gestão 
do Conhecimento em organizações. 
Segundo esta teoria, a visão filosófica do ocidente, que é tratada pela 
divisão cartesiana sujeito (conhecedor) e objeto (conhecido), deu origem a uma 
visão de organização baseada unicamente no conhecimento explícito4, cuja 
única forma de criar conhecimento é através de processamento de informações 
de fora para dentro das organizações, não levando em consideração a criação 
de conhecimento organizacional de dentro para fora, que pode explicar a 
inovação, e possibilita a redefinição de problemas e soluções recriando o 
meio. 
Para explicar a inovação, esta teoria, define sua própria epistemolo-gia, 
a qual é centrada na distinção entre conhecimento tácito e explícito. Da 
mesma forma, para explicar o conhecimento organizacional, em oposição ao 
conhecimento individual, esta teoria cria a sua própria ontologia, preocupada 
com os níveis de criação de conhecimento (individual, grupal, organizaci-onal 
e interorganizacional). 
4Refere-se ao conhecimento registrado em algum formato. Pode-se citar como exemplo, 
livros, artigos etc.
2.6 Teoria da Criação do Conhecimento Organizacional 38 
Michael Polanyi - o primeiro filósofo a articular o conceito de conheci-mento 
tácito versus explícito [38] - citado em [81], distingue a categorização do 
conhecimento explícito e tácito. Assim, o conhecimento explícito é sistemati-zado, 
normalmente, em termos de palavras e números, podendo ser facilmente 
comunicado e compartilhado sob a forma de dados brutos, fórmulas científicas, 
procedimentos ou princípios codificados. 
Ainda segundo Polanyi, o conhecimento tácito é altamente pessoal e 
difícil de formalizar e articular, o que dificulta o seu compartilhamento. Pode-se 
citar: insights5 e palpites subjetivos. O conhecimento tácito possui um ele-mento 
técnico e um elemento cognitivo. O elemento técnico, abrange as habi-lidades 
capturadas como know-how. O elemento cognitivo, centra-se nos mo-delos 
mentais que são, modelos de mundo que os seres humanos estabelecem 
e manipulam através de analogias. São profundamente vinculados às ações 
e experiências (modelos mentais, esquemas, crenças e percepções) [81]. Este 
tipo de conhecimento modela a forma como se percebe o mundo. 
Na dimensão ontológica desta teoria, o conhecimento só é criado pelo 
indivíduo, porém, é ampliado na organização através de processos interativos 
que vai do nível indivídual, grupal, organizacional até o interorganizacional. 
Na dimensão epistemológica desta teoria, os conhecimentos tácitos 
e explícitos não são entidades separadas. O pressuposto desta teoria é que 
o conhecimento humano é criado e expandido desta interação social entre 
conhecimento tácito e explícito e particionado em quatro tipos de conversão: 
• Socialização: é o processo de compartilhamento de experiências atra-vés 
da conversão de conhecimento tácito em conhecimento tácito, como 
por exemplo, na interação mestre-aprendiz por meio da observação, imi-tação 
e prática. Esta conversão caracteriza-se pela dificuldade de um 
indivíduo se projetar no raciocínio de outro. 
• Externalização: é um processo de articulação do conhecimento tácito 
em conhecimento (conceito) explícito. Este processo permite a criação 
de conhecimento explicitado através de metáforas, analogias, conceitos, 
hipóteses e modelos. Para Emig, citado em [81], a escrita é uma forma de 
converter o conhecimento tácito em conhecimento explícito e, no contexto 
desta dissertação, é um ponto chave a ser tratado através de uma 
ferramenta de EAT - Extração Automática de Terminologia (melhor 
detalhado no Capítulo 11) na descoberta de conhecimentos. 
5Refere-se ao know-how desenvolvido pelas pessoas.
2.7 Comunidades Virtuais de Prática - CoPs 39 
• Combinação: é um processo de sistematização de conceitos em um sis-tema 
de conhecimento, envolvendo conjuntos diferentes de conhecimen-tos. 
Os indivíduos combinam e trocam conhecimentos através de do-cumentos, 
reuniões, conversas telefônicas e através de processos com-putacionais. 
Neste processo, em especial os computacionais, também é 
possível o uso de ferramenta EAT, principalmente em instrumentos de 
comunicação escrita de forma automatizada, durante o registro de in-formações 
textuais armazenadas em banco de dados, em ferramentas 
de comunicação eletrônica tradicionais (tais como, e-mail, chat, forum, 
brainstorming eletrônico, etc.). 
• Internalização: é o processo de incorporação do conhecimento ex-plícito 
em conhecimento tácito normalmente estimulado por alguma 
forma de treinamento. Esta internalização pode se dar através de mo-delos 
mentais ou know-how compartilhado, experiência através da so-cialização, 
externalização, combinação. Neste caso uma ferramenta de 
EAT ajuda, de forma indireta, quando da construção de bases de conhe-cimento 
explícito. 
Estes quatro tipos de conversão de conhecimento: socialização (co-nhecimento 
compartilhado), externalização (conhecimento conceitual), combi-nação 
(conhecimento sistêmico) e internalização (conhecimento operacional) 
através do tempo formam a denominada Espiral do Conhecimento. Nela, 
o conhecimento tácito constitui a base do conhecimento organizacional. O 
conhecimento tácito, através desses quatro modos (epistemológicamente6), 
nos diversos níveis (ontologicamente7), onde se parte, em uma Espiral do 
Conhecimento, no nível de indivíduo, seções, departamentos, organizações 
com o intuito de criar conhecimento organizacional. Neste caso, pode-se mode-lar 
tais agrupamentos através de Comunidades Virtuais de Prática, ou seja, 
CoPs, como se pode ver na Seção 2.7 a seguir. 
2.7 Comunidades Virtuais de Prática - CoPs 
O termo CoPs (Communities of Practice ou Comunidades de Prática) 
foi cunhado em 1991 por Jean Lave e Etienne Wenger durante a exploração 
6Refere-se aos quatro modos de conversão do conhecimento: Socialização, Externalização, 
Combinação e Internalização. 
7Refere-se aos níveis individual, grupo, organização e interorganizações.
2.7 Comunidades Virtuais de Prática - CoPs 40 
de aprendizado situado, que é o aprendizado através de práticas de trabalho 
[65]. 
Segundo Teixeira [55], o advento da Internet como meio de comuni-cação 
ágil, flexível e de baixo custo, foi o fato propulsor da adoção, em larga 
escala, das comunidades virtuais. Destaca ainda, que estes grupos foram or-ganizados 
utilizando-se das tecnologias de e-mail, chats e websites para se 
comunicarem, onde, profissionais de áreas específicas passaram a trocar in-formações 
relevantes sobre o seu dia-a-dia, ou seja, as suas melhores prá-ticas 
(tais como, experiências, histórias, ferramentas etc.) e as formas como 
estruturam seus processos, além de compartilhar soluções para seus proble-mas 
mais comuns [43]. 
Emuma CoP, os conceitos (como por exemplo, pessoas, artefatos, even-tos, 
etc.) e propriedades (como por exemplo, estilo, material etc.) com interes-ses 
comuns (como por exemplo, comércio, educação, cultura, medicina, compu-tação 
etc.) modelam os conhecimentos de uma comunicadade. Em ambientes 
organizacionais, pode ser visualizado como: indivíduo, grupo, organizações e 
interorganizações. 
Estas comunidades têm em comum alguma identificação e conheci-mentos 
formalizados (como por exemplo, ontologias etc.) que são utilizados 
para criar recursos de informação (ex: documentos, dados etc.) [22], [72], [16]. 
Tais informações explícitas e as ontologias modelam os conhecimentos ex-plícitos 
destas comunidades. A interação entre os conhecimentos tácitos 
e conhecimentos explícitos (conforme definido na Seção 2.6 anteriormente) 
criam a possibilidade de Gestão de Conhecimento organizacional. 
Para Etienne Wenger, citado em [65], o desenvolvimento e dissemi-nação 
de comunidades habilitadas para resolver problemas é dependente de 
um compartilhamento consistente de repertório de rotinas, gestos, artefatos, 
vocabalurário e entendimento de comunidade. 
Nesta dissertação, o vocabulário que participa da definição de uma 
CoP [98], é representado pelo vocabulário controlado, materializado através 
de ontologias escritas em OWL (melhor detalhado na Seção 4.3). Este con-junto 
estruturado de conhecimento representa a linguagem e um vocabulário 
controlado sobre o qual o processo de descoberta de conhecimento ocorre em 
objetos textuais na busca por compreendê-los. 
Para Edgar Morin [80], compreende-se uma frase a partir do sentido 
das palavras, ao mesmo tempo que o sentido das palavras se cristaliza a partir 
do que emerge da frase. Além disso, recorre-se ao contexto para esclarecer 
o sentido do texto através de uma dialógica recorrente: palavras, texto e
2.7 Comunidades Virtuais de Prática - CoPs 41 
contexto. 
Ainda segundo Edgar Morin, a computação cerebral se desenvolve 
em um processo de análise (decomposição, isolamento e distinção), con-verge 
para a síntese (reunião, hierarquização, centralização e globalização), 
multiplicando-se pela linguagem [80]. 
Para Davenport [38], um aspecto importante para a transferência de 
conhecimento é a utilização de uma linguagem comum entre os participantes 
(denotando aqui os jargões técnicos ou termos técnicos especializados - melhor 
detalhado na Seção 8.2). 
Davenport argumenta ainda que uma das melhores formas de trans-ferir 
conhecimento tácito é através de narrativas (em linguagem natural, 
segundo Chen [20]), normalmente, expressas em formato textual escrito de-nominada 
história de guerra, disponibilizada para análise e compreenção dos 
conhecimentos registrados [38]. 
Assim, nesta dissertação procura-se pela descoberta de conhecimento 
em objetos textuais8 com a finalidade de subsidiar a Gestão do Conhecimento 
em ambientes organizacionais partindo-se de princípios apresentados neste 
Capítulo. No Capítulo 3, a seguir, apresentam-se conceitos e técnicas aplicá-veis 
a processos de descoberta de conhecimento. 
8Instrumentos de comunicação escrita, quais sejam: memorandos, ofícios, políticas empre-sariais, 
normas, instruções de procedimentos, pareceres, resoluções, bem como, ferramentas 
de comunicação eletrônicas tradicionais, quais sejam: e-mail, chat, fórum, brainstorming ele-trônico, 
banco de idéias, etc.
CAPÍTULO 3 
Processo de Descoberta de 
Conhecimento 
Neste Capítulo, é apresentada uma revisão bibliográfica acerca de 
pesquisas relacionadas a processos de descoberta de conhecimento em meios 
computacionais. A exposição está dividida em duas Seções, quais sejam, 
Descoberta de Conhecimento em Banco de Dados (3.1) e Descoberta 
de Conhecimento em Textos (3.2). 
3.1 Descoberta de Conhecimento em Banco de 
Dados 
A extração de conhecimento “escondido” em registros de DB (Data- 
Base ou Banco de Dados) é um problema comum em praticamente toda área 
de ciência, tanto em Engenharia quanto em Negócios, e é objeto de estudo 
central de disciplinas clássicas, como por exemplo a Estatística e o Aprendi-zado 
de Máquina. Uma grande quantidade de métodos de mineração têm sido 
desenvolvidos para resolver este tipo de problema [3]. 
Segundo Wives [112], a descoberta de conhecimento, na área de Ci-ência 
da Computação, surgiu na Inteligência Artificial, a qual, entre outros 
objetivos, se preocupava com a aquisição e armazenamento de conhecimento. 
Com o advento dos DBMS (Data Base Management System ou Siste-mas 
de Gerenciamento de Banco de Dados) [70], os pesquisadores de Sistemas 
de Informação, ou mais especificamente os pesquisadores em Banco de Dados, 
passaram a investigar novas formas de tratar informações armazenadas em 
bancos de dados. Assim, investiga-se maneiras de se obter informações implí-citas 
com base em informações explícitas, carecendo porém, de novos proces-sos 
para a sua obtenção e análise [111].
3.1 Descoberta de Conhecimento em Banco de Dados 43 
Uma das técnicas oriundas das pesquisas em Bancos de Dados, na 
busca por informações implícitas, deu origem a novos processos e ferramentas 
que realizavam análises sobre os dados armazenados neste tipo de estrutura 
de dados. Dentre estas ferramentas, pode-se citar, as ferramentas OLAP 
(Online Analytical Processing ou Processamento Analítico On-line)1 e os 
conceitos de DW (Data Werehouses ou Armazéns de Dados)2 [112]. 
No topo desse processo de evolução tecnológica, em relação à área de 
Banco de Dados, se encontra o desenvolvimento da vertente referenciada como 
KDD (Knowledge Discovery from Database ou Descoberta de Conhecimento 
em Banco de Dados). O termo KDD, de acordo com Fayyad e outros [53], pode 
ser definido como: 
Definição 10 (KDD - Fayyad) KDD ou Descoberta de Conhecimento em 
Banco de Dados é o processo de identificação de padrões válidos, novos, po-tencialmente 
úteis e compreensíveis embutidos nos dados. 
Para que o processo de KDD possa ser iniciado, faz-se necessária a 
análise de objetos de Banco de Dados na busca por estes padrões. 
3.1.1 Reconhecimento de Padrões 
Segundo Simon Haykin [64], os seres humanos são bons reconhecedo-res 
de padrões. Tal processo ocorre, na maioria das vezes, de forma impercep-tível 
e natural, como se pode observar nos cenários exemplificados a seguir: 
• Reconhecer um rosto familiar após envelhecimento; 
• Identificar uma pessoa pela voz em uma ligação telefônica ruim; 
• Distinguir o estado de um alimento pelo cheiro que exala. 
O reconhecimento de padrões é formalmente definido como o processo 
pelo qual um padrão/sinal recebido é atribuído a uma classe dentre um 
1É uma abordagem tecnológica para gerar respostas rápidas a consultas analíticas de na-tureza 
tipicamente dimensional. A tecnologia OLAP é parte de uma categoria mais abran-gente, 
BI, que também inclui DW ou Data Warehouse, que por sua vez inclui ETC (Extração 
Transformação e Carga)) e Data Mining. Aplicações típicas de OLAP são relatórios de negó-cios, 
marketing, relatórios gerenciais, Business Performance Management (BPM), budgeting 
e previsão, relatórios financeiros e áreas similares [63]. 
2O Data Warehouse possibilita a análise de grandes volumes de dados, coletados dos 
sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma 
melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes 
e a previsão de eventos futuros [63].
3.1 Descoberta de Conhecimento em Banco de Dados 44 
número predeterminado de classes (categorias) [64]. Como se pode observar 
nos exemplos anteriores, onde, o rosto, a voz e o cheiro são atribuídos a classes 
(categorias) específicas que permitiram reconhecer a que padrões pertenciam, 
respectivamente, as classes: rosto familiar, uma pessoa e o estado (qualidade) 
do alimento. 
Apesar da aparente naturalidade e simplicidade com que o ser hu-mano 
reconhece padrões, a sua implementação emmeios computacionais pode 
requerer processos bastante complexos. Uma forma de realizar tais trata-mentos 
computacionais é através da utilização de técnicas de ARN (Artificial 
Neural Network ou Redes Neurais Artificiais)3. 
Uma ARN reconhece padrões passando inicialmente por uma etapa 
de treinamento. Nesta etapa, um conjunto de padrões de entrada é apresen-tado 
repetidamente à classe (categoria) à qual cada padrão pertence. Em uma 
segunda etapa, apresenta-se a ARN novos padrões não vistos anteriormente, 
mas que pertencem às categorias já apresentadas para que a ARN os classifi-que 
com base em métodos estatísticos. 
O reconhecimento de padrões somente representa conhecimento caso 
seja facilmente compreendido pelo ser humano, útil e novo. 
Em sistemas IR, são utilizados os seguintes tipos de padrões lingüís-ticos: 
palavra, prefixos, sufixos, substrings, expressões regulares e padrões 
extendidos [5]. No contexto desta dissertação, um padrão é um conjunto de 
características morfológicas que ocorre em um segmento de texto. 
O reconhecimento de padrões é utilizado em processos de mineração 
de dados, conforme se pode ver a seguir. 
3.1.2 Tipos de Padrões Descobertos 
Segundo Han[63], as tarefas (funcionalidades) de DM (Data Mining 
ou Mineração de Dados) podem ser classificadas em: descritivas ou prediti-vas. 
As tarefas (funcionalidades) de mineração descritivas caracteriza as pro-priedades 
gerais de um DB (DataBase ou Banco de Dados). As tarefas (funci-onalidades) 
de mineração preditiva executa inferências sobre os dados atuais 
(correntes) de maneira a criar predições. As funcionalidades de DM e tipos de 
padrões são descritas a seguir: 
• Descrição Classe/Conceito: estas descrições podem ser derivadas de: 
3Simon Haykin define uma rede neural é um processador paralelo e distribuído consti-tuído 
de unidades de processamento simples, que têm a propensão natural para armazenar 
conhecimento experimental e torná-lo disponível para uso [64].
3.1 Descoberta de Conhecimento em Banco de Dados 45 
– caracterização de dados, através de sumarização originados de clas-ses 
alvo; 
– discriminação de classes alvo com um conjunto de classes compara-tivas; 
– caracterização e descriminação de dados. 
• Análise de Associação: é a descoberta de regras de associação mos-trando 
condições atributo-valor que freqüentemente estão juntas em 
grupos de dados; 
• Predição e Classificação: é o processo de encontrar um conjunto de 
modelos (ou funções) que descreve ou distingue classes ou conceitos, com 
o propósito de habilitar o uso de modelos para previsão de classes de 
objetos cujo rótulo da classe é desconhecido; 
• Análise de Agrupamentos: é um método capaz de analisar uma série 
de objetos com o objetivo de identificar correlações (semelhanças) e 
características comuns (similaridades) entre eles [111]; 
A descoberta de conhecimento utiliza-se da captura de padrões e pode 
ser aplicada a diversos tipos de fontes de dados, como se pode ver a seguir. 
3.1.3 Tipos de Fontes de Dados 
Segundo Jiawei Han, as técnicas de DM podem ser aplicadas a qual-quer 
tipo de repositório de informação, sendo que, deve-se respeitar as dife-rentes 
particularidades de cada tipo de repositórios de informações [63], assim 
tem-se: 
• DBMS (Database Management System ou Sistema de Gerenciamento de 
Banco de Dados); 
• DW (Data Warehouses ou Armazéns de Dados); 
• TsDB (Transactional Database ou Banco de Dados Transacional); 
• OODB (Object-Oriented Databases ou Banco de Dados Orientados à 
Objetos); 
• ORDB (Object-Relational Databases ou Banco de Dados Objeto Relacio-nal); 
• SDB (Spatial Databases ou Banco de Dados Espacial); 
• TDB (Temporal Databases ou Banco de Dados Temporais);
3.2 Descoberta de Conhecimento em Texto 46 
• TSDB (Time-Series Databases ou Banco de Dados de Séries Temporais); 
• TxDB (Text Databases ou Banco de Dados Textuais); 
• MDB (Multimedia Databases ou Banco de Dados Multimídia); 
• LDB (Lagacy Databases ou Banco de Dados Legado); 
• WWW (World Wide Web ou Teia de Amplitude Mundial); 
Como se pode observar é possível aplicar técnicas de KDD a diversos 
tipos de dados, entre os quais, os dados textuais. 
3.2 Descoberta de Conhecimento em Texto 
Para Wives, com o advento e popularização da Internet e seus servi-ços, 
quais sejam: e-mails, chats, news-groups, páginas Web, iniciou-se uma 
geração de um grande contingente de informações não estruturadas e semi-estruturadas. 
A existência de tais corpora possibilitou o surgimento de uma 
nova área de descoberta de conhecimento intitulada: KDT (Knowledge Disco-very 
from Texts ou Descoberta de Conhecimento em Textos) [111]. 
Neste contexto, a descoberta de conhecimento apresenta-se como uma 
evolução da área de Recuperação de Informações, a qual teve como conseqüên-cia 
a área de Descoberta de Conhecimento em Textos. Dessa maneira, com 
estas tecnologias não se procura por informações nos textos, e sim, por conhe-cimentos 
úteis e novos. Ainda segundo Wives e outros [112], pode-se destacar 
as seguintes formas de descobertas de conhecimento em texto: 
• Descoberta tradicional após extração: nesta abordagem, os dados são 
extraídos dos textos e formatados em bases de dados estruturadas com o 
auxílio de técnicas de Extração de Informações; 
• Descoberta por extração de passagens: é uma técnica que se situa entre 
a Recuperação de Informações por Passagem e Extração de Informações; 
• Descoberta por análise lingüística: nesta abordagem as regras e infor-mações 
podem ser descobertas através de análises lingüísticas em nível 
léxico, morfológico, sintático e semântico; 
• Descoberta por análise de conteúdo: nesta abordagem investiga-se os 
textos e apresenta-se ao usuário informações sobre o seu conteúdo; 
• Descoberta por sumarização: nesta abordagem utiliza-se técnicas 
lingüísticas e extração por passagem para criar sumários;
3.2 Descoberta de Conhecimento em Texto 47 
• Descoberta por associação entre passagens: este tipo de técnica busca 
encontrar automaticamente conhecimento e informações relacionadas 
no mesmo texto ou em textos diferentes; 
• Descoberta por lista de conceitos-chave: esta abordagem se baseia na 
idéia de que o significado de um texto não é determinado por sua leitura 
linear, mas sim, por uma análise do conjunto de elementos léxicos mais 
importantes (palavras-chave); 
• Descoberta de estruturas de textos: esta abordagem se baseia na deter-minação 
da estrutura do texto para entender o seu significado; 
• Descoberta por clustering (agrupamento ou aglomerados): procura-se 
separar automaticamente elementos em classes que são identificadas 
durante o processo (não há classes pré-definidas); 
• Descoberta por descrição de classes de textos: esta abordagem baseia-se 
no fato de se ter uma classe de documentos textuais (já agrupados) e 
uma categoria associada a esta classe, procura-se encontrar as principais 
características destas classes, as quais, possam identificá-las de forma 
que os usuários possam distingüí-las das demais classes; 
• Descoberta por recuperação de informações: nesta abordagem os siste-mas 
IR, em sua operação tradicional, contribuem para que os usuários 
aprendam novos conhecimentos; 
• Descoberta por associação entre textos: nesta abordagem procura-se 
relacionar as características presentes em vários textos diferentes; 
• Descoberta por associação entre características: nesta abordagem 
procura-se tipos de informações presentes em textos aplicando-se técni-cas 
de correlação estatística (KDD); 
• Descoberta por hipertextos: nesta abordagem, a descoberta é explorató-ria 
e experimental; 
• Descoberta por manipulação de formalismos: nesta abordagem, utiliza-se 
de manipulação simbólica para inferir novos conhecimentos; 
• Descoberta por combinação de representações: nesta abordagem os tex-tos 
antes de serem combinados, passam por um processo de representa-ção 
interna (dois textos); 
• Descoberta por comparação de modelos mentais: nesta abordagem, 
procura-se representar documentos textuais e o estado de conhecimento 
do usuário (modelo mental) através de um formalismo padrão, para, logo 
em seguida compará-los.
3.2 Descoberta de Conhecimento em Texto 48 
A descoberta de conhecimentos em objetos textuais pode ser feita 
através do uso de conhecimentos lingüísticos, estatísticos ou ambos (melhor 
detalhado na Seção 9). O Aprendizado estatístico se insere num contexto cuja 
linha de pesquisa é chamada de empírica (melhor detalhado na Seção 2.4), 
uma vez que se baseia em exemplos já prontos e se aprende como lidar com 
aqueles ainda não vistos [17]. 
Para Loh e outros [74], a técnica de descoberta de conhecimento 
é importante para quem trabalha com um grande volume de informações, 
ajudando pessoas a descobrir conhecimento útil e novo, geralmente implícito, 
minimizando a sobrecarga de informações. 
Uma das formas de se descobrir conhecimento é baseando-se em 
conceitos (melhor detalhado na Seção 8), os quais evitam o problema do 
vocabulário, permitindo analisar dependências entre fenômenos do mundo 
real e não entre características do modelo de representação adotado. Os 
conceitos são extraídos dos textos através de algum método de classificação 
que analisa estatisticamente as palavras presentes nos textos, feito de forma 
automática desde que se disponha de alguma ontologia previamente definida 
[74]. 
O problema do vocabulário, segundo Hsinchun Chen [20], origina-se 
do fato de que as pessoas, em ambientes CSCW (Computer-Suported 
Cooperative Work ou Trabalho Cooperativo Suportado por Computador), ten-dem 
a usar diferentes termos para descrever um conceito similar dependendo 
de seus conhecimentos anteriores, treinamentos e experiências. Tais tendên-cias, 
estão relacionadas a problemas de HCI (Human-Computer Interactions 
ou Interação Humana por Computador). Esta pluraridade terminológica pode 
levar a problemas de intercâmbio de idéias, o que dificulta o compartilha-mento 
e comunicação de informações. 
Ainda segundo Chen, é necessária a criação de metodologias de inte-ração 
orientadas ao vocabulário. Ele argumenta a existências de estratégias, 
tais como, unlimited aliasing, proposto por Furnas e outros e dicionário de 
domínio específico proposto por Bates e citados em [20]. Assim, ele propõe 
uma solução para o problema do vocabulário4, uma abordagem baseada em 
conceitos. Nesta abordagem, ele apresenta o seguinte: 
• Identificação do Vocabulário: o mais popular meio de comunicação é 
através da linguagem natural. Assim, em colaborações em linha pode-se 
aproveitar as saídas textuais para revelar o vocabulário utilizado pelos 
4Refere-se às diferenças de vocabulário em comunicações síncronas e assíncronas.
3.2 Descoberta de Conhecimento em Texto 49 
diferentesmembros, bemcomo criar e compartilhar o espaço de conceitos 
com todos os membros dos grupos. Para tanto, utiliza-se de técnicas 
de Inteligência Artificial, especificamente, processamento em linguagem 
natural em um domínio de conhecimento específico. 
• Ligação de Similaridades do Vocabulário: indexação automática de 
textos baseada em conceito proveniente da técnica proposta por Salton, 
conhecida como VSM (Vector Space Model ou Modelo de Espaço Veto-rial.). 
Nesta técnica, identifica-se, tipicamente, a importância de termos 
através de cálculo de tf (term frequency ou freqüência de termo no docu-mento), 
df (document frequency ou freqüência do termo no conjunto de 
documentos.) e idf (inverse document frequency ou freqüência inversa do 
termo no conjunto de documentos, ou seja, os termos menos freqüentes 
nos documentos são os mais importantes.). Esta abordagem baseia-se na 
análise de agrupamentos e é uma extenção de SVM (melhor detalhado 
na Seção 6.1.5) para a geração do espaço de conceito. Os pesos estatísti-cos 
entre termos indica a sua forte relevância ou associação. 
• Atravessar o espaço do conceito: quando um membro encontrar 
um problema de vocabulário durante a colaboração, ele deve consultar, 
através de navegadores, o espaço de conceito e identificar o vocabulário 
relevante para uso. 
Dentre estas formas de descoberta de conhecimento, as técnicas de 
KDT, conhecimentos de Lingüística (melhor detalhado na Seção 4.2) e Termi-nologia 
(melhor detalhado na Seção 8), estruturadas de acordo com técnicas 
descritas no Capítulo (5), serão o objeto desta dissertação. 
De uma forma geral, as definições simplificadas apresentadas nesta 
Seção têm por finalidade disponibilizar um equacionamento do problema da 
compreensão do conhecimento, e desta forma, subsidiar e fornecer direções 
para o processamento do conhecimento através de mecanismos artificiais. 
Não é objetivo desta dissertação considerar todas as facetas de como os seres 
humanos percebem e organizam internamente a realidade e as utilizam na 
busca de solução de problemas. 
Para haver um melhor entendimento dos conceitos descritos o Capí-tulo 
4, a seguir são descritas algumas pesquisas desenvolvidas ou em desen-volvimento 
em áreas relacionadas.
CAPÍTULO 4 
Pesquisas em Área Relacionadas 
Este Capítulo trata de um grupo de áreas (ou disciplinas) de conheci-mento 
que tem uma forte relação com a descoberta de conhecimento em texto, 
seja provendo ou recebendo subsídios tecnológicos (conhecimento). Inicia-se 
uma abordagem pela área de Recuperação de Informações (4.1), em se-guida, 
são também abordadas a área de Lingüística Computacional (4.2) 
com as suas subáreas: Processamento de Linguagem Natural (4.2.1) e 
Lingüística de Corpus (4.2.2). Finalmente, é referenciada uma das mais 
recentes áreas relacionada a este contexto, que é, a Web Semântica (4.3) 
como se pode ver nas Seções a seguir. 
4.1 Recuperação de Informações 
O termo IR (Information Retrieval ou Recuperação de Informação) 
foi criado por Calvin Moore em meados de 1948 e 1950, sendo um campo de 
pesquisa interdisciplinar, baseado em muitas áreas. Por sua abrangência ele 
não é muito bem compreendido, sendo, freqüentemente, abordado sob uma 
ou outra perspectiva. Ele está posicionado na junção de muitos campos já 
estabelecidos, tais como: Psicologia Cognitiva, Arquitetura da Informação, 
Projeto da Informação, Comportamento da Informação Humana, Lingüística, 
Semiótica, Ciência da Informação, Ciência da Computação, Biblioteconomia e 
Estatística [5]. 
A área de IR refere-se à classe de sistemas automáticos de recupera-ção 
de informação que permite encontrar documentos relevantes em virtude 
de uma necessidade de informação de um usuário. Em outras palavras, é a 
área da Ciência da Computação que preocupa com a seleção, num universo 
de documentos disponíveis, do conjunto de documentos relevantes para uma 
necessidade específica de informação do usuário. Nos últimos anos, a comuni-dade 
de pesquisadores está confrontada com um novo e estimulante desafio:
4.1 Recuperação de Informações 51 
a concepção e concretização de soluções para um espaço de informação gigan-tesco, 
dinâmico e heterogêneo como a Internet. 
Baeza-Yates [5] define formalmente modelos IR focando a abordagem 
quantitativa, como: 
Definição 11 (Modelos IR) Ummodelo de recuperação de informação é uma 
quádrupla [D,Q,F,R(qi, dj)] onde: 
1. D é um conjunto composto de visões lógicas (ou representações) para o 
documento na coleção; 
2. Q é um conjunto composto de visões lógicas (ou representações) para as 
necessidades de informações. Tais representações são conhecidas como 
consultas; 
3. F é um arcabouço para modelar representações de documentos, pergun-tas, 
e seus relacionamentos; 
4. R(qi, dj) é uma função de ranking que associa um número real com uma 
consulta qi 2 Q e uma representação do documento di 2 D. Tal ranking 
define uma ordenação entre os documentos no que diz respeito à consulta 
qi. 
Os modelos IR categorizam-se, na ótica das tarefas executadas pe-los 
usuários, em três classes, quais sejam: Pesquisa, Filtragem e Navegação. 
Dessa forma, a tarefa de Pesquisa é interativa mediante a necessidade de 
informação, que é esporádica e baseada em uma consulta. A Filtragem é ba-seada 
em configurações onde as necessidades de informações são de caráter 
permanente e baseadas em perfis de usuários. Finalmente, a Navegação é 
interativa onde a necessidade de informação é do tipo indefinida e a formula-ção 
é baseada no percurso [5]. Tais sistemas seguem modelos definidos para a 
sua construção, como se pode ver a seguir. 
4.1.1 Modelos de IR 
Os modelos de IR podem ser categorizados em quantitativos e dinâ-micos. 
Na taxonomia dos modelos quantitativos tem-se: os modelos clássicos, 
compostos pelos modelos booleanos, vetoriais e probabilísticos. No modelo bo-oleano, 
os documentos e as consultas são representados por conjuntos de ter-mos 
índices baseados na teoria de conjuntos. No modelo vetorial, documentos 
e consultas são representados como vetores em um espaço t-dimensional em
4.1 Recuperação de Informações 52 
um modelo algébrico. No modelo probabilístico, os documentos e as consultas 
são representados com base na teoria de probabilidade. 
No decorrer do tempo, modelos alternativos aos modelos clássicos fo-ram 
propostos. Foram propostas a teoria dos conjuntos difusos e o modelo 
booleano extendido. Foram propostas as abordagens algébricas: vetor gene-ralizado, 
indexação semântica latente e as redes neurais. Finalmente, foram 
propostas as abordagens probabilísticas: redes de inferência e redes de opi-nião. 
Entre os modelos IR categorizados como dinâmicos pode-se citar: 
os sistema especialistas, as redes neurais e os algoritmos genéticos. Uma 
das principais utilidades de tais modelos é a possibilidade de adaptação de 
interesses, ou seja, esta linha segue a abordagem orientada a usuários [54]. 
Independente do modelo tecnológico adotado é necessário realizar 
medições ou avaliações de resultados conforme se pode observar a seguir. 
4.1.2 Avaliação de Sistema IR 
Existe um conjunto substancial de métricas para a aferir a eficácia1 e 
eficiência2 de sistema IR. Cleverdon citado em [42] apresentou seis quantida-des 
mensuráveis para avaliar a competência de sistemas IR: 
1. A importância do corpus (coleção), ou seja, a relevância dos documentos 
de interesse para o conjunto de todos os usuários; 
2. A forma de apresentação de resultados; 
3. O esforço e tempo consumido pelos usuários para obtenção de respostas 
desejadas (sobrecarga de informação) [111]; 
4. O tempo de atraso (diferença entre o momento da solicitação e da 
resposta); 
5. A cobertura (proporção de material devolvido com relação ao relevante 
existente); 
6. A precisão3 (a proporção de material devolvido que é relevante); 
1Ser eficaz significa devolver respostas corretas. 
2Ser eficiente significa responder com rapidez de acordo com os recursos computacionais 
envolvidos. 
3Em engenharia, ciência, indústria e estatística, precisão é o grau de variação de resulta-dos 
de uma medição. Não é o mesmo que exatidão que se refere a conformidade com o valor 
real.
4.2 Lingüística Computacional 53 
Assim, os itens 1,2 e 3 se preocupam com a utilidade e facilidade de 
uso; o item 4 se preocupa com a eficiência e os itens 5 e 6 se preocupam com a 
eficácia, ou seja o correto funcionamento do sistema IR. De uma forma geral, 
admite-se que, quanto mais eficaz for o sistema, maior será a satisfação do 
usuário, ou seja, a idéia intuitiva é obter o máximo de documentos possíveis 
(máxima cobertura) mas com o mínimo de documentos irrelevantes (máxima 
precisão). 
A relação entre sistemas IR e as pesquisas relacionadas à descoberta 
de conhecimento se deve, principalmente, ao fato de que a área de IR busca 
por: utilidade, facilidade de uso, eficiência e eficácia na concepção de siste-mas 
IR atuando sobre documentos textuais. Estas atribuições carregam um 
alto nível de subjetividade que, certamente, poderá ser enriquecida com as 
técnicas de descoberta de conhecimento em texto (ou KDT - Knowledge Dis-covery 
from Text), principalmente, na introdução de técnicas de identificação 
de conceitos (conhecimento) na formação de termos índices agregando-lhes 
tratamento semântico. 
4.2 Lingüística Computacional 
A lingüística computacional é um campo interdisciplinar (ou multidis-ciplinar) 
para tratamento da língua natural com base em conhecimentos esta-tísticos 
e/ou com base em regras da linguagem (padrões lingüísticos) de uma 
perspectiva computacional. Pesquisas recentesmostramque a língua humana 
é muito mais complexa do que se pensou previamente, assim, os lingüistas 
computacionais trabalham freqüentemente como membros de equipes inter-disciplinares. 
Dentre estas disciplinas incluem-se os lingüistas (treinados especifi-camente 
nos conhecimentos da lingüística), os peritos da língua (pessoas com 
algum nível de habilidade nas línguas relevantes para um dado contexto) e de 
cientistas de computação. A lingüística computacional trabalha com a partici-pação 
dos lingüistas, dos cientistas de computação, dos peritos em inteligência 
artificial, de psicólogos cognitivos, matemáticos, dos lógicos, e outros. 
A Seção seguinte trata da subárea NLP (Natural Language Processing 
ou Processamento de Linguagem Natural).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).
SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).

More Related Content

Similar to SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).

Uma experiência sociocultural de ensino com o uso do Scratch para o estudo da...
Uma experiência sociocultural de ensino com o uso do Scratch para o estudo da...Uma experiência sociocultural de ensino com o uso do Scratch para o estudo da...
Uma experiência sociocultural de ensino com o uso do Scratch para o estudo da...hawbertt
 
Áreas interesse investigacão Francislê Sousa
Áreas interesse investigacão Francislê SousaÁreas interesse investigacão Francislê Sousa
Áreas interesse investigacão Francislê SousaLuis Pedro
 
A relevância das Tecnologias da Informação e da Comunicação para os estudos e...
A relevância das Tecnologias da Informação e da Comunicação para os estudos e...A relevância das Tecnologias da Informação e da Comunicação para os estudos e...
A relevância das Tecnologias da Informação e da Comunicação para os estudos e...Adriana Sales Zardini
 
Docentes do CCT e EAD
Docentes do CCT e EADDocentes do CCT e EAD
Docentes do CCT e EADAna Beatriz
 
1.5 educação digital carvalho neto
1.5   educação digital carvalho neto1.5   educação digital carvalho neto
1.5 educação digital carvalho netoandre barbosa
 
Apresentacao Oa Campinas Oeste
Apresentacao Oa Campinas OesteApresentacao Oa Campinas Oeste
Apresentacao Oa Campinas Oestetecampinasoeste
 
Apresentacao oa campinas_oeste
Apresentacao oa campinas_oesteApresentacao oa campinas_oeste
Apresentacao oa campinas_oestetecampinasoeste
 
9064-Texto do artigo-28160-1-10-20170912.pdf
9064-Texto do artigo-28160-1-10-20170912.pdf9064-Texto do artigo-28160-1-10-20170912.pdf
9064-Texto do artigo-28160-1-10-20170912.pdfDirceGrein
 
Gestao de documentos_e_arquivistica
Gestao de documentos_e_arquivisticaGestao de documentos_e_arquivistica
Gestao de documentos_e_arquivisticaRaimunda Sampaio
 
NA LINHA DO TEMPO, NAS ONDAS DAS TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO, COM...
NA LINHA DO TEMPO, NAS ONDAS DAS TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO, COM...NA LINHA DO TEMPO, NAS ONDAS DAS TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO, COM...
NA LINHA DO TEMPO, NAS ONDAS DAS TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO, COM...escolaeliseunarciso
 
Criatividade aplicada
Criatividade aplicadaCriatividade aplicada
Criatividade aplicadaDaiane Correa
 

Similar to SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese). (20)

Estruturas de dados
Estruturas de dadosEstruturas de dados
Estruturas de dados
 
Apresentação Bragança
Apresentação BragançaApresentação Bragança
Apresentação Bragança
 
O curso ntem
O curso ntemO curso ntem
O curso ntem
 
O povo novo enem
O povo novo enemO povo novo enem
O povo novo enem
 
Uma experiência sociocultural de ensino com o uso do Scratch para o estudo da...
Uma experiência sociocultural de ensino com o uso do Scratch para o estudo da...Uma experiência sociocultural de ensino com o uso do Scratch para o estudo da...
Uma experiência sociocultural de ensino com o uso do Scratch para o estudo da...
 
Áreas interesse investigacão Francislê Sousa
Áreas interesse investigacão Francislê SousaÁreas interesse investigacão Francislê Sousa
Áreas interesse investigacão Francislê Sousa
 
A relevância das Tecnologias da Informação e da Comunicação para os estudos e...
A relevância das Tecnologias da Informação e da Comunicação para os estudos e...A relevância das Tecnologias da Informação e da Comunicação para os estudos e...
A relevância das Tecnologias da Informação e da Comunicação para os estudos e...
 
Docentes do CCT e EAD
Docentes do CCT e EADDocentes do CCT e EAD
Docentes do CCT e EAD
 
Projeto final Proinfo
Projeto final ProinfoProjeto final Proinfo
Projeto final Proinfo
 
1.5 educação digital carvalho neto
1.5   educação digital carvalho neto1.5   educação digital carvalho neto
1.5 educação digital carvalho neto
 
Teorias Didáticas para Mobile Learning
Teorias Didáticas para Mobile LearningTeorias Didáticas para Mobile Learning
Teorias Didáticas para Mobile Learning
 
Apresentacao Oa Campinas Oeste
Apresentacao Oa Campinas OesteApresentacao Oa Campinas Oeste
Apresentacao Oa Campinas Oeste
 
Apresentacao oa campinas_oeste
Apresentacao oa campinas_oesteApresentacao oa campinas_oeste
Apresentacao oa campinas_oeste
 
02
0202
02
 
9064-Texto do artigo-28160-1-10-20170912.pdf
9064-Texto do artigo-28160-1-10-20170912.pdf9064-Texto do artigo-28160-1-10-20170912.pdf
9064-Texto do artigo-28160-1-10-20170912.pdf
 
Gestao de documentos_e_arquivistica
Gestao de documentos_e_arquivisticaGestao de documentos_e_arquivistica
Gestao de documentos_e_arquivistica
 
Ierp Programa Ressignificacão
Ierp Programa RessignificacãoIerp Programa Ressignificacão
Ierp Programa Ressignificacão
 
Fees2013 apresenta
Fees2013 apresentaFees2013 apresenta
Fees2013 apresenta
 
NA LINHA DO TEMPO, NAS ONDAS DAS TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO, COM...
NA LINHA DO TEMPO, NAS ONDAS DAS TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO, COM...NA LINHA DO TEMPO, NAS ONDAS DAS TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO, COM...
NA LINHA DO TEMPO, NAS ONDAS DAS TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO, COM...
 
Criatividade aplicada
Criatividade aplicadaCriatividade aplicada
Criatividade aplicada
 

SINAPSE - A Methodology for Extraction of Knowledge Objects Based on Textual Meaning for the Portuguese of Brazil (in Portuguese).

  • 1. UNIVERSIDADE FEDERAL DE GOIÁS INSTITUTO DE INFORMÁTICA JOSÉ MAURO DA SILVA SINAPSE Uma Metodologia para Extração de Conhecimentos em Objetos Textuais Baseada em Conceito para o Português do Brasil. Goiânia 2007
  • 2. JOSÉ MAURO DA SILVA SINAPSE Uma Metodologia para Extração de Conhecimentos em Objetos Textuais Baseada em Conceito para o Português do Brasil. Dissertação apresentada ao Programa de Pós– Graduação do Instituto de Informática da Universi-dade Federal de Goiás, como requisito parcial para obtenção do título de Mestre em Ciência da Compu-tação. Área de concentração: Ciência da Computação. Orientador: Prof. Dr. Cedric Luiz de Carvalho Co–Orientadora: Profa. Dra. Ana Paula Labois-sìere Ambrósio Goiânia 2007
  • 3. JOSÉ MAURO DA SILVA SINAPSE Uma Metodologia para Extração de Conhecimentos em Objetos Textuais Baseada em Conceito para o Português do Brasil. Dissertação defendida no Programa de Pós–Graduação do Ins-tituto de Informática da Universidade Federal de Goiás como requisito parcial para obtenção do título de Mestre em Ciên-cia da Computação, aprovada em 02 de Agosto de 2007, pela Banca Examinadora constituída pelos professores: Prof. Dr. Cedric Luiz de Carvalho Instituto de Informática – UFG Presidente da Banca Profa. Dra. Ana Paula Laboissìere Ambrósio Instituto de Informática – UFG Prof. Dr. Eduardo Simões de Albuquerque Instituto de Informática – UFG Prof. Dr. Ilmério Reis da Silva Universidade Federal de Uberlândia – UFU
  • 4. Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador(a). José Mauro da Silva Graduou-se e especializou-se em Ciência da Computação pela UFG - Universidade Federal de Goiás. No período de sua graduação, foi monitor no Instituto de Informática da UFG. Durante o Mestrado, propôs uma arquitetura conceitual para o Projeto DWeb e publicou artigo científico no congresso CollECTOR (Collaborative Eletronic Commerce Technology and Research) - Chile. Atualmente desen-volve pesquisas em Descoberta de Conhecimento em Texto, Gestão do Conhecimento e Web Semântica.
  • 5. Dedico este trabalho aos meus pais, José Clemente da Silva (in memoriam) e Orozita Batista da Silva, que apesar da origem humilde, souberam passar a todos os seus filhos os valores da sabedoria, honestidade, humildade e a fé em DEUS e Nossa Senhora Aparecida como proposta de luta pela vida.
  • 6. Agradecimentos Ao Instituto de Informática da UFG, pela utilização de suas depen-dências, e a todo o seu pessoal, sejam professores ou funcionários, sempre dispostos a cooperar e cujo contato foi indispensável para a minha formação acadêmica e para a vida. A Dataprev - Empresa de Tecnologia e Informações da Previdência Social, pela liberação de horário para estudos. Aos meus colegas de trabalho, que entenderam a minha difícil caminhada, fico grato pelo apoio. Aos professores Dr. Leandro Krug Wives (UFRGS) e Dra. Viviane Moreira Orengo (UFRGS), pelas inestimáveis informações que sedimentaram a base deste trabalho, respectivamente, sobre mapeamento de características textuais por conceito e o algoritmo RSLP. Aos Profs. Dr. Cedric Luiz de Carvalho e Dra. Ana Paula Laboissière Ambrósio, respectivamente, orientador e co-orientadora, pelas orientações. Aos meus colegas e amigos do mestrado que, assim como eu, tiveram um grande esforço em conseguir conciliar trabalho, estudo e família. Fico grato pela amizade, companheirismo e solidariedade nos momentos difíceis e nos momentos de alegria e descontração. Aos colegas e professores Ms. Edison A. M. Morais, Ms. Júnio César de Lima, Prof. Dr. Fábio Nogueira de Lucena (UFG) e Prof. D.Sc. Ricardo de Almeida Falbo (UFES), pelas ontologias e textos para realização de testes. Aos Profs. Dr. Eduardo Simões de Albuquerque e Ms. Marcio Greyck Batista Dias, pelas cartas de apresentação ao mestrado. Ao meu grande amigo Eng. de Computação Fernando Lemes Povoa, pelo apoio na materialização e enriquecimento de minhas idéias, ao qual, tenho especial estima e gratidão. A meus irmãos Helena Eloísa da Silva, Paulo Edison da Silva, Luís Carlos da Silva e demais parentes e amigos, pelos incentivos e paciência nas diversas ausências. A DEUS, por tudo.
  • 7. “A textura semântica da linguagem é hologramática à sua ma-neira: quando nos referimos ao dicionário de uma língua, vemos que uma palavra se define por outras palavras, que por sua vez se define por outras palavras, e, pouco a pouco, a definição de cada palavra implica em si a maior parte das palavras dessa língua. Se lermos um texto, a formação do sentido é um processo dialó-gico/ recorrente: as palavras mais usuais têm vários sentidos virtu-ais, e a precisão do sentido de uma palavra numa frase depende do sentido das palavras que fazem parte da mesma frase ou do mesmo discurso; o sentido destas diferentes palavras toma forma em fun-ção do sentido global da frase ou discurso, o qual toma forma em função do sentido particular das diferentes palavras. Assim, com-preendemos a frase a partir do sentido das palavras ao mesmo tempo que o sentido das palavras se cristaliza a partir do que emerge da frase [80].” Edgar Morin, La Mèthode 3. La Connaissance de la Connaissance/1.
  • 8. Resumo da Silva, José Mauro. SINAPSE. Goiânia, 2007. 182p. Dissertação de Mestrado. Instituto de Informática, Universidade Federal de Goiás. Nas últimas décadas, o grande avanço da ciência e tecnologia com suas in-venções, novos materiais, equipamentos e métodos gerou a necessidade de criação de novos termos ligados a diversas especialidades. Associado ao di-namismo científico-tecnológico e à dinâmica natural das línguas, tais termos sofrem constantes alterações nos seus significados, o que leva a dificuldades para nomear adequadamente esses avanços, bem como ao agravamento do problema da Gestão do Conhecimento. A disponibilização de objetos tex-tuais em organizações, através de instrumentos de comunicação escrita e, em especial, disponíveis na Web, possibilitou a construção de corpus eletrônicos de textos técnicos e científicos, propiciando assim a implementação de méto-dos de Extração Automática de Terminologias, os quais, têm sido de grande interesse dos pesquisadores de Processamento de Línguas Naturais. O obje-tivo desse projeto de mestrado foi propor: a) uma metodologia, através de um arcabouço computacional, direcionada para extração de unidades terminoló-gicas complexas presentes em corpora de domínio de conhecimento específico; b) baseado em conhecimentos estatísticos e lingüísticos, analisar estruturas textuais e a descobrir conhecimentos (conceitos) relevantes implícito nos mes-mos; c) organizar este dados em uma estrutura de Matriz Atributo x Valor, possibilitando seu pós-processamento, como por exemplo: agrupamento, inde-xação, visualização etc. Especificamente, foram analisados corpus de textos dos domínios: Jurídico, Computação, Agropecuário, Astronomia e Climatolo-gia. O método proposto emprega técnicas tradicionais, porém, com enfoque diferenciado e propõe dois métodos de determinação de importância baseado no grau de substantivação (absoluto e relativo) de conceitos. Palavras–chave Gestão do Conhecimento, Extração Automática de Terminologia, Des-coberta de Conhecimento em Texto.
  • 9. Abstract da Silva, José Mauro. SINAPSE. Goiânia, 2007. 182p. MSc. Disserta-tion. Instituto de Informática, Universidade Federal de Goiás. In the last decades, the great advance of science and technology brought into being countless inventions, as well as new materials, new equipments and methods, and consequently required (or demanded) the continuous cre-ation of new terms (neologisms) related to various specialities. According to the scientific-technological evolution of the languages, the meanings of those terms change continually making it difficult to name suitably the advances and hindering the Knowledge Management. The available textual objects in organizations through writing communication instruments, specially in the Web, have made it possible to work out electronic corpus of technical and sci-entific texts, and so introduced the possibility of elaborating Terminologies Automatic Extraction methods, of great interest for the Natural Language Processing researchers. The aim of this master degree projects is to propose: a) a methodology through a computational framework, turned to the complex terminological units extractions, from corpora of specific knowledge domain (or field); b) based on linguistic and statistic knowledge, to analyze textual structure and discovery significant concepts implicit in them; c) to organiza-tion them in an Attribute x Value Array form, so that they can be post-processed, as for example: clustering, indexing, visualization etc. Specifically was analyzed text corpus of the domain: Juridical, Computer Science, Tech-nical of Agriculture and Cattle Raising, Astronomy and Climatology. The pro-pose method uses traditional techniques but seen from a different point of view two methods of importance determination, based on concept level subs-tantivation (absolute and relative) are also proposal. Keywords Knowledge Management, Terminologies Automatic Extraction, Kno-wledge Discovery from Text
  • 10. Sumário Lista de Figuras 13 Lista de Tabelas 14 1 Introdução 15 1.1 Problemas 15 1.1.1 Problemas Específicos 19 1.1.2 Problema Pesquisado 20 1.2 Motivação 20 1.3 Hipótese 22 1.4 Objetivo 22 1.4.1 Objetivos Específicos 22 1.4.2 Restrições Relacionadas aos Objetivos 23 1.5 Metodologia de Estudo e Pesquisa 24 1.6 Organização da Dissertação 26 I Fundamentação Teórica 27 2 Gestão do Conhecimento 28 2.1 Visão Geral da Gestão do Conhecimento 28 2.2 Dado 30 2.3 Informação 31 2.3.1 Formalização do Processo de Comunicação 32 2.3.2 Comunicação Efetiva 33 2.3.3 Interferências no Processo de Comunicação 33 2.3.4 Informação Relevante 34 2.4 Uma Abordagem Epistemológica 35 2.5 Conhecimento 36 2.6 Teoria da Criação do Conhecimento Organizacional 37 2.7 Comunidades Virtuais de Prática - CoPs 39 3 Processo de Descoberta de Conhecimento 42 3.1 Descoberta de Conhecimento em Banco de Dados 42 3.1.1 Reconhecimento de Padrões 43 3.1.2 Tipos de Padrões Descobertos 44 3.1.3 Tipos de Fontes de Dados 45 3.2 Descoberta de Conhecimento em Texto 46
  • 11. 4 Pesquisas em Área Relacionadas 50 4.1 Recuperação de Informações 50 4.1.1 Modelos de IR 51 4.1.2 Avaliação de Sistema IR 52 4.2 Lingüística Computacional 53 4.2.1 Processamento de Linguagem Natural 54 4.2.2 Lingüística de Corpus 55 Etiquetagem 55 4.3 Web Semântica 57 4.3.1 A Inteligência 59 4.3.2 A Interoperabilidade 63 4.3.3 A Integração 63 5 Preparação de Corpus Textuais 65 5.1 Visão Geral da Preparação de Corpus Textuais 65 5.2 Pré-processamento do Texto 66 5.2.1 Itemização 67 5.2.2 Filtragem 69 5.2.3 Conflação 69 Lematização 70 Stemming 71 5.2.4 Seleção de Termos Índices 73 5.2.5 O Modelo de Espaço Vetorial 74 5.2.6 O Processamento Lingüístico 77 6 Métodos de Mineração de Texto 79 6.1 Classificação de Texto 79 6.1.1 Seleção de Termos Índices 81 6.1.2 Classificação Naive Bayes 81 6.1.3 Classificação Nearest Neighbor 82 6.1.4 Árvore de Decisão 83 6.1.5 Suport Vector Machines 83 6.2 Agrupamentos 84 6.3 Extração de Informações 85 6.3.1 Classificação Através de Extração de Informações 86 6.3.2 IE Através de Modelos Ocultos de Markov 86 6.3.3 IE Através de CRF 86 7 Pós-processamento do Texto 88 7.1 Pós-processamento do Texto 88 8 Extração de Características 91 8.1 Analisando “Conceitos” 91 8.2 Uma Visão Terminológica 94 8.3 Os Percursos Onomasiológico e Semasiológico 94
  • 12. 9 Pesquisas Relacionadas à Extração de Características 96 9.1 Análise das Pesquisas Relacionadas 96 9.2 Trabalhos Relacionados 97 9.3 Os Desafios Implícitos 108 II Desenvolvimento e Resultados 112 10 Projeto DWeb 113 10.1 O Projeto DWeb e a Web Semântica 113 10.1.1 Requisitos Para o Projeto DWeb 114 10.1.2 Princípios Básicos do Projeto DWeb 115 10.2 Serviços Básicos e Módulos DWeb 116 11 Protótipo Proposto 117 11.1 Uma Visão Gráfica do SINAPSE 118 11.2 Uma Visão Conceitual do SINAPSE 122 11.2.1 Classes Gramaticais Restritas 122 11.2.2 Estratégia de Solução 124 Identificação de Itens Lexicais 124 Identificação de Itens Terminológicos 125 Domínio de Conhecimento 128 Língua Portuguesa 129 Caráter Esquivo das Línguas 129 Seleção de Termos mais Importantes 130 Análise de Importância de Conceitos 131 Mecanismo de Cálculo do Índice de Importância de Conceito133 11.2.3 Processo de Descoberta de Conhecimento 136 11.2.4 Textos de Qualquer Tamanho 136 11.2.5 Mapeamento por Conceito 136 11.3 Metodologia SINAPSE 138 12 Resultados 145 12.1 Estratégias de Testes 145 12.2 Ferramentas de Testes 147 12.3 Estatísticas de Descoberta de Conhecimento 148 12.4 Estatísticas de Determinação da Importância do Conceitos 153 13 Conclusões 156 13.1 Possíveis Aplicações 157 13.2 Contribuições Específicas 159 13.2.1 Artigos Publicados como Autor ou Co-autor 160 13.3 Limitações deste Trabalho 161 13.4 Trabalhos Futuros 161 Referências Bibliográficas 163
  • 13. A Tabelas Stemming RSLP 173 A.1 Tabelas de Regras para Stemming: RSLP 173 B Memória de Cálculo 179 C Matriz Atributo x Valor 182
  • 14. Lista de Figuras 4.1 Arquitetura Padrão do W3C para a Web Semântica. [14] 58 4.2 Componentes da Inteligência, segundo Sternberg [92]. 60 4.3 Componentes de Agentes Racionais, segundo Russell e Nor-vig [91]. 61 11.1 Visão Gráfica de Alto Nível do SINAPSE. 119 11.2 Visão Gráfica da Metodologia SINAPSE. 120 11.3 Diagrama de classes do SINAPSE. 122 11.4 Estrutura dos Conceitos. 137 12.1 Comparativo Entre Stemming SINAPSE x RSLP. 148 12.2 Representação do Numérica do Texto Analisado. 149 12.3 Comparativo Conceitos Por Domínio. 150 12.4 Taxa de pertinência entre domínios cruzados. 151 12.5 Nível Geral de Indeterminação de Classes Gramaticais. 152 12.6 Grau de substantivação absoluta do conceito - ISA 154 12.7 Comparativo dos Índices ISA x ISR. 155
  • 15. Lista de Tabelas 4.1 Conjunto Mínimo de Etiquetas - Eagles 56 9.1 Ferramentas EAT por linha de pesquisa 109 9.2 Ferramentas EAT por Idioma de atuação 110 9.3 Ferramentas EAT e seus Níveis de Análise Lingüística. 110 9.4 Ferramentas EAT de Fundamentação Estatística 111 11.1 Matriz de Candidatos a Conceitos do SINAPSE 127 11.2 Ontologias Usadas no Teste do SINAPSE 128 11.3 Tabela de Exemplo de Índice ISA 144 A.1 Regras para a Redução do Plural 173 A.2 Regras para Redução do Feminino 174 A.3 Regras para a Redução do Advérbio 174 A.4 Regras para Redução Aumentativo-Diminutivo 174 A.5 Regras para Redução de Vogais 175 A.6 Regras para Redução de Substantivo 175 A.7 Regras para Redução de Substantivo (continuação) 176 A.8 Regras para Redução de Verbos 177 A.9 Regras para Redução de Verbos (Continuação) 178 B.1 Textos em Domínios Adequados 179 B.2 Textos em Domínios Cruzados 179 B.3 Somatório do Grau de Indeterminação 180 B.4 Índices de Substantivação ISA e ISR 180 B.5 Experimento Geral SINAPSE 181 C.1 Matriz Atributo x Valor : Segurança Computacional 182 C.2 Matriz Atributo x Valor : Aquecimento Global 182 C.3 Matriz Atributo x Valor : Corpos Celestes 183 C.4 Matriz Atributo x Valor : Aquecimento Global 183 C.5 Matriz Atributo x Valor : Doenças do Gado 183
  • 16. CAPÍTULO 1 Introdução Os ambientes atuais das organizações são caracterizados pelas incer-tezas, mudanças contínuas e necessidades de inovações. Além disso, os pro-blemas relacionados ao processo de globalização agrava ainda mais o cenário organizacional atual. Este aspecto dinâmico, força as organizações a se ade-quarem, em termos de estrutura e rotinas de trabalho, na busca por melhores práticas, idéias inovadoras, sinergias criativas e processos de descoberta; algo que, segundo alguns autores, não pode ser obtido da informação, por melhor que seja a sua gestão, e sim, pelo uso efetivo de conhecimento oriundo de di-versas fontes, sendo o mesmo considerado como uma vantagem competitiva e sustentável [38], [65]. Em meados dos anos 90 surgiu um novo melhoramento organizacional baseado no KM (Knowledge Management ou Gestão do Conhecimento), que é a confluência entre a área de Tecnologia da Informação e Administração. Ini-cialmente, KM foi visto como uma forma inovadora para a solucionar diversos problemas organizacionais, criando o que foi referenciada por Peter Drucker como “sociedade do conhecimento” [49], [81]. Entretanto, na prática, muito do que foi chamado de Knowledge Management não passou de IM (Information Management ou Gestão de Informações) [38], onde, os melhoramentos ficaram restritos à captura, codificação e armazenamento de informações [65], e, nes-tas iniciativas pode-se destacar a ocorrência de problemas, alguns dos quais são discutidos a seguir. 1.1 Problemas Nesta Seção, apresenta-se um conjunto de problemas relacionados a KM e observados nas áreas da Ciência da Computação, Comunicação e Gestão de Pessoas. • Na área de Ciência da Computação:
  • 17. 1.1 Problemas 16 – Problema da confusão entre dado, informação e conhecimento - no que diferem e o que significam - gerou iniciativas tecnológicas com resultados insatisfatórios. O sucesso ou fracasso organizacional muitas vezes pode depender de se saber de qual deles - dado, informação e conhecimento - se precisa, com qual se pode contar e o que se pode fazer com cada um deles, bem como entender o que são e o processo de transição entre cada um deles é essencial à realização bem sucedida do trabalho ligado ao conhecimento [38]; – Problema da diversidade de aplicações computacionais que execu-tam as mais diversas funções de negócio, sem considerar os aspec-tos interdisciplinares em alguns escopos de atuação. Pode-se citar o tratamento léxico, sintático, semântico e pragmático sobre os con-teúdos das informações que trafegam pelas mesmas, estudado em: lingüística computacional, processamento de linguagem natural e descoberta de conhecimento em texto, que visam, minimizar os pro-blemas do vocabulário [20]. Entre os quais, as ambigüidades que podem acontecer mediante a ocorrência de sinonímia1, homonímia2 etc. Tais problemas são bastante evidentes emsistemas CSCW3 [62] (Computer-Supported Cooperative Work ou Trabalho Cooperativo Suportado por Computador) [20]. – Problema da perda de conhecimento tácito utilizado nos diver-sos processos, atividades, procedimentos e tarefas organizacionais, quando da evasão de recursos de conhecimento, específicos de uma pessoa, sem o devido registro e controle [38], [81]; – Problema da arquitetura de algumas aplicações para KM, existen-tes no mercado, que focam os aspectos estáticos do conhecimento, ignorando os seus principais aspectos (dinâmicos), quais sejam: ex-periência, verdade fundamental, complexidade, normas práticas e intuição, discernimento, valores e crenças [38]; 1Problema relacionado ao fato de existirem diferentes palavras capazes de expressar a mesma idéia. 2Problemas relacionado ao fato de existirem palavras similares que expressam idéias ou objetos diferentes. 3De uma forma genérica, o CSCW é uma área científica interdisciplinar que estuda a forma como o trabalho em grupo pode ser suportado por tecnologias de informação e comunicação, de forma a melhorar o desempenho do grupo na execução das suas tarefas. O CSCW enquadra-se num domínio científico interdisciplinar, envolvendo diversas áreas científicas: Sistemas Distribuídos, Comunicação Multimídia, Telecomunicações, Ciência da Computação, Ciência da Informação, Psicologia, Percepção e Teoria Sócio-Organizacional.
  • 18. 1.1 Problemas 17 – Problema da ambigüidade terminológica, ocasionada pela falta de definição explícita de contexto nas aplicações computacionais [18]. O contexto ou domínio de conhecimento deve ser delimitado e es-pecificado de forma explícita, através de algum tipo de estrutura formal, de maneira a minimizar os problemas relacionados às am-bigüidades terminológicas [20]; – O problema da identificação e exploração de conhecimento tácito que pode comprometer o uso efetivo do conhecimento de forma completa (tácito e explícito) dentro da organização [81]; – O problema da não integração das aplicações em nível corporativo, crucial para ambientes organizacionais distribuídos, pois, podem acarretar diversas dificuldades no que tange aos aspectos gerenci-ais, em especial, os relacionados a KM; – O problema da manipulação semântica das informações transaci-onadas entre e através de aplicações computacionais que, na sua maioria, atinge, no máximo, o nível de tratamento léxico, ignorando os demais níveis de entendimento em atos comunicativos, quais se-jam, sintático, semântico e pragmático; – O problema da sobrecarga de informação4 [111] ocorrida durante a recuperação de informações armazenadas por falta de estrutura, organização e acesso aos conhecimentos, através de mecanismos que contemplem os aspectos semânticos que tal instrumento exige; • Na área de Comunicação: – Problema da captura e organização de conhecimento (tácito) [81], através de diversos instrumentos de comunicação escrita, quais se-jam: memorandos, ofícios, políticas empresariais, normas, instru-ções de procedimentos, pareceres, resoluções, bem como, ferramen-tas de comunicação eletrônicas tradicionais, quais sejam: e-mail5, 4A sobrecarga de informação se refere à dificuldade de selecionar informações relevantes em processos de busca em sistema IR [57]. 5Ferramenta de comunicação onde a informação é enviada imediatamente a uma ou mais pessoas, realizando a comunicação de acordo com a conveniência do remetente, permitindo ao receptor ler a mensagem quando e como achar mais conveniente, ou seja, trata-se de uma ferramenta de comunicação assíncrona.
  • 19. 1.1 Problemas 18 chat6, fórum7, brainstorming eletrônico8, etc. – Problema da diversidade de vocabulário organizacional, segundo alguns autores, no processo de interação9 homem e computador as pessoas tendem a usar termos diferentes para descrever conceitos similares o que pode acarretar entendimentos dúbios de certas situações; – Problema da retenção dos conhecimentos de pessoas em fase de aposentadoria e aposentáveis10 ou em processo de desligamento das organizações; – Problema do uso excessivo de papel e a dificuldade de manipulá-los em atos comunicativos; • Na área de Gestão de Pessoas: – Problema da dificuldade de acesso ao conhecimento de mais alta qualidade na organização; – Problema cultural e de poder em relação ao conhecimento organiza-cional; – Problema da captura dos fatores intangíveis do conhecimento, ou seja o know-how; – Problema do aprendizado organizacional; – Problema do preparo psicopedagógico para a transferência de co-nhecimentos organizacionais; – Problemas relacionados à escolha de ferramenta usuais de trans-ferência e registro do conhecimento (narrativas, mestre-aprendiz, CoP e mentoring11); 6Ferramenta de comunicação que vai desde um simples bate-papo, entrevista online até a transmissão de eventos e suporte ao cliente e se caracteriza por ser síncrona. 7Ferramenta de comunicação onde qualquer pessoa pode enviar sua contribuição e se comunicar com um grupo. Para a criação e envio de mensagens pode-se utilizar o correio eletrônico ou outras ferramentas para esse fim. Atualmente é uma das ferramentas de intranet mais usadas para colaboração e compartilhamento. 8O Brainstorming foi desenvolvido pelo publicitário Alex Osborn nos anos 40, foi rapida-mente incorporado na linguagem das empresas. Trata-se da mais conhecida técnica de gera-ção de idéias, notadamente eficaz, quando usada adequadamente, existindo na modalidade presencial ou eletrônica [68] 9refere-se as modalidades de comunicação síncrona e assíncrona. 10Refere-se as pessoas que estão aptas a requerer suas aponsentadorias. 11Refere-se a uma técnica utilizada em gestão do conhecimento para auxiliar na captura de conhencimento.
  • 20. 1.1 Problemas 19 – Problema da falta de conhecimento, bem como a redundância de esforços devido à esta falta de conhecimento; Este conjunto de problemas, que estão relacionados à Gestão do Co-nhecimento em ambientes organizacionais, em uma análise mais aprofun-dada, remete-se a um conjunto menor de problemas, porém, de abragência mais geral. Estes problemas mais abrangentes aponta para a investigação de processos de descoberta de conhecimento em textos, especificamente para o Português do Brasil, baseado em método(s) e/ou técnica(s) que aprimore(m) os métodos e técnicas atuais. Tais problemas podem ser observados na Seção (1.1.1), a seguir. 1.1.1 Problemas Específicos Castellví e outros [19], apresentam alguns problemas neste nível. Estes, observam que apesar dos estudos sobre automação de extração de terminologia, estes ainda apresentam os seguintes problemas: • Identificação de termos complexos, isto é, determinação de onde uma frase terminológica começa e onde termina; • Reconhecimento de termos complexos, isto é, decidir se os constituintes discursivos são uma frase terminológica ou uma unidade livre; • Identificação da natureza de uma unidade lexical, isto é, saber se uma unidade lexical em um texto especializado tem natureza terminológica ou é linguagem de uso geral; • Apropriar-se de uma unidade terminológica para obter o vocabulário (isto deve ser orientado para solução do ponto de vista de automação). Perini [87] aponta ainda, problemas relacionados à lingüística, afir-mando o seguinte: • Não existe critério seguro que permita saber, em certos casos, onde ter-mina umitemléxico e onde começa outro. Tal afirmação entra emconcor-dância com o primeiro item dos problemas relacionados anteriormente por Castellví [19]. Ainda segundo Perini, esse problema surge quando se tem casos de homonímia ou polissemia, observando que não se sabe como distingüir casos de polissemia de casos de homonímia. Por exem-plo: frente a uma forma como folha, como decidir se se trata de um item léxico com dois significados (polissemia) ou de dois itens léxicos que
  • 21. 1.2 Motivação 20 se pronunciam e escrevem da mesma maneira (homonímia). Ainda se-gundo ele, o léxico fica indefinido, implicando dessa forma, em dificulda-des de determinação de traços lingüísticos (algo que é necessário fazer para estabelecer a importância relativa das classes gramaticais das pa-lavras). Assim, pode-se resumir os problemas a serem tratados no âmbito desta dissertação conforme explanado na Seção (1.1.2), a seguir. 1.1.2 Problema Pesquisado Esta dissertação pretende tratar dos problemas relacionados à identi-ficação de itens lexicais que, por natureza, devem ser itens terminológicos de um domínio de conhecimento específico da língua portuguesa e, ao mesmo tempo, minimizar ou solucionar o caráter esquivo das línguas na seleção de termos mais importantes a serem utilizados para o processo de descoberta de conhecimento em textos de qualquer tamanho. Os problemas expostos nesta Seção (1.1) motivaram o conteúdo deste trabalho. 1.2 Motivação As organizações criam e manipulam grandes quantidades de infor-mações na forma de documentos, especificamente, informações codificadas na forma de textos. Segundo Tan [101], cerca de 80% das informações organi-zacionais, estão em formato textual. Estas informações são disponibilizadas (construídas) através de instrumentos de comunicação escrita, quais sejam: memorandos, ofícios, políticas empresariais, normas, instruções de procedi-mentos, pareceres jurídicos, resoluções, bem como, ferramentas de comuni-cação eletrônica tradicionais, também conhecidas como Sistemas de Mensa-gens12, quais sejam: e-mail, chat, fórum, brainstorming eletrônico, etc., tam-bém são constituídas por informações textuais. Assim, uma das motivações desta dissertação é a realização de tratamento computacional de informações neste formato (textual) cuja a fonte da informação seja os sistemas de mensa-gens organizacionais. 12Os Sistemas de Mensagens são processos de comunicação onde duas ou mais pessoas transmitem e/ou recebem mensagens através de um sistema completo ou parcialmente compartilhado de sinais, símbolos e comportamentos. Os sistemas mais modernos manipulam além de mensagens, gráficos, imagens, sons e vídeos, podendo ser síncronas ou assícronas.
  • 22. 1.2 Motivação 21 Outra motivação desta dissertação é contribuir para a construção do Projeto DWeb13 (detalhado na Seção 10.1). Neste caso, a motivação se dá na contribuição para materialização da arquitetura conceitual proposta em relatório técnico [98], a qual prevê a construção de um ambiente com suporte a KM baseado em CoPs, que tem como requisito fundamental o tratamento de mensagens textuais de forma a extrair conhecimento neles contido. Finalmente, a terceira motivação é contribuir através de desenvolvi-mento de técnicas de extração de características que gere uma Matriz Atri-buto x Valor (exemplos no Apêndice C). Esta matriz deve dar suporte a pós-processamento (como por exemplo: agrupamentos, indexação, visualiza-ção etc.) de documentos textuais para o Português do Brasil. A língua Portuguesa, originária do Latim, se origina da família das línguas Indo-européias14, e é falada atualmente em todos os continentes [33], [41]: • Europa: Portugal continental, arquipélago dos Açores e a ilha da Ma-deira; • África: arquipélago de Cabo Verde, ilha de São Tomé e Príncipe e, no continente, Angola, Guiné-Bissau e Moçambique; • Ásia: Goa, Damão, Dio, Ceilão e Macau; • Oceania: metade ocidental da ilha de Timor; • América: Brasil. Neste contexto, deve-se observar, que o Português é a quinta lingua-gem em número de falantes nativos no mundo, totalizando, conforme pesquisa recente, em torno de 210 milhões de falantes nativos e outros 15 milhões de pessoas que usa como segunda língua. Dessa forma, em relação à população mundial fica atrás apenas dos seguintes idiomas: Mandarim, Hindu, Inglês e Espanhol [104], [85]. Tais fatos justificam e motivam a orientação deste trabalho para este idioma. Além disso, conforme observado durante a pesquisa em relação ao tema proposto, existe uma carência substancial de tais técnicas para o Português. A grande maioria dos trabalhos são orientados para o Inglês e Francês (melhores detalhes na Seção 9) [35]. 13Refere-se a um projeto de pesquisa em andamento no INF/UFG. 14Como exemplo pode-se citar: Sânscrito, Armênio, Teutônico, Baltoeslávico, Celta, Grego e Latim.
  • 23. 1.3 Hipótese 22 Baseado nestas motivações, pode-se propor uma hipótese de pesquisa científica como se pode obervar a seguir. 1.3 Hipótese Esta dissertação pretende provar a seguinte hipótese no contexto, da língua portuguesa: É possível obter classes gramaticais restritas15 de palavras sem o uso de analizadores morfossintáticos16. Esta hipótese deve se orientar pelos objetivos desta dissertação, como se pode ver a seguir. 1.4 Objetivo O objetivo geral desta dissertação é: Desenvolver uma metodologia, baseada em conceitos, que aprimore qualitativamente e quantitativamente as técnicas atuais de obtenção de ve-tores característicos, para formação de uma Matriz Atributo x Valor dos conhecimentos descobertos em textos na língua portuguesa para domínios de conhecimento específicos. Observação: pode-se visualizar exemplos deMatriz Atributo x Valor no Apêndice C. 1.4.1 Objetivos Específicos Os objetivos específicos deste trabalho são: • Verificar a exeqüibilidade de algoritmos de Stemming como ferramenta de obtenção de classes gramaticais pela operação reversa de formação de palavras da língua portuguesa do Brasil; • Construir um framework17 direcionado para tratamento semântico de mensagens textuais visando a aquisição de conhecimentos tácitos em 15Refere-se as classes gramaticais: advérbio, substantivo e verbo. 16Também referênciados como analizadores gramaticais, POS (Part-of-speech ou Parte do Discurso) tagging. Refere-se à marcação da classe gramatical (substantivo, verbo, adjetivo etc) de cada palavra. 17“No desenvolvimento do software, um framework ou arcabouço é uma estrutura de suporte definida em que um outro projeto de software pode ser organizado e desenvolvido. Um framework pode incluir programas de suporte, bibliotecas de código, linguagens de script e outros softwares para ajudar a desenvolver e juntar diferentes componentes de um
  • 24. 1.4 Objetivo 23 ambientes organizacionais estruturados em CoPs (Comunidades Virtu-ais de Prática) e orientados para a Gestão do Conhecimento para a lín-gua portuguesa; • Organizar os conhecimentos descobertos em fontes textuais de informa-ções não estruturadas através de KR (Knowledge Representation ou Re-presentação do Conhecimento) [39] utilizando-se de técnicas ligadas à lingüística e à estatística, de forma a possibilitar posterior processamen-tos, quais sejam: agrupamento, indexação, visualização possibilitando acesso facilitado a tais conhecimentos, objetivando a sua estruturação para KM. Estes objetivos, possivelmente, implicarão em algumas restrições quanto ao framework em relação ao tipo de aplicação proposto como se pode ver a seguir. 1.4.2 Restrições Relacionadas aos Objetivos Os objetivos geral e específicos sofrerão algumas restrições devido aos tipos de aplicações computacionais que se beneficiarão dos serviços de descoberta de conhecimento emtexto providos pelo framework proposto. Entre os tipos de aplicação, propostos inicialmente, pode-se citar: chat, forum e e-mail. As restrições são as seguintes: • Tempo: todas as aplicações são de funcionamento em linha, onde, o tempo de resposta ao usuário é muito importante. Desta forma, as operações de pré-processamento deverão ser suficientemente rápidas para não comprometer a qualidade dos serviços prestados. Da mesma forma, as interações com os usuários devem ser bastante trabalhadas para não prejudicar o resultado final. • Tamanho: o Corpus18, em geral, poderá ser de pequeno tamanho. As-sim, a análise estatística fica limitada ao cálculo da quantia de vezes projeto de software. Frameworks são projetados com a intenção de facilitar o desenvolvimento de software, habilitando designers e programadores a gastarem tempo determinando as exigências do software do que com detalhes tediosos de baixo nível do sistema [102].” 18Segundo Sardinha [93], corpus é “um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua ou a ambos), sistematizados segundo determinados critérios, sufici-entemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal maneira que pos-sam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise.”
  • 25. 1.5 Metodologia de Estudo e Pesquisa 24 que os termos relevantes aparecem. Sendo este quantitativo um valor muito pequeno de palavras de um Corpus, que poderá gerar dificuldades quando da ocorrência de termos denominados Hapax Legomena19 [93]. • Lingüística: as operações relacionadas à análise lingüística devem ser limitadas em relação ao custo computacinal. Por exemplo: os níveis de análise morfológica, sintática, semântica e pragmático discursivo podem ser computacionalmente muito caros para este tipo de processamento. A busca pelos objetivos definidos (datalhados anteriormente na Seção 1.4) iniciou-se através de uma metodologia de estudo aprentada na Seção 1.5, a seguir. 1.5 Metodologia de Estudo e Pesquisa A metodologia de estudo foi realizada em duas partes. Inicialmente, realizou-se uma pesquisa na área de Web Semântica (foco inicial pretendido), que culminou na proposição de uma arquitetura conceitual para o Projeto DWeb [98] (detalhado na Seção 10.1). Nesta etapa, observou-se o carater inter-disciplinar da Web Semântica, ligando a esta conceitos como inteligência, interoperação e integração. Neste ponto, foi realizada uma extensa pes-quisa e leitura de bibliografia e documentos complementares, principalmente, nas sub-áreas: • Inteligência Artificial: – Agentes Racionais, Ontologias, Thesauros, Processamento de Lin-guagem Natural, Palavra, Significado, Contexto, Mineração de Texto, Mineração de Texto na Web, Extração de Conhecimento, Re-cuperação de Informações e Mecanismos de Busca de Informações. • Lingüística Computacional: – Corpus Lingüísticos, Tratamento de Ambigüidades e Atos de Fala. • Engenharia de Software: – Engenharia de Software Orientada a Agentes. • Banco de Dados: 19Hapax Legomena refere-se a termos pouco freqüêntes [93].
  • 26. 1.5 Metodologia de Estudo e Pesquisa 25 – Integração de Fontes Heterogêneas de Informações, Biblioteca Di-gital e Indexação Semântica de Informações. • Ciência da Informação: – Documento; • Comunidades Virtuais de Prática e Automação de Processos de Negócio. A segunda parte da pesquisa relaciona-se, especificamente, com os ob-jetivos desta dissertação, o qual, se buscou delinear o escopo através de pes-quisas adicionais, especificamente: KDD (Knowledge Discovery in Database ou Descoberta de Conhecimento em Banco de Dados), KDT (Knowledge Discovery from Text ou Descoberta de Conhecimento em Textos) (ambos de-talhados na Seção 3), Lingüística Computacional (detalhada na Seção 4.2) e Terminologia (detalhada na Seção 8). Após extensa pesquisa e leitura dessa bibliografia, obteve-se uma noção do estado da arte relativo ao tema proposto. Dessa forma, foram identificados os métodos, ferramentas e problemas ainda não solucionados. Assim, pressupõe-se que um dos problemas encontrados está relacionado à identificação e seleção de termos para representar documentos. Pode-se citar os seguintes exemplos: composição de termos índice em sistemas IR, composição de descritores em processos de agrupamento, composição de nós em processos de visualização através de grafos etc. Desta forma, pode-se obter alguma forma de otimizar este processo, principalmente, na fase de pré-processamento, que é composta de diversos sub-processos, o que, pode comprometer substancialmente os custos cumputacionais. Visando a construção do Projeto DWeb (detalhado na Seção 10.1), buscou-se a implementação de tratamentos de mensagens textuais, de forma a lhes agregar o processo de descoberta de conhecimento em seus conteúdos, bem como possibilitar a sua organização através da técnica de CA (Clustering Analisys ou Análise de Agrupamento), indexação, visualização, etc. Dessa ma-neira, visando atender um dos requisitos do Projeto DWeb [98], que é, Propi-ciar a gestão de conhecimento orientada a comunidades virtuais de prática [55]; (melhor detalhado na Seção 10.1.1), projetou-se um Protótipo com vistas a implementar e testar tais sub-processos. Finalmente, foram analisados os resultados da metodologia proposta e o texto desta dissertação foi elaborado e organizado conforme a estrutura apresentada a seguir.
  • 27. 1.6 Organização da Dissertação 26 1.6 Organização da Dissertação Este trabalho está estruturado em duas partes, onde: A Parte I trata da fundamentação teórica, onde se faz uma revisão bibliográfica sobre descoberta de conhecimento, a qual é a base para siste-mas de extração automática de terminologias. Dessa forma, esta Parte está estruturada nos seguintes Capítulos: Gestão do Conhecimento (2), Processo de Descoberta de Co-nhecimento (3), Pesquisas em Área Relacionadas (4), Preparação de Corpus Textuais (5), Métodos de Mineração de Texto (6), Pós-processamento do Texto (7), Extração de Características (8) e Pesqui-sas Relacionadas à Extração de Características (9). A Parte II é a partemais importante deste texto. Nela, são expostos os argumentos que irão sustentar e dar força à tese proposta e os resultados da pesquisa. Dessa forma, apresenta-se uma solução tecnológica adotada neste texto e está estruturada nos seguintes capítulos: Projeto DWeb (10), Protótipo Proposto (11), Resultados (12) e Conclusões (13).
  • 29. CAPÍTULO 2 Gestão do Conhecimento Neste Capítulo, é apresentada uma abordagem introdutória sobre Gestão do Conhecimento, focando especialmente em um conjunto básico de conceitos sobre processos de descoberta de conhecimento em objetos textu-ais. O Capítulo divide a exposição em cinco Seções, quais sejam, Visão Geral da Gestão do Conhecimento (2.1) Dado, Informação e Conhecimento (2.2), Uma Abordagem Epistemológica (2.4), Teoria da Criação do Co-nhecimento Organizacional (2.6) e Comunidades Virtuais de Prática - CoPs (2.7). 2.1 Visão Geral da Gestão do Conhecimento Nas últimas décadas do século XX, ocorreu uma profunda transfor-mação nos paradigmas econômicos mundiais. O velho preceito: terra, capital e trabalho cedeu lugar ao novo combustível da economia - o conhecimento [49], [81], [38]. Neste contexto, as organizações estão se conscientizando de que o potencial tecnológico não só pode incrementar o trabalho do conhe-cimento, como o fato de que esse potencial só poderá ser explorado se elas entenderem realmente como o conhecimento é desenvolvido e compartilhado [38]. O conhecimento começou a ser desenvolvido pelo homem desde a pré-história, o que é confirmado a partir de achados arqueológicos [44]. Porém, o seu compartilhamento só pôde ser melhor evidenciado a partir do advento da escrita, fenômeno revolucionário para as sociedades orais, em 3000 a.C. na Mesopotâmia, pelo povo babilônico [60]. Este compartilhamento foi potencializado, através de inovações tec-nológicas dos processos comunicativos, em especial, a partir da criação da imprensa por Gutenberg [49], que possibilitou a comunicação de “um para muitos” e que vigorou até o século XX [54].
  • 30. 2.1 Visão Geral da Gestão do Conhecimento 29 Atualmente, uma nova revolução surge com a comunicação de “mui-tos para muitos” ou de “todos para todos”, viabilizada pelos avanços tecnoló-gicos das últimas décadas, em especial a Internet, em particular a Web1, pos-sibilitando uma nova dimensão de comunicação, bem como um novo método de compartilhamento de conhecimento, disponibilizado por diversas fontes do saber humano. Como aprimoramento da Web atual, surge a Web Semântica (melhor detalhado na Seção 4.3), cuja proposta é possibilitar o entendimento semântico do ponto de vista do software, que apresenta-se como uma das mais recentes contribuições para este processo [15]. Apesar das evoluções dos processos comunicativos, as organizações têm encontrado dificuldades na busca por processos que minimizem ou re-solvam os problemas relacionados a KM (melhor detalhado na Seção 1.1), de forma a se manterem competitivas frente às inúmeras necessidades de inova-ção [38]. Segundo a APQC (acrônimo do termo em inglês, American Produc-tivity and Quality Center), citado em [71], o termo Gestão do Conhecimento pode ser definido da seguinte forma: Definição 1 (Gestão do Conhecimento) É um processo sistemático de co-nectar pessoas com pessoas, e pessoas com o conhecimento que elas precisam para agir eficazmente e criar novo conhecimento. As iniciativas de gestão do conhecimento visam melhorar o desempenho de uma organização e das pes-soas que nela trabalham, por meio da identificação, captura, validação e transferência de conhecimento. O objetivo não é simplesmente comparti-lhar conhecimento, embora este seja um subproduto valioso do processo. Um dos aspectos fundamentais relacionado a KM nas organizações é o tratamento dos documentos e dos fluxos informacionais que, em essência, transportam dados, informações e conhecimentos. Segundo Tan [101], cerca de 80% das informações organizacionais trafegam no formato textual. Assim, o tratamento computacional, aplicado sobre objetos textuais na busca por conhecimento em organizações, cria novos horizontes com relação a estes, tais como: identificação, preservação, aquizição, utilização, dissemina-ção, em fim, possibilita a minimização do problema da KM. Para que este objetivo organizacional aconteça é necessário criar me-canismos e processos que facilitem o manuseio do conhecimento, principal-mente, no que tange ao tratamento semântico dos objetos textuais que trans- 1Refere-se a versão multimídia da Internet.
  • 31. 2.2 Dado 30 portam os conhecimentos organizacionais. Para tanto, se faz necessário o en-tendimento acerca do conhecimento, bem como a distinção entre estes, dados e as informações, como se pode observar na Seção 2.2 a seguir. 2.2 Dado Para Valdemar Setzer, “dado” é uma seqüência de símbolos quantifi-cáveis. Nesta visão, um texto passa a ser um “dado”. Ele sugere ainda que a “informação” pode ser caracterizada mas não pode ser definida, declarando não ser possível processar “informação” diretamente em um computador sem que a mesma seja antes reduzida a “dado”. Finalmente, argumenta que “co-nhecimento” é uma abstração interior, pessoal, de alguma coisa que foi ex-perimentada por alguém. Nesta argumentação o conhecimento não pode ser descrito totalmente, mas, é possível conceituá-lo em termos de “informação” [95]. Pode-se observar, em [95], que existe a prevalença da visão epistemo-lógica do “realismo” de Aristóteles (melhor detalhada na Seção 2.4), na qual o conhecimento é fruto exclusivo da experimentação. Wives [111] argumenta que, do ponto de vista computacional, “dado” é tudo aquilo que é fornecido como entrada para ser processado, enquanto, “informação” é tudo que este processo retorna como saída. Dessa forma, não haveria distinção, em processos computacionais, para “dado”, “informação” ou “conhecimento”, onde cada um desses, assumindo o papel de entrada será denominado “dado”. Uma definição mais formal para “dado” pode ser encontrada em Da-venport [38] e Abel [2], onde se tem, repectivamente: Definição 2 (Dado - Davenport) “Dados são conjuntos de fatos distintos e objetivos, relativos a eventos [38].” Definição 3 (Dado - Abel) “Representação simbólica de um objeto ou infor-mação do domínio sem considerações de contexto, significado ou aplicação [2].” Nesta útlima definição se faz uso do termo “domínio” que é definido por Abel [2], como se segue: Definição 4 (Domínio - Abel) “Qualquer conjunto relativamente circuns-crito de atividades [2].”
  • 32. 2.3 Informação 31 Dessa maneira, o “dado” é objetivo e carece de significado de para transformá-los em “informações”, que é mais útil para o ser humano. Con-forme argumentado por Peter Drucker, citado em [38], informações são “dados dotados de pouca relevância”. Dessa forma, se faz necessária a agregação de valores, através de métodos especificados em Davenport [38], como se pode ver a seguir: • Contextualização: sabe-se qual a finalidade dos dados coletados. • Categorização: conhece-se as unidades de análise ou componentes essenciais dos dados. • Cálculo: os dados podem ser analisados matematicamente ou estatísti-camente. • Correção: os erros são eliminados dos dados. • Condensação: os dados podem ser resumidos para uma forma mais concisa. Assim, após a aplicação de um ou mais desses métodos pode-se obter a “informação”, que é melhor detalhada na Seção 2.3 a seguir. 2.3 Informação Nesta dissertação, umas das bases conceituais sobre “informação” é a visão na qual se ancora os modelos mecanicistas (ou físicos) de comunicação [97], oriundos da Teoria da Informação de Claude Shannon e outros [96] e citado em [54], que define informação como: Definição 5 (Informação - Claude Shannon) “O que acrescenta algo a uma representação [...] Recebemos informação quando o que conhecemos se modifica. Informação é aquilo que logicamente justifica alteração ou reforço de uma representação ou estado de coisas. As representações podem ser explíci-tas como num mapa ou proposição, ou implícitas como no estado de atividade orientada para um objetivo do receptor”. Nesta abordagem, o conceito de informação é visto como algo que um agente receptor recebe, através de uma mensagem, de um agente emissor em um processo de comunicação (melhor detalhado na Seção 2.3.1). E a sua medida de representatividade ou importância é dada pela entropia2 2Refere-se à importância de um dado termo em um domínio de conhecimento específico [66], oriundo da Teoria da Informação de Claude Shannon e outros [96].
  • 33. 2.3 Informação 32 (melhor detalhada na Seção 5.2.4), que define a medida da importância de uma palavra no contexto de um dado domínio [66]. Em contraposição ao modelo de Claude Shannon, Dretske citado em [81], argumenta que uma teoria genuína da informação seria uma teoria so-bre o conteúdo de mensagens, e não uma teoria sobre o modelo do qual esse conteúdo é incorporado. Nesta dissertação, busca-se a descoberta por conheci-mentos emmensagens textuais emprocessos comunicativos, embora passíveis de problemas3 (melhor detalhado na Seção 1.1), tais processos possibilitam uma forma de tratar estas mensagens em diversos níveis lingüísticos e/ou es-tatísticos. A informação é um fluxo de mensagens, enquanto o conhecimento é criado por esse próprio fluxo de informação, ancorado nas crenças e compro-missos de seu detentor. Assim, o conhecimento está relacionado com a ação humana [81]. O problema da comunicação entre os seres humanos trata do processo de transferência de informação entre estes e, dessa forma, tem uma forte re-lação de como esta tramita em processos comunicacionais. A formalização dos processos comunicativos, apresentados na Seção 2.3.1 e adaptado de Russell e Norvig [91], permite um melhor entendimento do conceito de informação, como se pode ver a seguir. 2.3.1 Formalização do Processo de Comunicação Definição 6 (Processo de Comunicação) Um evento de comunicação tí-pico, em um contexto O, é um conjunto de processos, onde um emissor E emite uma mensagem M usando palavras W, passando o pensamento P e a informa-ção I, de modo a informar o receptor R sobre algo. O contexto O delimita o escopo onde ocorre o evento de comunicação em termos de conhecimento de mundo do emissor CME e receptor CMR e suas respectivas ontogenias OE e OR. Os conhecimentos de mundo CME e CMR definem os conhecimentos de senso comum de cada participante do evento de comunicação. As ontogenias OE e OR, segundo Humberto Maturana [76], formam o conjunto de todas as modificações que o ser vivo é capaz de sofrer e que depende de sua estrutura inicial e condiciona suas interações com o meio. Em um dado evento de comunicação, o emissor E e o receptor R estão envolvidos nos seguintes processos: 3Refere-se a ocorrência de fenômenos durante atos comunicativos, como por exemplo, ambigüidade etc.
  • 34. 2.3 Informação 33 • Intenção: o emissor E decide que existe uma mensagem M a ser infor-mada ao receptor R. 2 ′• Geração: o emissor E codifica a mensagem M em uma forma (como por exemplo: vocal ou escrita) através de um canal C, de tal maneira que o receptor R possa, no contexto O, deduzir o significado ou algo próximo ao que deseja o emissor E. Neste processo de transmissão de mensagem, podem ocorrer ruídos K provocados por este canal C. • Síntese: o emissor E produz uma instância W’ das palavras W. • Percepção: o receptor R percebe a realização física de W’ como We a decodifica como W2. • Análise: o receptor R deduz que W2 tem significados possíveis S1, ..., Sn. O processo de análise se divide em: interpretação (análise) sintática, interpretação semântica e interpretação pragmática. • Eliminação de Ambigüidades: o receptor R deduz que o emissor E pretendia transmitir o significado Si (onde, i = 1, ..., n e o caso ideal é Si = M). Dessa forma, a comunicação funciona por que o receptor R faz o trabalho de concluir qual interpretação é aquela que o emissor E provavelmente pretendia transmitir. O termo “provavelmente” está relacionado ao fato de que as ambigüidades são inerentes ao processo de comunicação e que deve passar por algum processo de desambigüização. • Incorporação: o receptor R decide acreditar em Si (ou não), bem como percebe o pensamento P e a informação I do emissor E. 2.3.2 Comunicação Efetiva A comunicação efetiva ocorre quando a mensagem recebida W2 pelo receptor R é igual ou similar à mensagem M enviada pelo emissor E em sua forma original e com os seus atributos: pensamento P e informação I. 2.3.3 Interferências no Processo de Comunicação O processo de comunicação pode ser comprometido pela ocorrência de distorções que alterem o conteúdo da mensagem M. Estas distorções podem ocorrer devido a vários fatores. O primeiro fator é a ocorrência de ruídos K proveniente do canal C, os quais devem sofrer tratamento no sentido de minimizar as distorções finais da mensagem M.
  • 35. 2.3 Informação 34 Além disso, os conhecimentos de mundo do emissor CME podem ser diferentes dos conhecimentos de mundo do receptor CMR, o que pode acar-retar erros de interpretação semântica (sentido) e interpretação pragmática (contexto) durante o processo de comunicação. O ideal é que conhecimentos de mundo do emissor CME e do receptor CMR sejam iguais ou similares, refle-tindo um domínio de conhecimento único ou seja, o mesmo contexto. Em ou-tras palavras, o evento de comunicação, idealmente, deve utilizar uma única fonte de conhecimentos de senso comum. Um último caso que pode ocorrer e, provavelmente o mais difícil de se contornar os seus efeitos, são as discrepâncias naturais entre as ontogenias OE e OR. Como a maioria dos processos de comunicação construídos pelo ser humano ocorrem através de componentes genéricos, a individualização das experiências fica comprometida. Uma forma de solucionar, ou pelo menos minimizar o problema em eventos de comunicação, é através de processos com capacidades adaptativas e de individualização por meio do uso de perfis dos participantes emissor E e receptor R para cada contexto O. A busca por conhecimento em processos comunicativos deve, neces-sariamente, envolver os diversos paradigmas existentes, quais sejam: mode-los físicos, modelos psicológicos, modelos sociológicos, modelos antropológicos, modelos semiológicos e modelos sistêmicos [97]. Assim, é possível aproveitar as melhores características (ou número de variáveis que intervêm nessa fun-ção humana) de cada um, objetivando a aquisição do conhecimento. Dessa forma, tenta-se agregar valor à busca por informações, em especial, as infor-mações relevantes como se pode ver a seguir. 2.3.4 Informação Relevante Apesar da alta disponibilidade de informações naWeb atual, nem toda informação obtida em processos de busca são relevantes. Na busca por infor-mações, existem fatores que atuam para formar a “relevância das informa-ções” mediante necessidade de informação de um determinado usuário. Para Stefano Mizarro, citado em [111], informação relevante é aquela que o usuário precisa para satisfazer sua necessidade de informação em determinado momento. Ela deve estar no contexto e momento que o usuário necessita dela. Ou seja, o que é relevante em um determinado momento pode não ser em outro. Dessa forma, pode-se definir a relevância de uma informação como:
  • 36. 2.4 Uma Abordagem Epistemológica 35 Definição 7 (Informação Relevante) Seja InfRev um conjunto de infor-mações relevantes. Seja NI uma necessidade de informação definida por uma função e seus argumentos U, representando um usuário, O o contexto de uso e T o momento (tempo) de ocorrência da necessidade de informação, que é dada pela fórmula a seguir InfRev = NI(U,O, T). Um conjunto de informações relevantes cria as condições para a ob-tenção de conhecimentos. Uma abordagem sobre conhecimento, em uma visão epistemológica, é dada na Seção 2.4, a seguir. 2.4 Uma Abordagem Epistemológica A epistemologia estuda os fundamentos filosóficos do conhecimento. Neste contexto, Ikujiro Nonaka e Hirotaka Takeuchi [81], em relação a epis-temologia ocidental tradicional, enfatiza a natureza absoluta, estática e não humana do conhecimento. Esta epistemologia é baseada, normalmente, em proposições da lógica formal (como por exemplo, lógica de predicados de pri-meira ordem). Os referidos autores, argumentam ainda, que consideram o co-nhecimento como um processo humano dinâmico de justificar a crença pessoal com relação à verdade. Ainda segundo Ikujiro Nonaka e Hirotaka Takeuchi [81], a epistemo-logia ocidental pode ser particionada em duas correntes: racionalismo e em-pirismo. No racionalismo, a aquisição do conhecimento será através de ra-ciocínio dedutivo, da qual a Matemática é seu principal representante. Ela se caracteriza pela existência de conhecimento a priori. As suas argumentações se referem a conceitos, leis e teorias. Entre seus principais defesores, estão Platão (doutrina designada por idealismo) e Descartes. No empirismo, a aquisição do conhecimento será através de indução, via experiências sensoriais. Seu principal representante é a Ciência Expe-rimental. Suas argumentações se referem às experiências sensoriais. Entre seus principais defensores estão Aristóteles (doutrina que fundamenta o con-ceito de realismo.) e Locke [81]. Na visão empirista de Piaget, citado em [2], o conhecimento é oriundo das experiências tiradas do meio por estímulos sen-sórios sem uma organização interna. No contexto desta dissertação, a qual é direcionada para extração de conhecimentos em objetos textuais, quando se faz esta extração baseada em conhecimentos lingüísticos, os fundamentos epistemológicos também são particionados nestas duas correntes, como se pode ver a seguir.
  • 37. 2.5 Conhecimento 36 Assim como em outras áreas, a Lingüística também sofre influência de correntes epistemológicas distintas. Para Johns citado em [93], a Lingüística de Corpus trabalha dentro de um quadro conceitual voltado para a abordagem empirista e visualiza a linguagem como um sistema probabilístico. Neste contexto, a visão empírica é exercida pela primazia em relação aos dados, em geral, sob forma de corpus. Para McEnergy e outros, citado em [93], essa posição empirista se-gue um vertente contrária à corrente racionalista da linguagem, ou seja, de uma maneira geral o conhecimento provém de princípios estabelecidos a pri-ori. Nesta corrente, o estudo lingüístico fundamenta-se na introspecção como forma de verificar modelos de funcionamento da linguagem e seu processa-mento cognitivo. Os dois principais representantes da corrente empirista e da corrente racionalista na área de conhecimentos lingüísticos são, respectivamente, Hal-liday (probabilidade) e Noam Chomsky (possibilidade) [93]. No contexto desta dissertação, considera-se as duas visões filosóficas complementares e busca-se princípios de ambas na descoberta por conhecimentos em objetos textuais em organizações, como se pode ver na Seção 2.5 a seguir. 2.5 Conhecimento O conhecimento é o objeto da Gestão do Conhecimento e da Engenha-ria de Conhecimento que busca capturá-lo, muito embora, a compreensão do seu significado seja ainda controverso [2]. O conhecimento pode ser formalmente definido conforme se pode ob-servar em Davenport [38] e Fischler e Firschein, citados em [64], respectiva-mente: Definição 8 (Conhecimento - Davenport) “Conhecimento é uma mistura fluida de experiência condensada, valores, informação contextual e insigh ex-perimentado, a qual proporciona uma estrutura para a avaliação e incorpo-ração de novas experiências e informações. Ele tem origem e é aplicado na mente dos conhecedores. Nas organizações, ele costuma estar embutido não só em documentos ou repositórios, mas também em rotinas, processos, práticas e normas organizacionais.” Definição 9 (Conhecimento - Fischler e Firschein) “Conhecimento se re-fere à informação armazenada ou a modelos utilizados por uma pessoa ou
  • 38. 2.6 Teoria da Criação do Conhecimento Organizacional 37 máquina para interpretar, prever e responder apropriadamente ao mundo ex-terior.” Segundo Abel [2], o conhecimento possui um componente descritivo, ou estático, ou seja, como o ser humano identifica e organiza os conceitos no seu modelo mental (melhor compreendido pelos pesquisadores de Ciência da Congnição e Inteligência Artificial), e um componente dinâmico, que descreve como as descrições são aplicadas na solução de problemas, ainda permanece pobremente explicado. Além disso, pode-se classificá-lo de acordo como os tipos de informações com as quais constroem o corpo do conhecimento, quais sejam: conhecimento declarativo, procedural, semântico, episódico e meta-conhecimento. Nesta dissertação considera-se a teoria a seguir. 2.6 Teoria da Criação do Conhecimento Orga-nizacional A Teoria da Criação do Conhecimento Organizacional foi proposta por Ikujiro Nonaka e Hirotaka Takeuchi em [81]. Esta teoria é central para este trabalho e, devido a isto, esta Seção é inteiramente dedicada ao seu entendimento e na modelagem de uma estrutura conceitual para a Gestão do Conhecimento em organizações. Segundo esta teoria, a visão filosófica do ocidente, que é tratada pela divisão cartesiana sujeito (conhecedor) e objeto (conhecido), deu origem a uma visão de organização baseada unicamente no conhecimento explícito4, cuja única forma de criar conhecimento é através de processamento de informações de fora para dentro das organizações, não levando em consideração a criação de conhecimento organizacional de dentro para fora, que pode explicar a inovação, e possibilita a redefinição de problemas e soluções recriando o meio. Para explicar a inovação, esta teoria, define sua própria epistemolo-gia, a qual é centrada na distinção entre conhecimento tácito e explícito. Da mesma forma, para explicar o conhecimento organizacional, em oposição ao conhecimento individual, esta teoria cria a sua própria ontologia, preocupada com os níveis de criação de conhecimento (individual, grupal, organizaci-onal e interorganizacional). 4Refere-se ao conhecimento registrado em algum formato. Pode-se citar como exemplo, livros, artigos etc.
  • 39. 2.6 Teoria da Criação do Conhecimento Organizacional 38 Michael Polanyi - o primeiro filósofo a articular o conceito de conheci-mento tácito versus explícito [38] - citado em [81], distingue a categorização do conhecimento explícito e tácito. Assim, o conhecimento explícito é sistemati-zado, normalmente, em termos de palavras e números, podendo ser facilmente comunicado e compartilhado sob a forma de dados brutos, fórmulas científicas, procedimentos ou princípios codificados. Ainda segundo Polanyi, o conhecimento tácito é altamente pessoal e difícil de formalizar e articular, o que dificulta o seu compartilhamento. Pode-se citar: insights5 e palpites subjetivos. O conhecimento tácito possui um ele-mento técnico e um elemento cognitivo. O elemento técnico, abrange as habi-lidades capturadas como know-how. O elemento cognitivo, centra-se nos mo-delos mentais que são, modelos de mundo que os seres humanos estabelecem e manipulam através de analogias. São profundamente vinculados às ações e experiências (modelos mentais, esquemas, crenças e percepções) [81]. Este tipo de conhecimento modela a forma como se percebe o mundo. Na dimensão ontológica desta teoria, o conhecimento só é criado pelo indivíduo, porém, é ampliado na organização através de processos interativos que vai do nível indivídual, grupal, organizacional até o interorganizacional. Na dimensão epistemológica desta teoria, os conhecimentos tácitos e explícitos não são entidades separadas. O pressuposto desta teoria é que o conhecimento humano é criado e expandido desta interação social entre conhecimento tácito e explícito e particionado em quatro tipos de conversão: • Socialização: é o processo de compartilhamento de experiências atra-vés da conversão de conhecimento tácito em conhecimento tácito, como por exemplo, na interação mestre-aprendiz por meio da observação, imi-tação e prática. Esta conversão caracteriza-se pela dificuldade de um indivíduo se projetar no raciocínio de outro. • Externalização: é um processo de articulação do conhecimento tácito em conhecimento (conceito) explícito. Este processo permite a criação de conhecimento explicitado através de metáforas, analogias, conceitos, hipóteses e modelos. Para Emig, citado em [81], a escrita é uma forma de converter o conhecimento tácito em conhecimento explícito e, no contexto desta dissertação, é um ponto chave a ser tratado através de uma ferramenta de EAT - Extração Automática de Terminologia (melhor detalhado no Capítulo 11) na descoberta de conhecimentos. 5Refere-se ao know-how desenvolvido pelas pessoas.
  • 40. 2.7 Comunidades Virtuais de Prática - CoPs 39 • Combinação: é um processo de sistematização de conceitos em um sis-tema de conhecimento, envolvendo conjuntos diferentes de conhecimen-tos. Os indivíduos combinam e trocam conhecimentos através de do-cumentos, reuniões, conversas telefônicas e através de processos com-putacionais. Neste processo, em especial os computacionais, também é possível o uso de ferramenta EAT, principalmente em instrumentos de comunicação escrita de forma automatizada, durante o registro de in-formações textuais armazenadas em banco de dados, em ferramentas de comunicação eletrônica tradicionais (tais como, e-mail, chat, forum, brainstorming eletrônico, etc.). • Internalização: é o processo de incorporação do conhecimento ex-plícito em conhecimento tácito normalmente estimulado por alguma forma de treinamento. Esta internalização pode se dar através de mo-delos mentais ou know-how compartilhado, experiência através da so-cialização, externalização, combinação. Neste caso uma ferramenta de EAT ajuda, de forma indireta, quando da construção de bases de conhe-cimento explícito. Estes quatro tipos de conversão de conhecimento: socialização (co-nhecimento compartilhado), externalização (conhecimento conceitual), combi-nação (conhecimento sistêmico) e internalização (conhecimento operacional) através do tempo formam a denominada Espiral do Conhecimento. Nela, o conhecimento tácito constitui a base do conhecimento organizacional. O conhecimento tácito, através desses quatro modos (epistemológicamente6), nos diversos níveis (ontologicamente7), onde se parte, em uma Espiral do Conhecimento, no nível de indivíduo, seções, departamentos, organizações com o intuito de criar conhecimento organizacional. Neste caso, pode-se mode-lar tais agrupamentos através de Comunidades Virtuais de Prática, ou seja, CoPs, como se pode ver na Seção 2.7 a seguir. 2.7 Comunidades Virtuais de Prática - CoPs O termo CoPs (Communities of Practice ou Comunidades de Prática) foi cunhado em 1991 por Jean Lave e Etienne Wenger durante a exploração 6Refere-se aos quatro modos de conversão do conhecimento: Socialização, Externalização, Combinação e Internalização. 7Refere-se aos níveis individual, grupo, organização e interorganizações.
  • 41. 2.7 Comunidades Virtuais de Prática - CoPs 40 de aprendizado situado, que é o aprendizado através de práticas de trabalho [65]. Segundo Teixeira [55], o advento da Internet como meio de comuni-cação ágil, flexível e de baixo custo, foi o fato propulsor da adoção, em larga escala, das comunidades virtuais. Destaca ainda, que estes grupos foram or-ganizados utilizando-se das tecnologias de e-mail, chats e websites para se comunicarem, onde, profissionais de áreas específicas passaram a trocar in-formações relevantes sobre o seu dia-a-dia, ou seja, as suas melhores prá-ticas (tais como, experiências, histórias, ferramentas etc.) e as formas como estruturam seus processos, além de compartilhar soluções para seus proble-mas mais comuns [43]. Emuma CoP, os conceitos (como por exemplo, pessoas, artefatos, even-tos, etc.) e propriedades (como por exemplo, estilo, material etc.) com interes-ses comuns (como por exemplo, comércio, educação, cultura, medicina, compu-tação etc.) modelam os conhecimentos de uma comunicadade. Em ambientes organizacionais, pode ser visualizado como: indivíduo, grupo, organizações e interorganizações. Estas comunidades têm em comum alguma identificação e conheci-mentos formalizados (como por exemplo, ontologias etc.) que são utilizados para criar recursos de informação (ex: documentos, dados etc.) [22], [72], [16]. Tais informações explícitas e as ontologias modelam os conhecimentos ex-plícitos destas comunidades. A interação entre os conhecimentos tácitos e conhecimentos explícitos (conforme definido na Seção 2.6 anteriormente) criam a possibilidade de Gestão de Conhecimento organizacional. Para Etienne Wenger, citado em [65], o desenvolvimento e dissemi-nação de comunidades habilitadas para resolver problemas é dependente de um compartilhamento consistente de repertório de rotinas, gestos, artefatos, vocabalurário e entendimento de comunidade. Nesta dissertação, o vocabulário que participa da definição de uma CoP [98], é representado pelo vocabulário controlado, materializado através de ontologias escritas em OWL (melhor detalhado na Seção 4.3). Este con-junto estruturado de conhecimento representa a linguagem e um vocabulário controlado sobre o qual o processo de descoberta de conhecimento ocorre em objetos textuais na busca por compreendê-los. Para Edgar Morin [80], compreende-se uma frase a partir do sentido das palavras, ao mesmo tempo que o sentido das palavras se cristaliza a partir do que emerge da frase. Além disso, recorre-se ao contexto para esclarecer o sentido do texto através de uma dialógica recorrente: palavras, texto e
  • 42. 2.7 Comunidades Virtuais de Prática - CoPs 41 contexto. Ainda segundo Edgar Morin, a computação cerebral se desenvolve em um processo de análise (decomposição, isolamento e distinção), con-verge para a síntese (reunião, hierarquização, centralização e globalização), multiplicando-se pela linguagem [80]. Para Davenport [38], um aspecto importante para a transferência de conhecimento é a utilização de uma linguagem comum entre os participantes (denotando aqui os jargões técnicos ou termos técnicos especializados - melhor detalhado na Seção 8.2). Davenport argumenta ainda que uma das melhores formas de trans-ferir conhecimento tácito é através de narrativas (em linguagem natural, segundo Chen [20]), normalmente, expressas em formato textual escrito de-nominada história de guerra, disponibilizada para análise e compreenção dos conhecimentos registrados [38]. Assim, nesta dissertação procura-se pela descoberta de conhecimento em objetos textuais8 com a finalidade de subsidiar a Gestão do Conhecimento em ambientes organizacionais partindo-se de princípios apresentados neste Capítulo. No Capítulo 3, a seguir, apresentam-se conceitos e técnicas aplicá-veis a processos de descoberta de conhecimento. 8Instrumentos de comunicação escrita, quais sejam: memorandos, ofícios, políticas empre-sariais, normas, instruções de procedimentos, pareceres, resoluções, bem como, ferramentas de comunicação eletrônicas tradicionais, quais sejam: e-mail, chat, fórum, brainstorming ele-trônico, banco de idéias, etc.
  • 43. CAPÍTULO 3 Processo de Descoberta de Conhecimento Neste Capítulo, é apresentada uma revisão bibliográfica acerca de pesquisas relacionadas a processos de descoberta de conhecimento em meios computacionais. A exposição está dividida em duas Seções, quais sejam, Descoberta de Conhecimento em Banco de Dados (3.1) e Descoberta de Conhecimento em Textos (3.2). 3.1 Descoberta de Conhecimento em Banco de Dados A extração de conhecimento “escondido” em registros de DB (Data- Base ou Banco de Dados) é um problema comum em praticamente toda área de ciência, tanto em Engenharia quanto em Negócios, e é objeto de estudo central de disciplinas clássicas, como por exemplo a Estatística e o Aprendi-zado de Máquina. Uma grande quantidade de métodos de mineração têm sido desenvolvidos para resolver este tipo de problema [3]. Segundo Wives [112], a descoberta de conhecimento, na área de Ci-ência da Computação, surgiu na Inteligência Artificial, a qual, entre outros objetivos, se preocupava com a aquisição e armazenamento de conhecimento. Com o advento dos DBMS (Data Base Management System ou Siste-mas de Gerenciamento de Banco de Dados) [70], os pesquisadores de Sistemas de Informação, ou mais especificamente os pesquisadores em Banco de Dados, passaram a investigar novas formas de tratar informações armazenadas em bancos de dados. Assim, investiga-se maneiras de se obter informações implí-citas com base em informações explícitas, carecendo porém, de novos proces-sos para a sua obtenção e análise [111].
  • 44. 3.1 Descoberta de Conhecimento em Banco de Dados 43 Uma das técnicas oriundas das pesquisas em Bancos de Dados, na busca por informações implícitas, deu origem a novos processos e ferramentas que realizavam análises sobre os dados armazenados neste tipo de estrutura de dados. Dentre estas ferramentas, pode-se citar, as ferramentas OLAP (Online Analytical Processing ou Processamento Analítico On-line)1 e os conceitos de DW (Data Werehouses ou Armazéns de Dados)2 [112]. No topo desse processo de evolução tecnológica, em relação à área de Banco de Dados, se encontra o desenvolvimento da vertente referenciada como KDD (Knowledge Discovery from Database ou Descoberta de Conhecimento em Banco de Dados). O termo KDD, de acordo com Fayyad e outros [53], pode ser definido como: Definição 10 (KDD - Fayyad) KDD ou Descoberta de Conhecimento em Banco de Dados é o processo de identificação de padrões válidos, novos, po-tencialmente úteis e compreensíveis embutidos nos dados. Para que o processo de KDD possa ser iniciado, faz-se necessária a análise de objetos de Banco de Dados na busca por estes padrões. 3.1.1 Reconhecimento de Padrões Segundo Simon Haykin [64], os seres humanos são bons reconhecedo-res de padrões. Tal processo ocorre, na maioria das vezes, de forma impercep-tível e natural, como se pode observar nos cenários exemplificados a seguir: • Reconhecer um rosto familiar após envelhecimento; • Identificar uma pessoa pela voz em uma ligação telefônica ruim; • Distinguir o estado de um alimento pelo cheiro que exala. O reconhecimento de padrões é formalmente definido como o processo pelo qual um padrão/sinal recebido é atribuído a uma classe dentre um 1É uma abordagem tecnológica para gerar respostas rápidas a consultas analíticas de na-tureza tipicamente dimensional. A tecnologia OLAP é parte de uma categoria mais abran-gente, BI, que também inclui DW ou Data Warehouse, que por sua vez inclui ETC (Extração Transformação e Carga)) e Data Mining. Aplicações típicas de OLAP são relatórios de negó-cios, marketing, relatórios gerenciais, Business Performance Management (BPM), budgeting e previsão, relatórios financeiros e áreas similares [63]. 2O Data Warehouse possibilita a análise de grandes volumes de dados, coletados dos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros [63].
  • 45. 3.1 Descoberta de Conhecimento em Banco de Dados 44 número predeterminado de classes (categorias) [64]. Como se pode observar nos exemplos anteriores, onde, o rosto, a voz e o cheiro são atribuídos a classes (categorias) específicas que permitiram reconhecer a que padrões pertenciam, respectivamente, as classes: rosto familiar, uma pessoa e o estado (qualidade) do alimento. Apesar da aparente naturalidade e simplicidade com que o ser hu-mano reconhece padrões, a sua implementação emmeios computacionais pode requerer processos bastante complexos. Uma forma de realizar tais trata-mentos computacionais é através da utilização de técnicas de ARN (Artificial Neural Network ou Redes Neurais Artificiais)3. Uma ARN reconhece padrões passando inicialmente por uma etapa de treinamento. Nesta etapa, um conjunto de padrões de entrada é apresen-tado repetidamente à classe (categoria) à qual cada padrão pertence. Em uma segunda etapa, apresenta-se a ARN novos padrões não vistos anteriormente, mas que pertencem às categorias já apresentadas para que a ARN os classifi-que com base em métodos estatísticos. O reconhecimento de padrões somente representa conhecimento caso seja facilmente compreendido pelo ser humano, útil e novo. Em sistemas IR, são utilizados os seguintes tipos de padrões lingüís-ticos: palavra, prefixos, sufixos, substrings, expressões regulares e padrões extendidos [5]. No contexto desta dissertação, um padrão é um conjunto de características morfológicas que ocorre em um segmento de texto. O reconhecimento de padrões é utilizado em processos de mineração de dados, conforme se pode ver a seguir. 3.1.2 Tipos de Padrões Descobertos Segundo Han[63], as tarefas (funcionalidades) de DM (Data Mining ou Mineração de Dados) podem ser classificadas em: descritivas ou prediti-vas. As tarefas (funcionalidades) de mineração descritivas caracteriza as pro-priedades gerais de um DB (DataBase ou Banco de Dados). As tarefas (funci-onalidades) de mineração preditiva executa inferências sobre os dados atuais (correntes) de maneira a criar predições. As funcionalidades de DM e tipos de padrões são descritas a seguir: • Descrição Classe/Conceito: estas descrições podem ser derivadas de: 3Simon Haykin define uma rede neural é um processador paralelo e distribuído consti-tuído de unidades de processamento simples, que têm a propensão natural para armazenar conhecimento experimental e torná-lo disponível para uso [64].
  • 46. 3.1 Descoberta de Conhecimento em Banco de Dados 45 – caracterização de dados, através de sumarização originados de clas-ses alvo; – discriminação de classes alvo com um conjunto de classes compara-tivas; – caracterização e descriminação de dados. • Análise de Associação: é a descoberta de regras de associação mos-trando condições atributo-valor que freqüentemente estão juntas em grupos de dados; • Predição e Classificação: é o processo de encontrar um conjunto de modelos (ou funções) que descreve ou distingue classes ou conceitos, com o propósito de habilitar o uso de modelos para previsão de classes de objetos cujo rótulo da classe é desconhecido; • Análise de Agrupamentos: é um método capaz de analisar uma série de objetos com o objetivo de identificar correlações (semelhanças) e características comuns (similaridades) entre eles [111]; A descoberta de conhecimento utiliza-se da captura de padrões e pode ser aplicada a diversos tipos de fontes de dados, como se pode ver a seguir. 3.1.3 Tipos de Fontes de Dados Segundo Jiawei Han, as técnicas de DM podem ser aplicadas a qual-quer tipo de repositório de informação, sendo que, deve-se respeitar as dife-rentes particularidades de cada tipo de repositórios de informações [63], assim tem-se: • DBMS (Database Management System ou Sistema de Gerenciamento de Banco de Dados); • DW (Data Warehouses ou Armazéns de Dados); • TsDB (Transactional Database ou Banco de Dados Transacional); • OODB (Object-Oriented Databases ou Banco de Dados Orientados à Objetos); • ORDB (Object-Relational Databases ou Banco de Dados Objeto Relacio-nal); • SDB (Spatial Databases ou Banco de Dados Espacial); • TDB (Temporal Databases ou Banco de Dados Temporais);
  • 47. 3.2 Descoberta de Conhecimento em Texto 46 • TSDB (Time-Series Databases ou Banco de Dados de Séries Temporais); • TxDB (Text Databases ou Banco de Dados Textuais); • MDB (Multimedia Databases ou Banco de Dados Multimídia); • LDB (Lagacy Databases ou Banco de Dados Legado); • WWW (World Wide Web ou Teia de Amplitude Mundial); Como se pode observar é possível aplicar técnicas de KDD a diversos tipos de dados, entre os quais, os dados textuais. 3.2 Descoberta de Conhecimento em Texto Para Wives, com o advento e popularização da Internet e seus servi-ços, quais sejam: e-mails, chats, news-groups, páginas Web, iniciou-se uma geração de um grande contingente de informações não estruturadas e semi-estruturadas. A existência de tais corpora possibilitou o surgimento de uma nova área de descoberta de conhecimento intitulada: KDT (Knowledge Disco-very from Texts ou Descoberta de Conhecimento em Textos) [111]. Neste contexto, a descoberta de conhecimento apresenta-se como uma evolução da área de Recuperação de Informações, a qual teve como conseqüên-cia a área de Descoberta de Conhecimento em Textos. Dessa maneira, com estas tecnologias não se procura por informações nos textos, e sim, por conhe-cimentos úteis e novos. Ainda segundo Wives e outros [112], pode-se destacar as seguintes formas de descobertas de conhecimento em texto: • Descoberta tradicional após extração: nesta abordagem, os dados são extraídos dos textos e formatados em bases de dados estruturadas com o auxílio de técnicas de Extração de Informações; • Descoberta por extração de passagens: é uma técnica que se situa entre a Recuperação de Informações por Passagem e Extração de Informações; • Descoberta por análise lingüística: nesta abordagem as regras e infor-mações podem ser descobertas através de análises lingüísticas em nível léxico, morfológico, sintático e semântico; • Descoberta por análise de conteúdo: nesta abordagem investiga-se os textos e apresenta-se ao usuário informações sobre o seu conteúdo; • Descoberta por sumarização: nesta abordagem utiliza-se técnicas lingüísticas e extração por passagem para criar sumários;
  • 48. 3.2 Descoberta de Conhecimento em Texto 47 • Descoberta por associação entre passagens: este tipo de técnica busca encontrar automaticamente conhecimento e informações relacionadas no mesmo texto ou em textos diferentes; • Descoberta por lista de conceitos-chave: esta abordagem se baseia na idéia de que o significado de um texto não é determinado por sua leitura linear, mas sim, por uma análise do conjunto de elementos léxicos mais importantes (palavras-chave); • Descoberta de estruturas de textos: esta abordagem se baseia na deter-minação da estrutura do texto para entender o seu significado; • Descoberta por clustering (agrupamento ou aglomerados): procura-se separar automaticamente elementos em classes que são identificadas durante o processo (não há classes pré-definidas); • Descoberta por descrição de classes de textos: esta abordagem baseia-se no fato de se ter uma classe de documentos textuais (já agrupados) e uma categoria associada a esta classe, procura-se encontrar as principais características destas classes, as quais, possam identificá-las de forma que os usuários possam distingüí-las das demais classes; • Descoberta por recuperação de informações: nesta abordagem os siste-mas IR, em sua operação tradicional, contribuem para que os usuários aprendam novos conhecimentos; • Descoberta por associação entre textos: nesta abordagem procura-se relacionar as características presentes em vários textos diferentes; • Descoberta por associação entre características: nesta abordagem procura-se tipos de informações presentes em textos aplicando-se técni-cas de correlação estatística (KDD); • Descoberta por hipertextos: nesta abordagem, a descoberta é explorató-ria e experimental; • Descoberta por manipulação de formalismos: nesta abordagem, utiliza-se de manipulação simbólica para inferir novos conhecimentos; • Descoberta por combinação de representações: nesta abordagem os tex-tos antes de serem combinados, passam por um processo de representa-ção interna (dois textos); • Descoberta por comparação de modelos mentais: nesta abordagem, procura-se representar documentos textuais e o estado de conhecimento do usuário (modelo mental) através de um formalismo padrão, para, logo em seguida compará-los.
  • 49. 3.2 Descoberta de Conhecimento em Texto 48 A descoberta de conhecimentos em objetos textuais pode ser feita através do uso de conhecimentos lingüísticos, estatísticos ou ambos (melhor detalhado na Seção 9). O Aprendizado estatístico se insere num contexto cuja linha de pesquisa é chamada de empírica (melhor detalhado na Seção 2.4), uma vez que se baseia em exemplos já prontos e se aprende como lidar com aqueles ainda não vistos [17]. Para Loh e outros [74], a técnica de descoberta de conhecimento é importante para quem trabalha com um grande volume de informações, ajudando pessoas a descobrir conhecimento útil e novo, geralmente implícito, minimizando a sobrecarga de informações. Uma das formas de se descobrir conhecimento é baseando-se em conceitos (melhor detalhado na Seção 8), os quais evitam o problema do vocabulário, permitindo analisar dependências entre fenômenos do mundo real e não entre características do modelo de representação adotado. Os conceitos são extraídos dos textos através de algum método de classificação que analisa estatisticamente as palavras presentes nos textos, feito de forma automática desde que se disponha de alguma ontologia previamente definida [74]. O problema do vocabulário, segundo Hsinchun Chen [20], origina-se do fato de que as pessoas, em ambientes CSCW (Computer-Suported Cooperative Work ou Trabalho Cooperativo Suportado por Computador), ten-dem a usar diferentes termos para descrever um conceito similar dependendo de seus conhecimentos anteriores, treinamentos e experiências. Tais tendên-cias, estão relacionadas a problemas de HCI (Human-Computer Interactions ou Interação Humana por Computador). Esta pluraridade terminológica pode levar a problemas de intercâmbio de idéias, o que dificulta o compartilha-mento e comunicação de informações. Ainda segundo Chen, é necessária a criação de metodologias de inte-ração orientadas ao vocabulário. Ele argumenta a existências de estratégias, tais como, unlimited aliasing, proposto por Furnas e outros e dicionário de domínio específico proposto por Bates e citados em [20]. Assim, ele propõe uma solução para o problema do vocabulário4, uma abordagem baseada em conceitos. Nesta abordagem, ele apresenta o seguinte: • Identificação do Vocabulário: o mais popular meio de comunicação é através da linguagem natural. Assim, em colaborações em linha pode-se aproveitar as saídas textuais para revelar o vocabulário utilizado pelos 4Refere-se às diferenças de vocabulário em comunicações síncronas e assíncronas.
  • 50. 3.2 Descoberta de Conhecimento em Texto 49 diferentesmembros, bemcomo criar e compartilhar o espaço de conceitos com todos os membros dos grupos. Para tanto, utiliza-se de técnicas de Inteligência Artificial, especificamente, processamento em linguagem natural em um domínio de conhecimento específico. • Ligação de Similaridades do Vocabulário: indexação automática de textos baseada em conceito proveniente da técnica proposta por Salton, conhecida como VSM (Vector Space Model ou Modelo de Espaço Veto-rial.). Nesta técnica, identifica-se, tipicamente, a importância de termos através de cálculo de tf (term frequency ou freqüência de termo no docu-mento), df (document frequency ou freqüência do termo no conjunto de documentos.) e idf (inverse document frequency ou freqüência inversa do termo no conjunto de documentos, ou seja, os termos menos freqüentes nos documentos são os mais importantes.). Esta abordagem baseia-se na análise de agrupamentos e é uma extenção de SVM (melhor detalhado na Seção 6.1.5) para a geração do espaço de conceito. Os pesos estatísti-cos entre termos indica a sua forte relevância ou associação. • Atravessar o espaço do conceito: quando um membro encontrar um problema de vocabulário durante a colaboração, ele deve consultar, através de navegadores, o espaço de conceito e identificar o vocabulário relevante para uso. Dentre estas formas de descoberta de conhecimento, as técnicas de KDT, conhecimentos de Lingüística (melhor detalhado na Seção 4.2) e Termi-nologia (melhor detalhado na Seção 8), estruturadas de acordo com técnicas descritas no Capítulo (5), serão o objeto desta dissertação. De uma forma geral, as definições simplificadas apresentadas nesta Seção têm por finalidade disponibilizar um equacionamento do problema da compreensão do conhecimento, e desta forma, subsidiar e fornecer direções para o processamento do conhecimento através de mecanismos artificiais. Não é objetivo desta dissertação considerar todas as facetas de como os seres humanos percebem e organizam internamente a realidade e as utilizam na busca de solução de problemas. Para haver um melhor entendimento dos conceitos descritos o Capí-tulo 4, a seguir são descritas algumas pesquisas desenvolvidas ou em desen-volvimento em áreas relacionadas.
  • 51. CAPÍTULO 4 Pesquisas em Área Relacionadas Este Capítulo trata de um grupo de áreas (ou disciplinas) de conheci-mento que tem uma forte relação com a descoberta de conhecimento em texto, seja provendo ou recebendo subsídios tecnológicos (conhecimento). Inicia-se uma abordagem pela área de Recuperação de Informações (4.1), em se-guida, são também abordadas a área de Lingüística Computacional (4.2) com as suas subáreas: Processamento de Linguagem Natural (4.2.1) e Lingüística de Corpus (4.2.2). Finalmente, é referenciada uma das mais recentes áreas relacionada a este contexto, que é, a Web Semântica (4.3) como se pode ver nas Seções a seguir. 4.1 Recuperação de Informações O termo IR (Information Retrieval ou Recuperação de Informação) foi criado por Calvin Moore em meados de 1948 e 1950, sendo um campo de pesquisa interdisciplinar, baseado em muitas áreas. Por sua abrangência ele não é muito bem compreendido, sendo, freqüentemente, abordado sob uma ou outra perspectiva. Ele está posicionado na junção de muitos campos já estabelecidos, tais como: Psicologia Cognitiva, Arquitetura da Informação, Projeto da Informação, Comportamento da Informação Humana, Lingüística, Semiótica, Ciência da Informação, Ciência da Computação, Biblioteconomia e Estatística [5]. A área de IR refere-se à classe de sistemas automáticos de recupera-ção de informação que permite encontrar documentos relevantes em virtude de uma necessidade de informação de um usuário. Em outras palavras, é a área da Ciência da Computação que preocupa com a seleção, num universo de documentos disponíveis, do conjunto de documentos relevantes para uma necessidade específica de informação do usuário. Nos últimos anos, a comuni-dade de pesquisadores está confrontada com um novo e estimulante desafio:
  • 52. 4.1 Recuperação de Informações 51 a concepção e concretização de soluções para um espaço de informação gigan-tesco, dinâmico e heterogêneo como a Internet. Baeza-Yates [5] define formalmente modelos IR focando a abordagem quantitativa, como: Definição 11 (Modelos IR) Ummodelo de recuperação de informação é uma quádrupla [D,Q,F,R(qi, dj)] onde: 1. D é um conjunto composto de visões lógicas (ou representações) para o documento na coleção; 2. Q é um conjunto composto de visões lógicas (ou representações) para as necessidades de informações. Tais representações são conhecidas como consultas; 3. F é um arcabouço para modelar representações de documentos, pergun-tas, e seus relacionamentos; 4. R(qi, dj) é uma função de ranking que associa um número real com uma consulta qi 2 Q e uma representação do documento di 2 D. Tal ranking define uma ordenação entre os documentos no que diz respeito à consulta qi. Os modelos IR categorizam-se, na ótica das tarefas executadas pe-los usuários, em três classes, quais sejam: Pesquisa, Filtragem e Navegação. Dessa forma, a tarefa de Pesquisa é interativa mediante a necessidade de informação, que é esporádica e baseada em uma consulta. A Filtragem é ba-seada em configurações onde as necessidades de informações são de caráter permanente e baseadas em perfis de usuários. Finalmente, a Navegação é interativa onde a necessidade de informação é do tipo indefinida e a formula-ção é baseada no percurso [5]. Tais sistemas seguem modelos definidos para a sua construção, como se pode ver a seguir. 4.1.1 Modelos de IR Os modelos de IR podem ser categorizados em quantitativos e dinâ-micos. Na taxonomia dos modelos quantitativos tem-se: os modelos clássicos, compostos pelos modelos booleanos, vetoriais e probabilísticos. No modelo bo-oleano, os documentos e as consultas são representados por conjuntos de ter-mos índices baseados na teoria de conjuntos. No modelo vetorial, documentos e consultas são representados como vetores em um espaço t-dimensional em
  • 53. 4.1 Recuperação de Informações 52 um modelo algébrico. No modelo probabilístico, os documentos e as consultas são representados com base na teoria de probabilidade. No decorrer do tempo, modelos alternativos aos modelos clássicos fo-ram propostos. Foram propostas a teoria dos conjuntos difusos e o modelo booleano extendido. Foram propostas as abordagens algébricas: vetor gene-ralizado, indexação semântica latente e as redes neurais. Finalmente, foram propostas as abordagens probabilísticas: redes de inferência e redes de opi-nião. Entre os modelos IR categorizados como dinâmicos pode-se citar: os sistema especialistas, as redes neurais e os algoritmos genéticos. Uma das principais utilidades de tais modelos é a possibilidade de adaptação de interesses, ou seja, esta linha segue a abordagem orientada a usuários [54]. Independente do modelo tecnológico adotado é necessário realizar medições ou avaliações de resultados conforme se pode observar a seguir. 4.1.2 Avaliação de Sistema IR Existe um conjunto substancial de métricas para a aferir a eficácia1 e eficiência2 de sistema IR. Cleverdon citado em [42] apresentou seis quantida-des mensuráveis para avaliar a competência de sistemas IR: 1. A importância do corpus (coleção), ou seja, a relevância dos documentos de interesse para o conjunto de todos os usuários; 2. A forma de apresentação de resultados; 3. O esforço e tempo consumido pelos usuários para obtenção de respostas desejadas (sobrecarga de informação) [111]; 4. O tempo de atraso (diferença entre o momento da solicitação e da resposta); 5. A cobertura (proporção de material devolvido com relação ao relevante existente); 6. A precisão3 (a proporção de material devolvido que é relevante); 1Ser eficaz significa devolver respostas corretas. 2Ser eficiente significa responder com rapidez de acordo com os recursos computacionais envolvidos. 3Em engenharia, ciência, indústria e estatística, precisão é o grau de variação de resulta-dos de uma medição. Não é o mesmo que exatidão que se refere a conformidade com o valor real.
  • 54. 4.2 Lingüística Computacional 53 Assim, os itens 1,2 e 3 se preocupam com a utilidade e facilidade de uso; o item 4 se preocupa com a eficiência e os itens 5 e 6 se preocupam com a eficácia, ou seja o correto funcionamento do sistema IR. De uma forma geral, admite-se que, quanto mais eficaz for o sistema, maior será a satisfação do usuário, ou seja, a idéia intuitiva é obter o máximo de documentos possíveis (máxima cobertura) mas com o mínimo de documentos irrelevantes (máxima precisão). A relação entre sistemas IR e as pesquisas relacionadas à descoberta de conhecimento se deve, principalmente, ao fato de que a área de IR busca por: utilidade, facilidade de uso, eficiência e eficácia na concepção de siste-mas IR atuando sobre documentos textuais. Estas atribuições carregam um alto nível de subjetividade que, certamente, poderá ser enriquecida com as técnicas de descoberta de conhecimento em texto (ou KDT - Knowledge Dis-covery from Text), principalmente, na introdução de técnicas de identificação de conceitos (conhecimento) na formação de termos índices agregando-lhes tratamento semântico. 4.2 Lingüística Computacional A lingüística computacional é um campo interdisciplinar (ou multidis-ciplinar) para tratamento da língua natural com base em conhecimentos esta-tísticos e/ou com base em regras da linguagem (padrões lingüísticos) de uma perspectiva computacional. Pesquisas recentesmostramque a língua humana é muito mais complexa do que se pensou previamente, assim, os lingüistas computacionais trabalham freqüentemente como membros de equipes inter-disciplinares. Dentre estas disciplinas incluem-se os lingüistas (treinados especifi-camente nos conhecimentos da lingüística), os peritos da língua (pessoas com algum nível de habilidade nas línguas relevantes para um dado contexto) e de cientistas de computação. A lingüística computacional trabalha com a partici-pação dos lingüistas, dos cientistas de computação, dos peritos em inteligência artificial, de psicólogos cognitivos, matemáticos, dos lógicos, e outros. A Seção seguinte trata da subárea NLP (Natural Language Processing ou Processamento de Linguagem Natural).