SPSS Data Mining Tips

2,046 views
1,961 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,046
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
71
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

SPSS Data Mining Tips

  1. 1. 17-11-2005 SPSS Data Mining Tips Um guião para ajudá-lo a poupar tempo e dinheiro quando planeia e executa um projecto de data mining. Índice Introdução ................................................................ 2 Dicas gerais para data mining .................................. 3 Compreensão do problema ...................................... 4 Compreensão dos dados ………………………….. 5 Preparação dos dados .............................................. 5 Modelização ……………………………………… 6 Avaliação ................................................................. 7 Distribuição dos resultados ………………………. 7 Selecção de uma ferramenta de data mining ........... 7 Conclusão ................................................................ 8 A SPSS Inc .............................................................. 9 Os produtos SPSS .................................................... 9 Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 1 Refª SPClem05
  2. 2. 17-11-2005 Introdução Data mining e análise predictiva O data mining descobre padrões nos dados utilizando técnicas predictivas. Você está envolvido num projecto de data mining ? A análise predictiva combina estas técnicas Ou vai realizar o seu primeiro projecto ? Qualquer analíticas avançadas com a optimização do processo que seja o seu nível de experiência, o SPSS Data de decisão – ou seja, os resultados analíticos são Mining Tips ajudá-lo-á a planear e executar essa utilizados para determinar quais as acções que tarefa. produzirão maiores benefícios para a instituição. Estas recomendações, bem como toda a informação Utilize as dicas adiante apresentadas para poupar que as suportam, são disponibilizadas às pessoas e recursos – tempo e dinheiro – e obter resultados sistemas que decidem. mensuráveis. No decorrer da leitura verá símbolos que ajudá-lo- Em que é que o data mining é diferente de um ão a compreender melhor a informação deste guião. sistema OLAP ou de reporting de informação ? As ferramentas OLAP (online analýtical processing) e de reporting são importantes para compreender o Este símbolo indica um exemplo ilustrativo de uma que aconteceu no passado. Data mining é o processo dica em particular. para conhecer o que acontecerá no futuro. O data mining utiliza modelos predictivos, sejam estes Em caso de dúvidas sobre qualquer dos temas em estatísticos ou de auto aprendizagem (do tipo rede discussão neste documento contacte localmente a neuronal), para prever o que acontecerá. Por PSE ou visite o site www.spss.com. Temos ao seu exemplo, uma pesquisa de informação permite-nos dispôr diversos cursos de formação e programas de obter resultados sobre ‘o que vendemos no mês de consultoria técnica sobre a implementação de Janeiro do ano de 2005’; um quadro OLAP permite- projectos de data mining.. nos ir um pouco mais longe, ‘ saber também essa informação por família de produtos’; um projecto O que é o data mining ? data mining dir-nos-á quem terá maior propensão Data mining resolve um paradoxo muito comum – para comprar cada um dos nossos produtos no quantos mais dados (informação) temos, mais difícil próximo mês. E com base nesta informação e demorado é a sua análise. O que deveria ser uma poderemos construir uma campanha de marketing ‘mina’ permanece muitas vezes inexplorado devido com ofertas personalizadas para cada um dos à falta de recursos – sejam estes humanos, tempo ou segmentos identificados. conhecimento. O Data mining utiliza poderosas técnicas analíticas para rapidamente extrair valor de Em que é que o data mining é diferente da ‘montanhas’ de dados. estatística ? O data mining não substitui a estatística. De facto, a Que dados são utilizados no data mining ? estatística é um bom complemento dos projectos de Dependendo da sua ferramenta de data mining, o data mining. As técnicas estatísticas tradicionais, seu projecto pode incluir dados provenientes das como a regressão, são utilizadas a par das fontes mais diversas. De facto, os projectos de data tecnologias de data mining como é o caso das redes mining beneficiam da utilização de diferentes tipos neuronais. As estatísticas são muitas vezes de dados, sempre que cada um deles adiciona utilizadas para validar os resultados de data mining. informação preciosa ao objecto em análise. Tudo o que se relacione com informações sobre transacções Porquê usar o data mining ? guardadas em base de dados; com respostas contidas Quando dispõe de instrumentos fiáveis para num inquérito; com registos dos acessos a páginas projectar o futuro do seu negócio, Você tem o poder na internet; ou com informação textual, pode de tomar hoje as decisões correctas. O data mining contribuir para aumentar a qualidade dos resultados ajuda-o a gerir e actuar sobre a evolução do seu finais. Recentes avanços na tecnologia analítica negócio, porque lhe permite compreender melhor as originaram dois novos tipos de mining – text mining razões dos acontecimentos passados e presentes e e web mining. Estas duas tecnologias abrem novas projectar os cenários futuros mais previsíveis. Por formas de abordagem da informação ‘não exemplo, o data mining diz-lhe quais os prospects estruturada’ – sejam respostas de opinião a questões que têm mais probabilidade de se transformarem em abertas em inquéritos ou ficheiros de ‘log’ nos seus clientes e quais aqueles que têm mais servidores de sítios na internet – acrescentando propensão a responder à sua proposta de valor. Com informação valiosa sobre opiniões e preferências esta visão do futuro, aumenta o retorno do seu que dão a conhecer o ‘porquê’ de determinada acção investimento (ROI). As suas decisões basearam-se ou comportamento. numa visão de negócio e não num instinto ou num impulso. Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 2 Refª SPClem05
  3. 3. 17-11-2005 Que problemas poderão ser solucionados por um Dicas gerais para data mining projecto de data mining ? O data mining pode ser-lhe extremamente útil em Prepare-se para o sucesso qualquer actividade que envolva dados, por Siga a metodologia CRISP-DM exemplo: Utilizando o CRISP-DM como um guião de Aumentar vendas a clientes projecto, garante o seu sucesso. É crítico Conhecer segmentos de clientes e as suas desenvolver o projecto segundo uma metodologia preferências testada – as tecnologias complexas de data mining e Identificar os clientes mais rentáveis e criar os grandes volumes de dados disponíveis podem estratégias para retê-los sobrevalorizar-se num projecto em que as Adquirir novos clientes necessidades a prover não estão convictamente Aumentar a capacidade de cross-selling e de assimiladas pela equipa. up-selling Aumentar o ROI de campanhas de marketing, Comece com a mente focada nos ‘finalmente’ através de melhor identificação dos alvos Para ser capaz de mostrar o retorno (ROI, ganho, ..) Detectar situações de abuso, desperdício e do projecto, deve saber antes de começar como fraude serão avaliados os resultados (ou seja, que métricas Determinar riscos de crédito utilizar na sua medição ? Como calculá-las ? ). Aumentar a rentabilidade do seu sítio na Por exemplo, o nosso objectivo é reduzir a taxa de internet ‘churning’ (perda de clientes) de 70 para 60%. Monitorar a perfomance da sua actividade Como é que traduz esta informação em volume de receita recuperada (ou não perdida) ? Ou, quanto Como é que se implementa um projecto de data ganharia se em vez de atingir o objectivo de 60% mining ? atingisse 58% ? Os produtos de data mining SPSS – Clementine – e os serviços que lhe estão associados, asseguram-lhe Coloque as expectativas no sítio certo resultados fiáveis e mensuráveis porque se baseiam Tenha a certeza de que os responsáveis da sua numa metodologia de implementação conhecida por instituição sabem que o data mining não é uma CRISP-DM (Cross-Industry Standard Process for ´poção mágica’ que automaticamente resolve os Data Mining). Esta metodologia está estruturada em problemas. O data mining é um processo de torno de tarefas e objectivos para cada uma das negócio. E como tal tem que existir um problema fases do projecto de data mining. É uma resolúvel e trabalho para encontrar uma solução. metodologia não proprietária e adoptada por um consórcio internacional de empresas, em que se Se planeia segmentar clientes para qualquer acção inclui a SPSS Inc. do seu departamento de marketing, faça com que estes saibam qual o tipo de informação que vão A metodologia CRISP-DM inclui 6 fases: receber como resultado do projecto (por exemplo, Compreensão do problema – obter uma visão estamos a utilizar informação sobre os produtos e clara das necessidades a satisfazer; as características demográficas dos clientes, pelo Compreensão dos dados – determinar quais os que esperamos fornecer segmentos defenidos pela dados disponíveis (e onde se encontram) para idade, pelo rendimento, etc... e indicaremos qual o encontrar respostas; mix de produtos preferidos para cada um destes Preparação dos dados – Adaptar e formatar os segmentos de clientes). dados de forma apropriada às respostas a encontrar; Limite a abrangência do projecto inicial Modelização – criar modelos explicativos das Comece com objectivos realísticos e prazos necessidades a satisfazer; defenidos. À medida que vai tendo sucesso, passe Avaliação – testar os resultados encontrados para projectos mais complexos. contra os objectivos do projecto; Distribuição dos resultados – disponibilizar os Crie um grupo de apoio ao projecto resultados do projecto aos decisores. Um projecto de data mining é um esforço de grupo. Requer-se que os utilizadores finais estejam presentes porque eles conhecem os dados e as informações relevantes subjacentes ao problema. Mas também são necessárias pessoas que percebam o que é a análise de dados. E aqueles que permitem o acesso aos dados não podem faltar. Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 3 Refª SPClem05
  4. 4. 17-11-2005 Evite o bloqueio do projecto pelos dados Inventarie os recursos disponíveis e necessários ao Sempre, mas sempre, determine o problema a projecto solucionar; defina os objectivos a atingir e obtenha Liste adiantadamente todos os aspectos do projecto suporte. Se pura e simplesmente começar a analisar e assegure-se que tem tudo o que necessita para ter uma ‘montanha’ de dados sem qualquer estrutura de sucesso: projecto, o mais provável é que se perca nos dados e Pessoal (‘sponsor’ do projecto, técnicos esteja a perder tempo. conhecedores da actividade e da análise de Não deixe que o volume de dados dirija o seu dados) projecto. O foco é a solução do problema. Pode não Fontes de dados (em data-waherouses ou nas uitlizar todos os dados disponíveis – só alguns aplicações operacionais, mas acessíveis) poderão ser relevantes para o projecto. Pode até Recursos computacionais (computadores e mesmo descobrir que os dados que possui não são software específico de análise) suficientes para resolver o problema. Um grande volume de dados não é garantia de que tem os dados Quais são os requisitos do projecto correctos. Por exemplo, normalmente informação Liste todos os requisitos do projecto: recente é mais importante para caraterizar um Calendário de execução cliente do que todo o histórico da sua relação com a Segurança a implementar sua empresa. Restrições legais no acesso aos dados Formas de distribuição e apresentação dos Nas secções seguintes realçamos o que achamos resultados. importante em cada uma das fases da metodologia CRISP-DM. Se quiser obter informação mais Que pressupostos poram estabelecidos no projecto detalhada sobre esta metodologia visite o sítio na Liste e clarifique todos os pressupostos assumidos internet www.crisp-dm.org. sobre: Qualidade dos dados (disponibilidade e fiabilidade) Compreensão do problema Factores externos (envolvente económica, concorrentes, avanços tecnológicos) Saiba ‘quem, o quê, quando, onde, porquê e como’ Factores internos (o problema) na perspectiva do problema Modelos (restrições, descrições, apresentação) Compreenda detalhadamente todos os parâmetros do projecto – o enquadramento actual do problema; Sob que condicionalismos se fará o projecto ? o objectivo principal do projecto; os critérios que Verifique e crie soluções para: definem o sucesso e quem determinará se houve ou Restrições gerais (legais, orçamentais, de não sucesso no projecto. recursos, de tempo) Direiros de acesso aos dados (restrições, Defina a forma como os resultados serão entregues passwords necessários) Pense na forma como quer utilizar os resultados do Acessibilidade técnica aos dados (sistemas seu projecto: operativos, sistemas de gestão dos dados, Serão usados por especialistas a quem podem formatos de ficheiros e de bases de dados, ser fornecidos tal como obtidos ? permissões de acesso) Serão utilizados por diferentes tipos de Acessibilidade a conhecimento relevante utilizadores com necessidades diferentes de interpretação ? Elabore um plano de projecto Serão distribuídos por qualquer meio em Crie um plano que realçe as tarefas a executar para particular (em papel, por ficheiros, atingir os objectivos do projecto de data mining e electronicamente, ...) que requeira um formato encontrar a solução desejada para o problema. específico ? Defina a forma de manutenção do projecto Como fará a gestão dos dados uma vez terminado o projecto ? Se o projecto é parte de um processo de gestão contínuo, será que: Os dados serão analisados periodicamente ? Novos dados serão analisados em tempo real ? Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 4 Refª SPClem05
  5. 5. 17-11-2005 Compreensão dos dados Preparação dos dados Assegure-se que os dados estão disponíveis Seleccione os dados a utilizar Disponha de todos os dados que necessitará para o Decida sobre quais os dados a utilizar na análise e seu projecto. Se tiverem origem em mais que uma liste as razões das suas decisões. Podem ser: fonte, assegure-se que a sua ferramenta de data Níveis de significância e testes de correlação mining tem capacidades para integrá-los. que determinaram a inclusão de variáveis Condicionantes da selecção de subconjuntos de Os dados com origem no seu sítio internet podem dados ser valiosos para o seu projecto. Utilize uma Técnicas de amostragem utilizadas para ver a ferramenta de web mining para integrá-los no seu adequadabilidade dos dados projecto de data mining. Decida se certos atributos são mais importantes que Os dados com origem em inquéritos de opinião outros e pondere-os de forma adequada. podem acrescentar informação importante sobre características e atitudes dos indivíduos nos seus Para aumentar a fiabilidade dos modelos, veja os modelos. benefícios de incluir neles informação não estruturada e que pode não estar disponível nas Mais de 80 por cento da informação relevante pode bases de dados da sua instituição. Por exemplo, estar incluida em documentos texto não será que a informação que recolheu no inquérito de estruturados. Utilize uma ferramenta de text mining satisfação aos seus clientes é importante para o seu para integrá-los no seu projecto de data mining. projecto de retenção de clientes ? Descreva os dados Melhore a qualidade dos dados Obtenha uma fotografia de todos os dados Para obter resultados fiáveis, perca agora tempo a recolhendo a informação descritiva de formatos, de corrigir os erros detectados nos dados aquando da variáveis (ou campos), de número de registos e de avaliação da sua qualidade. Pode ter que realizar as variáveis e de toda as características julgadas seguintes actividades: relevantes. Determinar como lidar com elementos Assegure-se que os dados escolhidos são os que anormais – valores em falta; valores extremos; melhor representem o problema que pretende ou outras anomalias próprias dos dados analisar. Fixar regras de codificação de valores. Por exemplo, será que o ano deve ser sempre Experimente algumas técnicas exploratórias de referenciado com quatro dígitos (2005) ou só dados e avalie a sua qualidade com dois (05) ? Seja com ferramentas de data mining ou de análise estatística, o conhecimento exploratório dos dados Algumas variáveis podem ser irrelevantes para os ajudar-lhe-á a tomar decisões sobre a qualidade dos nossos objectivos actuais e não necessitam de ser dados. limpos. Registe estas acções executadas porque Para prevenir futuros problemas, elabore um plano mais tarde pode ter que reaproveitá-los no projecto. de solução de qualquer erro detectado nos dados: Será que o nome das variáveis estão conformes Disponha de uma ferramenta flexível para estas com os valores que contêm? operações Há valores em falta ? A sua ferramenta de data mining deve dispôr de Há valores duplicados? funcionalidades para preparação dos dados de Há dispersão elevada nos valores de acordo com os requisitos do projecto. Deve ter a determinada variável ? Qual a sua causa ? possibilidade de adicionar ou criar novas variáveis a Existe correlação elevada entre variáveis ? É partir das existentes nas fontes de dados. esperada e conhecida ? Relembre-se que o data mining é um processo de descoberta – é impossível saber à priori para onde Reveja variáveis que conjugadas contêm os dados nos levam. informação errada e que o senso comum detecta de imediato (por exemplo, homens grávidos) Determine se é necessário criar novas variáveis Pode ser necessário criar novas variáveis a partir dos Exclua qualquer dado não relevante (por exemplo, dados existentes pelas seguintes razões: se estamos a analisar comportamentos de Devido à experiência anterior ou ao automobilistas, excluimos todos aqueles que não conhecimento da actividade, sabemos que um têm carta de condução) atributo (variável) em particular é importante na construção do modelo; Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 5 Refª SPClem05
  6. 6. 17-11-2005 O algoritmo a utilizar só manipula certos tipos Teste antes de criar o modelo de variáveis, pelo que pode ser necessário Antes de criar o modelo explicativo, teste a recodificar dados caso essas variáveis sejam qualidade e validade das técnicas que planeia importantes e os seus formatos não estejam de utilizar. Crie um desenho de teste que inclua um acordo com os pressupostos técnicos; conjunto de dados para treino; outro para testes e Os resultados obtidos demonstram que os outro para validação dos resultados. A partir do modelos criados a partir dos dados originais conjunto de treino crie o seu modelo e certifique a não são analiticamente interessantes ou fiáveis. sua qualidade com o conjunto de dados para teste. Antes de criar novas variáveis avalie se e como Construa o seu modelo serão importantes para o processo de modelização. Para criar o seu modelo, execute a sua ferramenta de modelização no conjunto de dados que preparou. Consolide a informação agregando dados. Descreva os resultados e confirme a sua fiabilidade Ao juntar informação de diferentes fontes (ficheiros e adequabilidade à realidade. ou bases de dados) pode ter que criar novas variáveis e/ou agregar valores com significado Elabore um memorando detalhado sobre o modelo, similar. assinalando as regras produzidas, a definição de parâmetros feita, o seu comportamento e a sua Assegure-se que a sua ferramenta de data mining forma de interpretação. pode combinar diferentes tipos de dados provenientes de diferentes fontes e sem ter que criar Utilize a indução para produzir uma regra rotinas informáticas caras e demoradas. Regras são no essencial parâmetros a que os dados devem obedecer para serem considerados num Será que as técnicas analíticas requerem uma ordem modelo. Normalmente têm o formato condicional ‘If específica nos dados a tratar ? ... Then’. A sua ferramenta de data mining deve ter a A indução permite-lhe escolher automaticamente possibilidade de ordenar os dados consoante os quais as regras mais efectivas para obter um requisitos técnicos do procedimento analítico. resultado específico. Por exemplo, utilize a indução para criar um conjunto de regras para qualificar o Deverão os dados estar balanceados ? risco de um empréstimo: A técnica analítica pode requerer partições de dados Se empregado há mais de 2 anos, então o risco em grupos de igual dimensão. A sua ferramenta de é baixo; data mining deve permiti-lo. Se maior que 30 anos, o risco é baixo; Se alguma vez no passado entrou em incumprimento no pagamento das prestações, o Modelização seu risco é elevado. Seleccione as técnicas analíticas a utilizar As técnicas de clustering são boas para: Para analisar os seus dados com o procedimento Encontrar grupos naturais de observações adequado, verifique quais os pressupostos que cada (individuos) que têm as mesmas características - por técnica impõe sobre formato e qualidade dos dados. exemplo, detecte situações de fraude com técnicas Nalguns casos, só um procedimento poderá ser de clustering porque encontrará grupos semelhantes apropriado para abordar o problema. Tenha a de comportamento na utilização do cartão de crédito certeza que considera: (e este foi o factor importante para a fraude). Quais os procedimentos são mais apropriados para o seu problema As regras de associação são boas para: Se existem alguns requisitos prévios Basket analysis – descubra quais os produtos que (expectativas da gestão, interpretação dos têm maior probabilidade de serem comprados em resultados) conjunto. Utilize esta informação para melhorar a Se existem algumas restrições (estranhas sua capacidade de cross-selling através de catálogo características dos dados, conhecimento ou por técnicas de merchandising na sua loja. técnico dos analistas, tempo de execução) De forma a que tenha a técnica mais apropriada para cada modelo ou para cada problema, escolha uma ferramenta de data mining que lhe disponibilize um conjunto alargado de técnicas analíticas. Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 6 Refª SPClem05
  7. 7. 17-11-2005 Avaliação Produza um relatório final Dependendo da forma como planeou distribuir os Avalie os resultados do projecto de data mining resultados, o relatório pode ser ou um sumário de Determine se e como os resultados de cada modelo todo o projecto ou uma apresentação final dos serão úteis como solução do problema. Existe resultados obtidos. Ao fazê-lo: alguma razão para que o modelo explicativo Identifique os meios a utilizar encontrado seja deficiente ? Analise a aderência dos resultados aos objectivos iniciais do projecto Se dispuser de tempo e recursos, tente testá-los com Identifique os receptores do relatório aplicações reais do dia a dia. Sublinhe a estrutura e conteúdo do relatório Inclua todos os pontos importantes do projecto. Reveja todas as etapas do processo até agora Ao confirmar a qualidade dos seus resultados, reveja Reveja todo o projecto todo o trabalho feito no projecto para detectar se Finalmente tem a oportunidade de identificar o que alguma fase foi esquecida ou se informação correu bem, o que correu mal e o que é necessário importante não foi considerada: corrigir em futuros projectos. Não se esqueça de: Retrospectivamente, cada etapa feita foi Entrevistar todos os elementos da equipa de necessária ? projecto e conhecer a sua opinião; Cada uma delas foi executada tal como Entrevistar os utilizadores finais envolvidos e previsto ? saber como avaliam os resultados; Documentar e analisar todas as acções Determine as próximas etapas realizadas em cada fase do projecto. Chegou o momento de determinar se o projecto tem Fazer recomendações para projectos futuros. o sucesso suficiente para passarmos à apresentação dos resultados. Se não, faça trabalho adicional para encontrar resultados satisfatórios. Tenha sempre em Selecção de uma ferramenta de data mining mente: As dicas apresentadas nesta secção são excertos do O potencial interesse de cada resultado manual CRISP-DM, no capítulo que se refere a Como pode melhorar o processo ‘Performing a data mining tool evaluation’. Se existem recursos para trabalho adicional Procure uma ferramenta utilizada em projectos idênticos ao seu Distribuição dos resultados Escolha uma ferramenta que saiba ser utilizada no seu sector de actividade ou que tenha um conjunto Crie um plano de distribuição dos resultados conhecido de referências em projectos semelhantes Aceites os resultados do projecto, decida qual a ao seu. melhor forma de aportá-los à solução: Faça uma descrição sucinta dos modelos e Seleccione uma ferramente que faça a ponte entre a resultados obtidos; metodologia e a capacidade técnica do data mining Avalie as diferentes formas de apresentação Assegure-se que a estrutura da ferramenta vai de disponíveis; encontro às suas necessidades não só no que se Confirme a sua viabilidade e identifique refere à qualidade e quantidade de procedimentos possíveis problemas; analíticos que inclui, mas também quanto ao Determine como monitorizará o uso dos controlo metodológico de todo o projecto: resultados e medirá os benefícios. Os conceitos de data mining estão facilmente perceptíveis na ferramenta ? Monitorize a aplicação dos resultados Integra-se com software de gestão de projectos Assegure-se que os resultados produzidos são ou outras ferramentas que Você utiliza ? Se utilizados correctamente e esteja atento a factores não, como é feita essa integração ? como: O que é que se poderá alterar no futuro e que A sua ferramenta deve utilizar transparentemente as influencie directamente a qualidade dos suas fontes de dados e os seus formatos resultados ? Poupará tempo e dinheiro, e maximizará as Como é que se controlará a eficiência dos probabilidades de obter resultados fiáveis, se a sua resultados ? ferramenta de data mining for capaz de utilizar e Quando, se necessário, se deve interrromper o importar dados provenientes de várias fontes e em uso dos resultados ? vários formatos. Tal é particularmente importante, se em fases posteriores do projecto pretendermos adicionar novos dados de uma nova fonte. Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 7 Refª SPClem05
  8. 8. 17-11-2005 Uma ferramenta de data mining que lhe permita resolução de outros problemas. A ferramenta a combinar dados estruturados ou não (por exemplo, escolher deve adaptar-se a qualquer tipo de projecto informação sobre atitudes e comportamentos de data mining em vez de ser desenhada para uma provenientes de inquéritos), aumentará a aplicação específica. probabilidade de termos melhores resultados no projecto. Quais as capacidades de apresentação e de distribuição dos resultados que a ferramenta dispõe? Disponha de capacidades interactivas de exploração É crítico dispôr de uma ferramenta que lhe permita e de visualização integrar os resultados obtidos nos seus sistemas É mais fácil explorar os dados se a ferramenta operacionais do dia a dia – agora e no futuro. Saiba incluir técnicas interactivas de visualização. Estas se essa integração é fácil ou se requer investimentos técnicas permitem-nos aumentar a capacidade de adicionais. decisão e de informação porque podemos alterar de imediato os gráficos e as dimensões de visualização Avalie os potenciais custos de propriedade que nos são apresentadas. associados à ferramenta escolhida Para cada ferramenta em análise, analise o seu Disponha de funcionalidades de preparação e retorno (ROI): manipulação dos dados fáceis de utilizar Qual será o seu custo adicional para além da Se as tarefas de preparação dos dados forem fáceis aquisição – inclua aqui os serviços de de executar, técnicos com diferentes níveis de manutenção ou custos de renovação anual de conhecimento poderão participar nesta fase de licenças de software. Quando obterá um ROI extrema importância para o projecto e, positivo ? potencialmente, de trabalho intensivo. Quando tempo demorará a implementar a sua ferramenta de data mining ? Está desenhada A sua ferramente deve importar e extrair dados para especialistas ou pode ser utilizada por automaticamente técnicos com múltiplas formações ? Quais os Evite programar queries, por vezes complexas e custos de formação envolvidos agora e no demoradas, escolhendo uma ferramenta que extrai futuro ? automaticamente os dados nas diferentes actividades A ferramenta é customizável para utilizadores de preparação dos dados. ou aplicações em particular ? Pode automatizar tarefas rotineiras ? Pode criar um modelo eficiente e rapidamente ? Procure uma ferramenta que permita aos analistas encontrar rapidamente os melhores modelos. A Conclusão ferramenta deve incluir funcionalidades técnicas Este documento tocou de forma muito sucinta num para construção e teste de múltiplos modelos. número de temas que deve ter em mente sempre que planeia e realiza um projecto de data mining. Escolha uma ferramenta com um largo espectro de técnicas Outros tópicos relacionados com este tema estão Para obter os melhores resultados, assegure-se que a para além dos objectivos deste documento. sua ferramenta dispõe de múltiplas técnicas e algoritmos para visaulização, classificação, Se quiser explorar ou estudar com mais detalhe clustering, associação e regressão. A ferramenta algum dos tópicos agora abordados, recomendamos também deve ser capaz de combinar diferentes a consulta de livros especializados sobre data técnicas sempre com o objectivo de produzir os mining. Outro meio que está ao seu dispôr é melhores resultados. frequentar uma acção de formação sobre a utilização dos produtos SPSS para data mining. Consulte-nos e A ferramenta escolhida utiliza os seus recursos teremos todo o gosto em colaborar consigo. informáticos actuais Escolha uma ferramenta que utiliza os seus dados tal Muito obrigado pela sua atenção. como eles existem na sua organização, qualquer que seja o sistema de base de dados ou de ficheiros. Caso contrário pode ser necessário afectar novos ♦ recursos ao seu projecto de data mining. Escolha uma ferramenta que lhe garanta bons resultados Com o sucesso do seu projecto de data mining vai querer replicar a utilização deste processo na Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 8 Refª SPClem05
  9. 9. 17-11-2005 A SPSS Inc. Os produtos SPSS A SPSS Inc. é uma empresa lider mundial no Na SPSS dispomos de uma vasta gama de produtos fornecimento de soluções analíticas predictivas. A que lhe permitem construir um sistema flexível para sua tecnologia melhora o processo de tomada de análise da sua informação. decisão ao dar às organizações um maior controlo sobre a qualidade das decisões diárias. Uma Data mining organização torna-se predictiva quando incorpora esta tecnologia analítica nas suas operações diárias – AnswerTree - Software para detecção de segmentos está apta a encontrar soluções para os seus e projecção da sua resposta a impulsos, por problemas de gestão e obter vantagens comparativas utilização de árvores de decisão. mensuráveis. Clementine - Software para data mining que Muitas instituições, em Portugal e no Mundo, incorpora no seu processo todo o seu conhecimento utilizam-na para aumentar o rendimento, diminuir do problema a analisar. A família de produtos os custos, melhorar processos e detectar e prevenir a Clementine inclui: fraude. A SPSS Inc. foi fundada em 1968 em Clementine Application Templates (CATs) Chicago (EUA) e é representada em Portugal desde que são ‘streams’ pré-construidas para 1994 pela PSE – Produtos e Serviços de Estatística, resolução de problemas específicos. Podem ser Lda. aplicados directamente sobre os seus dados para obter resultados imediatos, ou utilizados O que nos torna únicos como base de customização do seu próprio Há mais de 35 anos que a SPSS lida com tecnologia problema. analítica. Os nossos clientes escolheram-nos por Text Mining for Clementine para extracção múltiplas razões: de conceitos e relações em dados não Uma visão integral, a 360º O software SPSS estruturados e sua conversão em formatos permite-lhe desenvolver uma cultura estruturados para inclusão no Clementine. empresarial baseada no conhecimento, porque Web Mining for Clementine para fácil conjuga todo o tipo de informação – dados transformação dos logs web em eventos para estruturados e dados não estruturados – para análise no Clementine obter uma visão de 360º; SPSS Predictive Enterprise Services que Integramo-nos facilmente com outros centraliza e organiza os modelos e os processos sistemas operacionais As tecnologias que estiveram associados a cada um dos analíticas SPSS estão desenhadas para serem projectos. autónomas na sua função ou serem integradas Cleo que disponibiliza via Web aplicações que com tecnologias de outros construtores; permitem aos gestores utilizar os modelos A arquitectura do software é aberta e predictivos criados no Clementine. conforme os padrões da indústria O software SPSS incorpora os padrões da indústria como é Análise Predictiva o caso do OLE DB para acesso a dados; XMLA para partilha de dados e formatos; Predictive Analytic Applications Aplicações que PMML para partilha de modelos predictivos; entregam recomendações em tempo real a sistemas SSL para gestão da segurança na Internet e e decisores pela combinação de avançadas técnicas LDAP/Active Directory Services para analíticas e de optimização de decisões. A SPSS autenticação e autorização, só para nomear dispõe das seguintes soluções: alguns. PredictiveCallCenter transforma chamadas de O retorno mais rápido no seu investimento clientes ‘inbound’ em oportunidades de venda. em software De acordo com um estudo recente PredictiveClaims aumenta a satisfação dos da empresa Nucleus Research, 94 % dos clientes e reduz a fraude nos pedidos de clientes SPSS obtiveram um retorno positivo participação financeira dos seguros. do seu investimento num período médio de PredictiveMarketing gera mais lucro nas 10,7 meses. campanhas de marketing ‘outbound’. Um baixo custo total de propriedade A PredictiveWebSite transforma as visitas ao tecnologia SPSS está desenhada para trabalhar seu sítio na web em oportunidades de venda. com a sua infraestrutura tecnológica e mantemos os custos de propriedade baixos no curto e longo prazo porque temos opções de licenciamento muito flexíveis. Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 9 Refª SPClem05
  10. 10. 17-11-2005 Análise estatística SPSS for Windows é o software de análise estatística de dados com maior reconhecimento no mercado. A partir de um módulo principal – SPSS Base System – pode criar a sua própria solução analítica adicionando-lhe técnicas consoante a sua necessidade. DecisionTime software para criação de modelos previsionais de séries temporais e análise de cenários alternativos de previsão. Amos software para modelização de equações estruturais que completa a oferta SPSS em métodos de análise multivariada. Permite a construção de modelos que reflectem realisticamente as relações complexas entre variáveis. Smartviewer Web Server software para disponibi- lização de informação na Internet. Com ele é possível garantir o acesso imediato aos resultados obtidos com qualquer ferramenta analítica SPSS de um modo seguro e eficiente. Desenho e recolha de informação por inquéritos Dimensions Realize inquéritos em grande escala ou em projectos de menor dimensão, a SPSS disponibiliza uma plataforma integrada e customizável para apoio em todo o processo de pesquisa por inquérito. Esta solução inclui produtos para todas as etapas do processo de pesquisa por inquérito (Veja o documento SPSS Survey Tips) desde a criação do questionário até à captura dos dados, seja ela efectuada em papel, por telefone, pela internet ou por equipamento portátil (por exemplo, PDA). Consultoria e Formação A PSE, enquanto parceiro SPSS para Portugal, assegura aos seus clientes serviços de formação, consultoria e apoio técnico na utilização dos produtos e soluções SPSS de acordo com as normas internacionais da nossa representada. PSE – Produtos e Serviços de Estatística, Lda Rua Mouzinho da Silveira, nº 27 – 3º C 1250-166 Lisboa Telefone 213170910 Tefefax 213170919 Mail spssinfo@pse.pt Site www.pse.pt Este documento foi traduzido do original pela PSE, na sua qualidade de distribuidora SPSS para o mercado português. 10 Refª SPClem05

×