Sistema de recomendação para tv digital portátil
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Sistema de recomendação para tv digital portátil

  • 447 views
Uploaded on

 

More in: Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
447
On Slideshare
447
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
4
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Sistema de Recomendação para TV Digital Portátil Interativa Brasileira Elaine Cecília Gatto, Sergio Donizetti Zorzo Universidade Federal de São Carlos – UFSCar Departamento de Computação – DC Rodovia Washington Luís, Km 235, Caixa Postal 676, CEP 13565-905 São Carlos – São Paulo – Brasil – Tel.: +55-16-3351-8232 elaine_gatto@dc.ufscar.br, zorzo@dc.ufscar.br Resumo- A possibilidade de oferta de novos serviços e programas, e conseqüentemente mais conteúdo disponível, com a utilização do sistema brasileiro de televisão digital, gerará dificuldades para o usuário em selecionar os seus programas preferenciais. Os Sistemas de Recomendação tornam-se uma ferramenta para solução destas dificuldades e possuem potencial para aperfeiçoar a interatividade do usuário com a televisão digital, oferecendo a filtragem destas informações e a personalização da oferta de conteúdo. Este trabalho descreve um sistema de recomendação para televisão digital portátil interativa brasileira, centrado no aparelho celular que possibilita esta funcionalidade e gerando recomendação de programas de televisão de acordo com os gêneros de programas preferenciais do usuário durante o período de utilização da televisão no celular. I. INTRODUÇÃO Com a televisão digital, novos serviços, produtos, conteúdos, canais e modelos de negócios estão sendo criados. O Sistema Brasileiro de Televisão Digital (SBTV-D) [1,2] permite recepção fixa e portátil, alta qualidade de áudio e de vídeo, bem como interatividade, possibilitando a criação de conteúdos diferenciados para os usuários de televisão digital interativa fixa e portátil. A televisão digital portátil interativa compartilha em um único dispositivo as funcionalidades da internet, TV e telefonia celular, observando que os sinais de TV para estes dispositivos já estão disponíveis em diversas cidades brasileiras. Algum tipo de interatividade para a televisão digital portátil já é oferecida em países que possuem este serviço, como votação em programas, publicidade com redirecionamento para compras, guia eletrônico de programação, etc. O guia eletrônico de programação [3, 4, 5] – oferecido pelas emissoras - é uma ferramenta útil ao usuário, pois auxilia a escolha do programa de TV que deseja assistir. Porém, é inevitável o aumento de conteúdo no guia eletrônico de programação com a inclusão de novos canais e, dessa forma, dado o volume de informação, o usuário começa a ter dificuldades na escolha de seus programas, resultando em uma perda de tempo indesejável. O guia eletrônico de programação sobrecarregado de informações passa a não atender às necessidades dos usuários, pois como não considera as suas preferências, a apresentação de listas na tela torna-se enfadonha, pois são extensas. Para os usuários de TV portátil, esta situação é ainda mais agravante. Apresentar grandes listas de programas em uma tela reduzida traz ainda mais dificuldades. Desta forma, os usuários de televisão digital portátil interativa deparam-se com a escassez de recursos oferecidos pelo dispositivo e não estão dispostos a perder tempo selecionando programas. Em contraste com o uso da televisão digital em residências onde é comum mudar com freqüência os canais e navegar pelo guia eletrônico de programação, para a televisão digital portátil interativa isto consome quantidade de tempo e energia considerável. [6, 7] No Brasil o número de aparelhos celulares é muito maior que o número de aparelhos televisores, o que pode impulsionar o uso da televisão digital mais rapidamente nesse tipo de dispositivo quando estes celulares com TV digital estiverem mais acessíveis à população. [8, 9] Como grande vantagem da televisão digital portátil está o fato de poder ser utilizada pelo usuário em qualquer lugar e a qualquer hora. Já para a televisão digital fixa, a comodidade em poder assistir aos programas em sua residência e por um tempo mais prolongado pode ser citada como uma vantagem em comparação com a televisão digital portátil. A Tabela I apresenta uma comparação entre a televisão digital fixa e a portátil no Brasil. TABELA I COMPARAÇÃO ENTRE TELEVISÃO DIGITAL FIXA E PORTÁTIL NO BRASIL Fixa Set-top-box Aparelhos de TV com conversores embutidos Vários usuários Portátil Aparelhos celulares PDAs, Mini-TVs, Smartphones, Blackberrys, Receptores para veículos automotivos Um usuário Tela maior que 30 polegadas Tela menor que 10 polegadas Local fixo Qualquer local Maior tempo de visualização Menor tempo de visualização Sem Canal de Retorno definido Implementação de referência do middleware disponível Canal de retorno da própria rede celular Implementação de referência do middleware não disponível Os usuários destes dispositivos necessitam de atenção particular, devido às atuais características deste ambiente
  • 2. como poder de processamento, capacidade de armazenamento e bateria. Para usufruir de todo o potencial disponibilizado pela televisão digital portátil interativa, é necessário que um software faça a ligação entre o hardware, o sistema operacional e as aplicações interativas de televisão digital. Esse software é o middleware e no Brasil ele é denominado Ginga [10, 11]. O middleware Ginga permite que aplicações declarativas e procedurais sejam construídas utilizando-se, respectivamente Ginga-NCL (Nested Context Language) [12] e Ginga-J (Java) [13]. O modelo proposto neste trabalho utilizou uma implementação de referência do middleware Ginga-NCL. NCL [14] é uma linguagem declarativa para autoria de documentos hipermídia e foi desenvolvida baseada em um modelo conceitual que é focado na representação e tratamento de documentos hipermídia. NCL é a linguagem oficial do middleware Ginga-NCL, podendo ser utilizada em dispositivos portáteis. O principal objetivo deste trabalho é o desenvolvimento de um sistema de recomendação para a televisão digital portátil interativa brasileira, buscando recomendar programas televisivos de acordo com o perfil do usuário. Este artigo está estruturado como: Na seção I apresenta-se o contexto do trabalho, na seção II alguns trabalhos relacionados são apresentados, na seção III o sistema de recomendação para a televisão digital portátil interativa brasileira é apresentado, suas características, arquitetura e implementação, na seção IV os resultados obtidos e a seção V as conclusões. II. TRABALHOS CORRELATOS Na literatura existem diversos sistemas de recomendação para set-top-boxes que permitem serviços de personalização [15, 16, 17]. Para dispositivos portáteis, como celulares com televisão digital, o desenvolvimento de sistemas de recomendação é uma recente área de pesquisa. A seguir são apresentados três trabalhos que aplicam técnicas de recomendação para televisão digital portátil interativa. Em [7] foi desenvolvido um sistema de recomendação para o padrão DVB-H (Digital Video Broadcast – Handheld) [18] em conformidade com OMA-BCAST (Open Mobile AllianceMobile Broadcast Services Enabler Suite) [19]. Os autores identificaram alguns requisitos para os sistemas de recomendação dedicados a este ambiente como escalabilidade, latência de resposta, flexibilidade para padrões correntes de transmissão, proteção à privacidade do usuário, entre outros. O sistema de recomendação enquadra-se na categoria de sistemas com filtragem baseada em conteúdo, empregando mineração de texto. Emprega uma interface simples com o usuário e aceita linguagem natural como entrada de texto assim como quatro valores que refletem as preferências do usuário para comédia, ação, terror e erotismo. Neste sistema a recomendação ocorre da seguinte forma: primeiramente são extraídos os textos, em seguida, procuramse as emoções contidas no texto e distâncias entre os temas são computadas. Um índice é calculado para cada entrada e é retornada uma lista de programas ordenada por este índice. O sistema ZapTV [20] permite que o usuário crie seu próprio conteúdo, oferece serviços de valor agregado como acesso multimodal (Web e Celulares), canal de retorno, anotação de vídeo, compartilhamento e distribuição personalizada de conteúdo e foi desenvolvido para o padrão DVB-H. ZapTV envolve além da tecnologia provida pelo DVB-H, outras tecnologias como TV-Anytime [21], Tecnologias emergentes da Web 2.0 [22] e envolvidas na Web Semântica [23]. As principais funcionalidades do ZapTV incluem uma rede social, difusão personalizada de conteúdo (forma implícita ou explícita de recomendação), planejamento de difusão de canais temáticos (faixa etária, gênero ou tema específico), aplicação cliente e transmissão do guia eletrônico de programação. ZapTV procura melhorar a recomendação utilizando um mecanismo de personalização inteligente que combina filtragem de informação com processos de raciocínio semântico e, foi modelado nos princípios de participação e compartilhamento entre os usuários da Web 2.0, de forma que a geração, compartilhamento, classificação e anotação de conteúdos ocorrem colaborativamente, facilitando a tarefa de busca destes conteúdos. O sistema de [24] tem como principal objetivo oferecer conteúdo comum (TV Aberta) e também personalizado e adaptado para fornecer conteúdos que podem ser mais atraentes para os usuários. A arquitetura do sistema permite a difusão de conteúdos tanto por broadcast, como DVB-H, por exemplo, quanto por streaming de vídeo. Existe um servidor onde o fluxo de televisão e os serviços de dados estão localizados e um servidor personalizado de conteúdo que é responsável por fazer a atribuição e gestão do conteúdo pessoal, de acordo com as preferências do usuário e o histórico de visualização e também deve indicar quando a mudança entre o conteúdo comum e o personalizado tem que ser feita. A parte do usuário consiste de dispositivos móveis dos usuários que podem executar a aplicação cliente, e enviam de volta ao servidor os dados necessários para auxiliar na configuração de seu perfil. No lado cliente tem-se o módulo Player que entre outras tarefas deve executar os conteúdos conforme o tipo de recepção disponível no dispositivo e também um módulo para armazenar a coleta dos dados do usuário e os conteúdos personalizados recebidos do servidor. Há um módulo denominado de controle que é responsável por executar o player quando o usuário inicia o aplicativo, monitorar, capturar e preparar as interações do usuário para serem enviadas ao servidor entre outras tarefas. O último módulo do lado cliente é responsável por receber os conteúdos personalizados e enviar os dados capturados. O módulo Decissor, do lado servidor controla os perfis de usuário no módulo de banco de dados, é capaz de atualizar o perfil de usuário sempre que recebe do usuário informações sobre o seu comportamento e seleciona as propagandas que
  • 3. têm de ser enviados para os usuários de acordo com este perfil. O Servidor Web hospeda os serviços web para gerenciar o sistema e os conteúdos e empresas de propaganda e provedores de conteúdo podem adicionar excluir e modificar conteúdos, propagandas e usuários. Existe também um módulo para controlar o fluxo de dados entre o servidor e o usuário e outro módulo para o banco de dados que armazena os perfis, os dados coletados a partir do comportamento do usuário e os conteúdos enviados pelos prestadores. O último módulo do lado servidor é responsável em dar formato aos dados possibilitando que os módulos possam se comunicar de forma segura e adequada. Finalizando, o sistema exige login/senha e na primeira vez que o usuário acessa a aplicação, é preenchido um formulário com as suas preferências que geram o seu perfil. Após efetuar o login, o usuário começa a assistir televisão ou por streaming ou por broadcast. Ambos os trabalhos supracitados fornecem soluções para a personalização e a sobrecarga de informação na televisão digital em dispositivos portáteis. Em [7] o mecanismo do sistema de recomendação aplica a técnica de mineração de textos, filtragem baseada em conteúdo e necessita que o usuário informe alguns dados, enquanto que em [20] o mecanismo é mais sofisticado, utilizando filtragem de informação híbrida, raciocínio semântico e identifica o usuário de forma explícita e implícita. Em todos eles são necessários login e os diferenciais de [24] são a propaganda personalizada e a recepção de conteúdos tanto por streaming quanto por broadcast. O trabalho proposto neste artigo utiliza um algoritmo de mineração de dados e coleta implícita do comportamento do usuário, o que não exige login/senha por parte do usuário, e foi desenvolvido particularmente para o sistema brasileiro de televisão digital. Seu modelo, entretanto pode ser aplicado em outros padrões. Os sistemas de recomendação dos trabalhos anteriores encontram-se fora do dispositivo portátil, e esta é a diferença mais notável do modelo proposto neste trabalho. Ambos os sistemas incluem dentro de uma arquitetura existente de televisão digital, a sua própria arquitetura, como servidores de conteúdos e servidores de guia eletrônico de programação. Neste trabalho, o sistema de recomendação está no dispositivo portátil, não sendo necessária a inclusão de servidores na arquitetura da televisão digital portátil interativa brasileira para fornecer recomendação e, portanto, sem a necessidade de comunicação remota, evitando que o usuário pague pelo tráfego dos dados na rede para receber as recomendações ou enviar os seus dados, protegendo desta forma a privacidade dos dados do usuário. conteúdo de sua preferência sem investir muito tempo localizando-o. O sistema de recomendação foi projetado de forma a ser executado localmente no aparelho celular com a funcionalidade de televisão digital. Também é necessário que o dispositivo tenha o middleware Ginga-NCL. A Figura 1 apresenta o contexto de utilização do sistema proposto neste trabalho. Os receptores fixos e móveis recebem áudio, vídeo e dados, sendo o middleware responsável pela separação dos mesmos. O dispositivo deve ser capaz de receber a transmissão de televisão digital com o auxílio de uma antena interna ou externa compatível com o padrão de transmissão adotado pelo Brasil. O usuário interage com a televisão no celular e todos os canais assistidos durante o período de utilização são armazenados. A proposta inicial considera a utilização das categorias e o horário de início dos programas de TV. Assim que o usuário ligar sua TV no celular, programas de TV de preferência do usuário e com horário próximo ao horário atual são recomendados. O sistema de recomendação foi desenvolvido utilizando-se o middleware Ginga-NCL. A implementação para dispositivos portáteis deste middleware não está disponível no momento e por este motivo, os testes e a implementação foram realizados no middleware Ginga-NCL para set-top-box. O processamento tem início quando o usuário liga a TV em seu celular. Os dados do histórico de visualização do usuário que foram coletados até então, são minerados encontrando desta forma o perfil do usuário. Os dados resultantes da mineração passam por uma formatação. O perfil do usuário é armazenado em uma base de dados, juntamente com a data e horário de geração. Com o perfil do usuário atualizado procura-se no guia eletrônico de programação, os programas de TV compatíveis e que estejam sendo transmitidos próximos ao horário atual, gerando uma lista com estes programas. III. SISTEMA DE RECOMENDAÇÃO O sistema proposto neste trabalho visa facilitar o cotidiano do usuário de televisão digital portátil interativa, com interação por uma interface simples que possibilita assistir o Figura 1. Contexto de Utilização do sistema.
  • 4. A lista passa por um processo de limpeza e formatação permanecendo apenas os dados referentes à data, horário, duração e emissora gerando uma nova lista de programas. A lista de programas encontrados são as recomendações que também é armazenada em uma base de dados junto com a data e hora de geração. As recomendações são então apresentadas ao usuário e as que forem solicitadas são armazenadas junto ao histórico de visualização. Durante todo o período em que a TV no celular estiver ligada, todos os programas visualizados pelo usuário são armazenados na base de dados que contém o histórico de visualização. Este processo repete-se toda vez que o usuário ligar a TV. A. Implementação O middleware Ginga possui uma camada para as aplicações residentes, responsável pela exibição, outra para o núcleo comum, responsável por oferecer diversos serviços e, uma última referente à pilha de protocolos. O trabalho descrito neste artigo foi implementado como um elemento na arquitetura do Ginga, na camada de núcleo comum (Ginga Common Core), como ilustrado pela Figura 2. O sistema de recomendação é dividido em vários módulos e foi planejado, projetado e modelado cuidadosamente e especificamente para dispositivos portáteis (aparelhos celulares), considerando as características atuais destes, de forma a atender os requisitos deste ambiente em particular e, também está em conformidade com as normas brasileiras para a televisão digital portátil brasileira. O módulo Trigger é responsável por iniciar e terminar o processamento dos dados do sistema. O módulo Capture é o responsável por capturar e armazenar todos os programas assistidos durante o período em que a TV no celular estiver ligada, assim como as informações referentes a eles como, por exemplo, data, horário, canal e gênero. O módulo Mining é responsável por descobrir e armazenar o perfil do usuário. Este módulo também deve encontrar no guia eletrônico de programação, os programas que poderão ser Figura 2. Sistema de recomendação na arquitetura do middleware Ginga. recomendados para o usuário, de acordo com o perfil encontrado, gerando resultados com informações completas. O módulo Filter é responsável por filtrar as informações resultantes do módulo Mining, formatando-as e gerando uma lista de recomendações. O módulo Presentation é o responsável por apresentar as recomendações assim como gerenciar o tempo que permanecerão na tela do dispositivo. O último módulo, Data Manager, é o responsável por excluir os dados assim que se tornam obsoletos. A arquitetura do sistema de recomendação possui também as bases de dados (arquivos) para armazenar o histórico de visualização do usuário, o guia eletrônico de programação, o perfil do usuário e as recomendações. A Figura 3 apresenta a arquitetura do sistema de recomendação. B. Algoritmos de Mineração O módulo Mining utiliza um algoritmo de mineração. Dentre os diversos métodos de mineração de dados presentes na literatura e considerando as especificidades do domínio desta aplicação, verificou-se que o método botton-up, em que o processo de exploração tenta descobrir alguma coisa que ainda não é conhecida, extraindo-se apenas os padrões dos dados, assim como o método de busca de conhecimento indireta ou não supervisionada e as tarefas de associação, são os mais adequados para este trabalho. Há uma grande variedade de algoritmos que poderiam ser testados. Entretanto, o objetivo deste trabalho não é estudar, testar e analisar profundamente e sistematicamente o impacto da aplicação de técnicas de mineração de dados em dispositivos como aparelhos celulares. Figura 3. Arquitetura do Sistema de Recomendação
  • 5. TABELA II AMOSTRA DAS REGRAS GERADAS PELO WEKA n.º 1 2 regras domicilio=1 nomeEmissora=Record descSubGenero=Outros 21 ==> descGenero=Variedade 21 conf:(1) descGenero=Variedade 29 ==> domicilio=1 29 conf:(1) Os algoritmos das técnicas de associação identificam associações entre registros de dados que de alguma forma estão relacionados. A premissa básica encontra elementos que implicam a presença de outros em uma mesma transação, objetivando determinar quê coisas estão relacionadas. As regras de associação interconectam objetos na tentativa de expor características e tendências. A descoberta de associações deve evidenciar tanto associações triviais quanto associações não triviais. O algoritmo Apriori é utilizado com freqüência para minerar regras de associação. Apriori consegue trabalhar com um número alto de atributos, gerando várias combinações entre eles e realizando buscas sucessivas em toda a base de dados, mantendo um ótimo desempenho em termos de tempo de processamento. O algoritmo tenta encontrar todas as regras de associação relevantes entre os itens, que tem o formato X (antecedente) ==> Y (conseqüente). Se x% das transações que contêm X também contêm Y, então x% representa o fator de confiança (força de confiança da regra). O fator de suporte é uma medida que corresponde a x% das vezes em que ocorre X e Y simultaneamente sobre o total de registros (freqüência). [25] Para constatar que este algoritmo atende aos requisitos necessários deste trabalho, os testes foram feitos utilizando os dados do domicílio 1 e o algoritmo Apriori do software Weka. A Tabela II apresenta uma amostra das regras geradas pelo software. A regra 1 indica que o descritor Variedade/Outros teve 21 ocorrências na emissora Record, no domicílio 1. C. Dados do IBOPE Para teste do sistema proposto e implementado, em particular o algoritmo de mineração, é necessário obter os dados de visualização do usuário e também o guia eletrônico de programação. Estes dados foram fornecidos pelo IBOPE [26] e passaram por um processo de tratamento quase totalmente manual para se adequar ao formato padrão que deve ser utilizado no sistema brasileiro de televisão digital e também para que pudessem ser utilizados no software de mineração de dados Weka [27] para os testes. Os dados correspondem a 15 dias de programação e monitoramento de 6 domicílios brasileiros. O guia eletrônico de programação é composto por 15 arquivos TXT denominados arquivos de programação, um para cada dia (05/03/2008 a 19/03/2008), com a grade de 10 emissoras de TV Aberta, com início as 00:00:00 e término as 05:59:00. A Figura 4 ilustra uma amostra do layout inicial destes arquivos e a Tabela III apresenta como este layout foi organizado. Figura 4. Amostra do layout inicial dos arquivos TXT Tomando-se como exemplo a primeira linha da Figura 4, identificam-se os campos conforme mostra a Tabela IV. Após o entendimento dos arquivos que compõem o guia eletrônico de programação, os dados foram copiados dos arquivos de programação para uma planilha do BrOffice com o auxílio do recurso colar especial. Este recurso permitiu que os dados fossem exportados exatamente como construídos no layout, separando os campos em colunas. Após a exportação, foi feita a limpeza dos dados desnecessários. No momento da exportação, os dados numéricos perderam seu formato, sendo então re-formatados de acordo com a Tabela III. Por conveniência, a coluna dia foi convertida do formato texto para o formato data. Em seguida, perceberam-se algumas inconsistências de horários, que foram imediatamente corrigidas para que a análise futura não gerasse resultados errôneos. Todo esse processo se repetiu para cada um dos 15 arquivos de programação, gerando uma única planilha contendo todo o guia eletrônico de programação dos 15 dias. O comportamento do usuário é composto por várias planilhas, denominadas planilhas de sintonia, que possuem muito mais informação que o guia eletrônico de programação. As planilhas de sintonia e o guia eletrônico de programação contém códigos que identificam as emissoras da TV Aberta. Foi necessário padronizar estes códigos, pois o número de identificação foi registrado diferente nesses arquivos. Para evitar inconsistência de dados, foi adicionada uma coluna no guia eletrônico de programação com o nome da Emissora e depois os códigos das emissoras de TV Aberta foram padronizados, pois havia conflitos de códigos entre as emissoras Bandeirantes, Record, Rede TV! e TV Cultura. TABELA III LAYOUT DOS ARQUIVOS TXT Descrição Código da Emissora Código do Programa Nome do Programa Início do Programa Fim do Programa Tipo Numérico (03) Numérico (06) Caractere (30) Numérico (06) Numérico (06) Posição Inicial 1 24 30 160 166
  • 6. TABELA IV IDENTIFICANDO OS CAMPOS NOS ARQUIVOS TXT Coluna Conteúdo 1.ª 005100PNREXXXXX 2.ª 002645RELIGIOSO MAT 3.ª 4.ª 000000 0000 5.ª 060000080000DIA_05 6.ª 11111110000000000000 0003XX Identificação Código da 005 Emissora 100PNREXX XXX Descartado 002645 Código do Programa RELIGIOSO MAT Nome do Programa Descartado Descartado Início do 060000 Programa Fim do 080000 Programa Dia do DIA_05 Programa Descartado Também se adicionou o dia da semana e a duração do programa. O guia eletrônico de programação, nessa etapa ainda não está completo, faltam o gênero e subgênero de cada programa. Para isso procurou-se nos sites oficiais de cada emissora o gênero dos programas transmitidos e em seguida identificados de acordo com a norma brasileira ABNT NBR 15603-2:2007, Anexo C, “Descritor de gênero no descritor de conteúdo” [28]. Para facilitar essa identificação, foi utilizado o recurso de filtro para classificar o guia eletrônico de programação de acordo com o nome do Programa. Se o programa repetisse nesses 15 dias, não era necessário procurar novamente no site da emissora. Ressalta-se que a planilha do guia eletrônico de TABELA V RELAÇÃO QUANTIDADE DE PROGRAMAS/CATEGORIA Categoria Minissérie Erótico Novela Reality Show Filme Humorístico Informação Educativo Esporte Sorteio, televendas, premiação Debate/Entrevista Série/Seriado Outros Infantil Jornalismo Variedade TOTAL Quantidade 0 1 15 15 24 25 32 33 40 42 52 56 62 63 146 203 812 Figura 5. Amostra das planilhas de sintonia. programação totalizou cerca de 4500 linhas, o que corresponde a 4500 registros em um banco de dados e, com identificação de aproximadamente 800 programas diferentes. A Tabela V mostra a relação quantidade de programas/categoria encontrada no guia eletrônico de programação. O formato dos dados enviados pelo IBOPE pode ser visualizado na Figura 5, que mostra o comportamento dos usuários do domicílio 2. A planilha inicia-se as 00:00:00 e termina as 05:59:00 e, nos horários em que o usuário assistiu TV, é marcado o código do canal assistido. Apesar de haver 3 indivíduos e apenas 1 TV no domicílio 2, o IBOPE colheu os canais assistidos por cada membro individualmente, o que fornece informações a respeito do comportamento de cada membro da casa. A Tabela VI apresenta as características dos domicílios. Para trabalhar de forma adequada com os dados, a planilha de sintonia também foi modificada. Foi necessário separar cada individuo com seus respectivos canais, dia, horário, domicílio e TV. As colunas de data e horário também foram formatadas de acordo com o padrão que deve ser utilizado no sistema brasileiro. Isto se repetiu para todo o conteúdo de todas as planilhas, gerando a relação apresentada na Tabela VII. As planilhas foram convertidas em arquivos CSV (Commaseparated values) para inserção no banco de dados MySQL e também para uso no Weka. Em seguida, cada arquivo CSV foi inserido no banco de dados e os registros desnecessários foram retirados. As colunas data e hora também foram convertidas em uma única coluna, de acordo com o formato padrão (aaaamm-dd hh:mm:ss). O próximo passo consistiu em encontrar no guia eletrônico de programação os programas correspondentes aos horários assistidos. No sistema de recomendação proposto, o comportamento do usuário é monitorado, mas não minuto a minuto, como nos dados do IBOPE, mas apenas quando o usuário mudar de canal. Para se aproximar deste objetivo, os dados resultantes da mescla do guia eletrônico de programação com o comportamento do usuário, que gera na realidade o histórico de visualização, passaram por mais um processo de limpeza.
  • 7. Domicílio 1 N.º Indivíduos 2 Recomendações / Solicitações TABELA VI CARACTERÍSTICAS DOS DOMICÍLIOS MONITORADOS N.º TVs 1 2 3 3 3 1 2 4 2 2 1 6 3 4 2 5 6 2 2 0 7 8 9 10 11 12 13 14 15 16 17 18 19 Dias TOTAL 6 6 5 Figura 6. Recomendações Visualizadas e Solicitadas. 15 9 foram minerados no segundo. No segundo dia, coletaram-se mais dados que foram minerados juntos com os dados do primeiro dia, e assim sucessivamente. Verificou-se que os dados não cresceram na ocupação de espaço proporcionalmente ao número de dias minerado. Foram identificadas mudanças de canais, calculado o tempo de permanência no programa, registros e campos repetidos foram deletados. Assim os dados ficaram em conformidade para a realização dos testes. IV. RESULTADOS 100 Os testes com o algoritmo Apriori do software weka constataram que este algoritmo pode ser adotado para o sistema, pois se adéqua às necessidades da proposta. A partir das regras geradas pelo Apriori, recomendações foram simuladas e, foi possível averiguar se o usuário estava assistindo às recomendações simuladas por estas regras. Utilizou-se a seguinte fórmula para calcular a precisão: Precisão 80 60 40 20 (1) 0 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Dias TABELA VII RELAÇÃO PLANILHAS Domicílio Planilhas Figura 7. Precisão do Sistema. A Figura 8 apresenta os tamanhos dos arquivos gerados para os 15 dias do domicílio 1. 12 10 8 KyloBytes em que a é o número de recomendações visualizadas, b o número de recomendações efetuadas e a eficiência do sistema. Os resultados constatados pelas Figuras 6 e 7 são visíveis e deixam claro que os testes foram satisfatórios para o período avaliado. A Figura 6 apresenta a quantidade de recomendações visualizadas e solicitadas pelo usuário do domicílio 1 durante 15 dias. Em média, por dia, o usuário visualizou 3 recomendações e solicitou aproximadamente 2. A Figura 7 mostra a precisão, atingindo em média aproximadamente 77% de precisão durante os 15 dias. Algo importante que também foi verificado é o tamanho dos arquivos do histórico do usuário. Os testes foram iterativos e acumulativos, isto é, coletaram-se dados no primeiro dia que 6 4 2 0 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Dias 1 30 2 44 Figura 8. Tamanho dos arquivos do histórico de visualização. 3 35 4 43 V. CONCLUSÕES 5 30 6 80 Total 262 O trabalho apresentado justifica-se pelo fato que a televisão digital em celulares dá indícios de crescimento rápido pelo mundo. Além disso, a possibilidade de assistir TV em s r
  • 8. qualquer lugar e a qualquer hora em dispositivos portáteis evidencia que a personalização torna-se fundamental para solucionar algumas dificuldades geradas pela sobrecarga de informação e também o tempo investido pelo usuário para procurar programas de seu interesse. O sistema de recomendação proposto foi modelado considerando as características atuais dos dispositivos portáteis e as situações de uso da televisão no celular, podendo este modelo ser adequado para outros padrões e também, para os novos dispositivos portáteis que surgirão no mercado. Além disso, atentou-se em projetar o sistema de acordo com as normas brasileiras estabelecidas para dispositivos portáteis, devido particularmente, ao fato da inviabilidade atual de desenvolver o sistema integrado a um middleware para televisão digital portátil, possibilitando que o código implementado possa ser futuramente portável com modificações e atualizações minimizadas. Como trabalho futuro, pretende-se incluir como parâmetros para descoberta de preferências do usuário, a classificação indicativa dos programas (faixa etária) e também a sinopse. Com isto, uma gama muito maior de recomendações pode ser fornecida ao usuário. No caso da sinopse, poderiam ser descobertos, por exemplo, os artistas preferidos de filmes e então recomendar filmes que tenham a participação deste artista. Muitas outras preferências do usuário podem ser descobertas pela sinopse do programa e nosso trabalho pretende explorar estas opções. AGRADECIMENTOS Agradecemos ao IBOPE por fornecer os dados reais do guia eletrônico de programação e também os dados de comportamento dos telespectadores do período 0519/03/2008. REFERÊNCIAS [1] [2] [3] [4] [5] [6] [7] Sistema Brasileiro de Televisão Digital. Disponível em: http://sbtvd.cpqd.com.br/. Acesso em 03 de agosto de 2009. Fórum do Sistema Brasileiro de Televisão Digital. Disponível em http://www.forumsbtvd.org.br/. Acesso em 03 de agosto de 2009. “Electronic Programme Guide. Protocol for a TV Guide using electronic data transmission”. ETSI standard ETS 300 707 Disponível em: http://webapp.etsi.org/workprogram/Report_WorkItem.asp?WKI_ID=38 83. Acesso em 05 de agosto de 2009. “Televisão digital terrestre. Multiplexação e serviços de informação (SI) parte 3. Sintaxes e definições de informação estendida do SI”. ABNT Norma Brasileira 15603-3. Disponível em: http://www.forumsbtvd.org.b r/materias.asp?id=112. Acesso em 05 de agosto de 2009. “Service Information for Digital Broadcasting”. ARIB standard STDB10. Disponível em: http://www.dibeg.org/techp/techp.htm. Acesso em 06 de agosto de 2009. Silva, Fábio Santos; Jucá, Paulyne Matthews. “Personalização de Conteúdo Através de um Guia Eletrônico de Programação Personalizada para a TV Digital”. WebMedia 2005: Simpósio Brasileiro de Sistemas Multimídia e Web, Workshop de Televisão Digital Interativa. 2005. Bär, Arian et al. “A Lightweight Mobile TV Recommender: Towards a One-Click-to-Watch Experience”. In Proceedings 6th European Interactive TV Conference, p.142-147, Salzburg, Áustria, 0304/07/2008. [8] “Antenados assistem TV em qualquer lugar”. Disponível em: http://www.forumsbtvd.org.br/materias.asp?id=131. Acesso em 10 de agosto de 2009. Gazeta Mercantil/Caderno D - Pág. 3. 19/05/2009. [9] “Publicidade móvel e TV digital são negócios em ascensão”. 30/07/2009. Disponível em: http://sbtvd.cpqd.com.br/? obj=noticia&mtd=detalhe&q =14942. Acesso em 10 de agosto de 2009. [10] Middleware Ginga. Disponível em http://www.ginga.org.br/. Acesso em 06 de agosto de 2009. [11] Comunidade do middleware Ginga no portal do software público. Disponível em: http://www.softwarepublico.gov.br/dotlrn/clus/ginga. Acesso em 07 de agosto de 2009. [12] Ginga-NCL. Disponível em: http://www.gingancl.org.br/. Acesso em 07 de agosto de 2009. [13] Ginga-J. Disponível em: http://www.openginga.org/index.html. Acesso em 08 de agosto de 2009. [14] Nested Context Language, NCL. Disponível em: http://www.ncl.org.br/. Acesso em 08 de agosto de 2009. [15] Hsu, S. H., Wen, M. H., Lin, H. C., Lee, C. C. and Lee, C. H.: AIMED, “A personalized TV Recommendation System. In Proceedings of the Interactive TV: A Shared Experience", pages 166-174, Vol 4471, Springer Berlin / Heidelberg, 2007. [16] Zhiwen, Y., Xingshe, Z., Yanbin, H. and Jianhua, G. “TV program recommendation for multiple viewers based on user profile merging”. In Proceedings of the User Modeling and User-Adapted Interaction, pages 63-82. Publishing Springer Netherlands, 2006. [17] Zhang, H.; Zheng, S. Yuan J.: “A personalized TV guide system compliant with MHP”. In: Consumer Electronics, IEEE Transactions on, vol.51, no.2, pp. 731-737, 2005. [18] Digital Video Broadcasting, DVB. Disponível em: http://www.dvb.org. Acesso em 11 de agosto de 2009. [19] Open Mobile Alliance, OMA-BCAST. Disponível em: http://www.open mobilealliance.org/. Acesso em 12 de agosto de 2009. [20] Solla, Alberto Gil et. al. ZapTV: Personalized User-Generated Content for Handheld Devices in DVB-H Mobile Newtorks. In: Proceedings 6th European Interactive TV Conference, p.193-203, Salzburg, Áustria, 0304/07/2008. [21] TV-Anytime. Disponível em: http://www.tv-anytime.org/. Acesso em 13 de agosto de 2009. [22] O'Reilly, Tim. “What Is Web 2.0. Design Patterns and Business Models for the Next Generation of Software”. 09/30/2005. Disponível em: http://oreilly.com/web2/archive/what-is-web-20.html. Acesso em 14 de agosto de 2009. [23] Web Semântica. Disponível em: http://www.w3.org/2001/sw/SWFAQ#What1. Acesso em 16 de agosto de 2009. [24] Uribe, Silvia, et al. “Mobile TV Targeted Advertisement and Content Personalization”. 16th International Workshop Conference on Systems, Signals and Image Processing, Chalkida, Greece, 18-19/06/2009. [25] Witten, I. H, Frank, Eibe. “Data mining : practical machine learning tools and techniques”. Cap. 4, seção 4.5, pg. 112. Elsevier. 2nd ed. 2005. [26] IBOPE. Disponível em: http://www.ibope.com.br. Acesso em 16 de agosto de 2009. [27] WEKA. Disponível em: http://www.cs.waikato.ac.nz/ml/weka/. Acesso em 17 de agosto de 2009. [28] “Televisão digital terrestre. Multiplexação e serviços de informação (SI) parte 2. Estrutura de dados e definições da informação básica de SI”. ABNT Norma Brasileira 15603-2. Disponível em: http://www.forumsbt vd.org.br/materiais.asp?id=112. Acesso em 17 de agosto de 2009.