UNIVERSIDADE SÃO JUDAS TADEU       Curso de Pós-Graduação           Mecânica Fina         EDSON CAORU KITANISISTEMA DE VIS...
UNIVERSIDADE SÃO JUDAS TADEU       Curso de Pós-Graduação           Mecânica Fina         EDSON CAORU KITANISISTEMA DE VIS...
UNIVERSIDADE SÃO JUDAS TADEU                       Curso de Pós-Graduação                           Mecânica Fina         ...
Dedico este trabalho a minha amadaesposa Yara e ao meus queridos filhosAdriano e Gizele que mais uma vez,pacientemente,   ...
AGRADECIMENTOS       Gostaria de agradecer a todos aqueles que direta e indiretamente contribuíram para arealização deste ...
“Não sei como posso parecer aos olhos domundo mas, quanto a mim, vejo-me apenascomo um menino brincando na praia e mediver...
RESUMO       Os pesquisadores de inteligência artificial propuseram há uma década atrás um torneiode futebol de robôs com ...
ABSTRACT       The researchers in artificial intelligence purposed ten decades ago a robots soccertournament with the goal...
LISTA DE ILUSTRAÇÕES Figura 1 – Estrutura da visão artificial segundo Marr..................................... 19 Figura ...
10Figura 24 – Câmera da Sony montada sobre um tripé.....................................46Figura 25 – Imagem da tela princ...
LISTA DE TABELASTabela 1 – Separação atual sobre as áreas de visão artificial........................19
SUMÁRIO       LISTA DE FIGURAS...............................................................................................
1. Introdução       O domínio do futebol de robôs abriu um novo desafio para as áreas de pesquisa emengenharia e inteligên...
14que consigam se aproximar da capacidade física humana em todos os aspectos, ou seja, osmodelos antropomórficos são as me...
151.1 Objetivos e motivação       Este trabalho não tem a pretensão de criar um time de robôs, mas apenas tentarsubstituir...
16       O projeto foi dividido então em duas partes, sendo uma, o projeto e construção doconjunto mecânico, eletrônico e ...
17Intel, e o programa fonte será desenvolvido em C através de um compilador AVOCET C paraa família dos microcontroladores....
2 Histórico dos sistemas de visão artificial       O campo de processamento digital de imagens ou visão artificial é um ca...
19geoprocessamento, onde as imagens tiradas via satélite permitem reconhecimento de solos,recursos minerais e ambientais e...
20Marr define que “a visão é uma representação do mundo sobre os aspectos que sãorelevantes para o observador”.       Cada...
3 Estrutura de um sistema de visão artificial       Embora um sistema de visão artificial seja um processo integrado, este...
223.1 Aquisição da imagem       Esta é a primeira fase, e consiste em definir um meio de conversão de uma imagemou informa...
23Figura 3. Representação dos tamanhos comerciais de células CCD´s. Adaptado dewww.edmundoptics.com, 2005.       Como são ...
24exemplo, uma CCD de 640 por 480 significa um matriz de 640 colunas por 480 linhas econtém 307000 células.As células de u...
25câmeras com profundidade de 8 bits), e cujo significado é a intensidade luminosa (λ) daqueleponto no tempo t. O processo...
26       Nos processos com câmeras eletrônicas, as técnicas são semelhantes aos da fotografia,utilizando inclusive, em mui...
27Figura 8: Representação de um sinal de vídeo, adaptado e disponível em www.ni.com.         Naturalmente, o processo de a...
28possa ser devidamente manipulável e armazenável por um computador. A figura 9 mostra odiagrama em blocos de um sistema m...
29Figura 10: Representação de como uma imagem (A) é convertida em escala de cinza (B) eentão armazenada em memória (C). Ad...
30totalmente absorvente, logo, o estudo prévio da superfície é necessário para se definir o tipode iluminação. A iluminaçã...
31 AAAAAFigura 12. Diferentes modelos de iluminação, a partir do primeiro do alto à esquerda e indoem direção à direita te...
323.2 Pré Processamento       A etapa de pré-processamento faz o tratamento da imagem para de forma a minimizaro custo com...
33é possível porque o domínio da função intensidade em uma imagem discretizada é finito, epertencente ao conjunto dos núme...
34       As figuras 14 e 15 mostram claramente como ficam as distribuições de densidade dostons de cinza e como isto afeta...
35                                                                                  +∞b) Que a função T(r) seja também nor...
36Figura 16. Vemos uma imagem de baixo contraste e depois de transformada por umaequalização de histograma. Adaptado de [G...
37       Existe uma série de técnicas de segmentação, sejam aplicando filtros de convolução ouentão por técnicas de limiar...
38Figura 18. O gráfico da esquerda mostra um histograma de uma imagem que apresenta duasregiões separáveis, enquanto o his...
393.3.2 Operações Morfológicas         Operações morfológicas são aquelas aplicadas às imagens binarizadas, pois se deseja...
40       G ( j , k ) = I I Tl , c {F ( j , k )}                           Eq.7onde G(j,k) é a imagem resultante da erosão ...
41       Com a aplicação das operações morfológicas, consegue-se uma redução significativana dimensão dos dados da imagem,...
42os objetos que nós vemos, principalmente, considerando-se que as crianças vêm ao mundo senenhuma noção geométrica, mas e...
43                                           PIXEL CENTRAL 8 CONECTADOFigura 22. Mostra um pixel central que é 8 conectado...
4 Implementação       A implementação prática do goleiro mecatrônico foi executada em duas etapas. Aprimeira ficou a cargo...
454.1 A mesa       A mesa do equipamento foi construída em madeira e têm as dimensões 800X1300mm,totalmente fechada nas la...
46       Figura 24 Câmera da Sony montado sobre um tripé.       A vista obtida pela câmera não foi muito ampla, devido a p...
47controle do software. A placa de captura de imagem é uma placa digitalizadora de imagenscom entrada para sinais de vídeo...
48       Com a imagem binarizada, determina-se a projeção da bola no eixo X, e faz-se umajuste linear de seu valor (relaçã...
49ângulo, a projeção em X se altera constantemente. Como o conjunto mecatrônico acompanhaesta trajetória, o goleiro seguia...
50de partículas que fazem remoção por área de pixels ocupados. Filtrando somente o blobs comárea dentro de uma tolerância ...
5 Conclusão       Este experimento demonstrou a funcionalidade e aplicabilidade de um sistema devisão artificial em um dis...
52reproduzem tecnologia com custos que assustam os outros. Face a este novo cenário, pode-sedizer que a “nova corrida do o...
5 ReferênciasARAUJO, Ricardo Correia; Sistema de Rastreio e Interceptação de Objetos no Plano via  Sistema de Visão; Monog...
ROBOCUP PROCEDURES, disponível em www.robocup.org, e acessado em 10/04/2005.VELOSO, Manuela; et al.; The CMUnited 97 Small...
Upcoming SlideShare
Loading in …5
×

Visão artificial

1,588 views

Published on

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,588
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
43
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Visão artificial

  1. 1. UNIVERSIDADE SÃO JUDAS TADEU Curso de Pós-Graduação Mecânica Fina EDSON CAORU KITANISISTEMA DE VISÃO ARTIFICIAL: UMA APLICAÇÃO EM MECATRÔNICA São Paulo, 2005
  2. 2. UNIVERSIDADE SÃO JUDAS TADEU Curso de Pós-Graduação Mecânica Fina EDSON CAORU KITANISISTEMA DE VISÃO ARTIFICIAL: UMA APLICAÇÃO EM MECATRÔNICA Monografia apresentada ao Curso de Pós- Graduação - Lato Senso da Universidade São Judas Tadeu, como requisito parcial para conclusão do curso de Especialização em Mecânica Fina. Orientador: Prof. Dr. Mario César Ricci São Paulo, 2005
  3. 3. UNIVERSIDADE SÃO JUDAS TADEU Curso de Pós-Graduação Mecânica Fina EDSON CAORU KITANI SISTEMA DE VISÃO ARTIFICIAL: UMA APLICAÇÃO EM MECATRÔNICA Monografia apresentada ao Curso de Pós- Graduação - Lato Senso da Universidade São Judas Tadeu, como requisito parcial para conclusão do curso de Especialização em Mecânica Fina.Aprovado em 11 de Novembro de 2005__________________________Orientador: Prof. Dr. Mario César Ricci São Paulo, 2005
  4. 4. Dedico este trabalho a minha amadaesposa Yara e ao meus queridos filhosAdriano e Gizele que mais uma vez,pacientemente, souberam compreenderminhas ausências durante mais estajornada, de modo que eu pudesse realizaros meus sonhos, tão necessariamenteadiados.
  5. 5. AGRADECIMENTOS Gostaria de agradecer a todos aqueles que direta e indiretamente contribuíram para arealização deste trabalho e principalmente aos colegas de sala que mantiveram estímulos nosmomentos mais árduos desta jornada. Agradeço aos colegas Prof. Fiorani, Prof. Bonassi eProf. Sakae, pelos momentos de descontração e troca de experiências e que muitocontribuíram para realizar mudanças e enriquecer os meus sábados. Ao meu amigo Ricardo,que junto comigo aceitou o desafio de implementar na prática esta idéia. Ao Prof. Dr. Ricci, meu orientador, e ao Prof. Fiorani, por acreditarem que eu teriacondições de dar um passo a mais na carreira acadêmica. Ao amigo Paulo Pereira da National Instruments, por gentilmente ter cedido umaversão Student do Labview 7.1.
  6. 6. “Não sei como posso parecer aos olhos domundo mas, quanto a mim, vejo-me apenascomo um menino brincando na praia e medivertindo em encontrar de quando emquando um seixo mais liso ou uma conchamais bonita, enquanto o grande oceano daverdade jaz incógnito à minha frente.” Isaac Newton
  7. 7. RESUMO Os pesquisadores de inteligência artificial propuseram há uma década atrás um torneiode futebol de robôs com o objetivo de criar um ambiente de colaboração entre os várioscentros de pesquisas mundiais, a fim de acelerar os resultados práticos no campo da robótica,inteligência artificial e a todas a áreas associadas. Este trabalho propõe o projeto eimplementação de um conjunto mecatrônico que simulará a função de um goleiro em umamesa de pebolim. O conjunto estará baseado em três domínios principais, formados por umsistema mecânico que movimentará o goleiro em toda a extensão da região do gol, de umconjunto com motor elétrico, que fornecerá a dinâmica ao conjunto mecânico e de um sistemade visão artificial que informará ao conjunto do motor, as coordenadas preditivas da bola. Odomínio do futebol de robôs tem sido muito utilizado em pesquisa de Inteligência Artificial,dada a sua enorme dinâmica, complexidade, imprevisibilidade e variadas estratégias,fornecendo um vasto domínio para a pesquisa e implementação de sistemas autônomos.Palavras chaves: inteligência artificial, visão artificial, robótica, futebol de robôs.
  8. 8. ABSTRACT The researchers in artificial intelligence purposed ten decades ago a robots soccertournament with the goal of create a collaborative environment between several researchcenter around the world, in order to increase the practical results in robotics, artificialintelligence and all associate areas. The purpose of this work is design and implement a set ofmecatronic device that will emulate the function of a goalkeeper in a saloon game board. Theset will be based on three main domains, a mechanical system that will move the goalkeeperalong the goal extension region, a set of electric motor that will supply the entire dynamic tothe mechanical system and an artificial vision system that will send to electric motor, allpredict coordinate of the ball. The robot soccer game domain has been used in severalresearch of Artificial Intelligence due to the enormous dynamic, complexity, unpredictabilityand a variation of strategies, giving a large field for research and implementation inautonomous system.Key word: artificial intelligence, artificial vision, robotics, robot soccer.
  9. 9. LISTA DE ILUSTRAÇÕES Figura 1 – Estrutura da visão artificial segundo Marr..................................... 19 Figura 2 – Principais etapas de um sistema de visão artificial........................ 20 Figura 3 – Representação dos tamanhos comerciais de células CCD´s...........22 Figura 4 - Representação de uma matriz de célula CCD................................. 22 Figura 5 – Discretização de uma imagem contínua .........................................23 Figura 6 - Incidência de um feixe luz passando por uma lente .......................24 Figura 7 - Ajuste manual da distância focal ....................................................25 Figura 8 - Representação de um sinal de vídeo ...............................................26 Figura 9 - Ligação de uma câmera com uma placa de aquisição de imagem..27 Figura 10 – Conversão e armazenamento da imagem......................................28 Figura 11 – Diferentes intensidades e direções de luz em um rosto ............... 29 Figura 12 – Diferentes modelos de iluminação.................................................30 Figura 13 - Captura, formação e discretização da imagem...............................31 Figura 14 - Imagem com alto contraste ........................................................... 32Figura 15 – Imagem com baixo contraste .........................................................32Figura 16 – Imagem transformada por uma equalização de histograma ..........36Figura 17 – Duas imagens com alta complexidade de segmentação.................36Figura 18 – Histograma de imagens com regiões separáveis ............................38Figura 19 – Binarização baseada na limiarização do histograma ......................38Figura 20 – Erosão na imagem através de um elemento estruturante................40Figura 21 – Partícula com uma ilha central e operação de preenchimento........40Figura 22 – Pixel central que é 8 conectado.......................................................43Figura 23 – Montagem do conjunto mecânico sobre a mesa..............................45
  10. 10. 10Figura 24 – Câmera da Sony montada sobre um tripé.....................................46Figura 25 – Imagem da tela principal de controle do software de visão.........47Figura 26 – Tela de ajuste dos parâmetros do sistema de visão......................48Figura 27 - Módulo do software denominado Goalkeeper..............................49Figura 28 - Código do módulo de comunicação serial....................................50
  11. 11. LISTA DE TABELASTabela 1 – Separação atual sobre as áreas de visão artificial........................19
  12. 12. SUMÁRIO LISTA DE FIGURAS............................................................................................IX LISTA DE TABELAS...........................................................................................XI 1 INTRODUÇÃO................................................................................................ 12 1.1 Objetivos e Motivação... ....................................................................14 1.2 Metodologia........................................................................................15 1.3 Conteúdo.............................................................................................15 2 HISTÓRICO DOS SISTEMAS DE VISÃO ARTIFICIAL..............................16 3 ESTRUTURA DE UM SISTEMA DE VISÃO ARTIFICIAL..........................20 3.1 Aquisição da imagem.........................................................................21 3.2 Pré processamento .............................................................................31 3.2.1 Histograma ................................................................................31 3.2.2 Equalização do histograma ....................................................... 33 3.3 Segmentação ......................................................................................35 3.3.1 Limiarização (Thresholding) .................................................... 36 3.3.2 Operações morfológicas ............................................................38 3.4 Descrição e representação ................................................................. 40 3.4.1 Área de agrupamento de pixels ..................................................414 IMPLEMENTAÇÃO 4.1 A mesa 4.2 O software 5 CONCLUSÃO E CONSIDERAÇÕES FINAIS ......................................... ...XX 6 REFERÊNCIAS BIBLIOGRÁFICAS ...............................................................XX
  13. 13. 1. Introdução O domínio do futebol de robôs abriu um novo desafio para as áreas de pesquisa emengenharia e inteligência artificial, forçando as pesquisas a tentar solucionar uma série denovos problemas apresentados neste novo domínio. Até há pouco tempo atrás, as pesquisasem IA (Inteligência Artificial) estavam focadas em jogos de xadrez ou em outros jogos detabuleiro, mas com a criação do Deep Blue, que venceu Gary Kasparov, a soberania humanano jogo foi superada, o que exigiu a busca de novos desafios. Pertence à natureza humana a quebra de barreiras, e mesmo que essas barreiraspareçam impossíveis, elas têm sido o motor do desenvolvimento. Um desses grandes desafiosfoi proposto pelo presidente americano John F. Kennedy, quando mostrou a necessidade dosamericanos em colocar um homem na lua e depois retorná-lo em segurança [ROBOCUPPROCEDURE, 2005]. O novo desafio que foi lançado é o de construir um time de robôshumanóides que possa jogar, e se possível vencer o time da seleção campeã mundial dametade do século XXI. A escolha da pesquisa sobre futebol de robôs foi proposta porque o domínio do futebolé extremamente dinâmico, complexo, imprevisível, ocorre em tempo real, e as informaçõessão muitas vezes incompletas, gerando situações ainda não solucionáveis, e exigindo muitapesquisa, conforme Kitano [KITANO, 1993]. O estado da arte em tecnologia, tantocomputacional quanto mecânica e eletrônica ainda não permite estabelecer um conjunto desoluções, e este será o novo marco das pesquisas. Na área mecânica, têm sido importante as pesquisas em novos materiais, que sejammais leves e resistentes, que reduzam atritos; na área eletrônica a busca pela construção decomputadores cada vez mais potentes e rápidos, que consumam menos energia e sejam maisresistentes, na área de robótica, que integra todas as grandes áreas, busca-se construir robôs
  14. 14. 14que consigam se aproximar da capacidade física humana em todos os aspectos, ou seja, osmodelos antropomórficos são as metas na robótica, e finalmente na área da computação, abusca pelo domínio da IA, de modo a criar um sistema completamente autônomo ecolaborativo, é a base das pesquisas. Somente com a junção de todas áreas do conhecimentopoderemos pensar em nos aproximar da meta proposta pela ROBOCUP. Um outro marco que se deseja atingir é a capacitação dos sistemas de visão artificial,que fornecem ricas informações sobre o mundo, e provavelmente é o melhor sistema desensoriamento existente. Com um sistema de visão funcional poderemos obter umarepresentação de mundo extremamente fiel, colhendo informações geométricas (3D) ecromáticas, o qual não seria possível com nenhum outro sensor isoladamente. Existeminúmeros problemas associados à visão artificial que não foram resolvidos, e que serão muitoúteis no futuro. Finalmente, o futebol de robôs é apenas o meio pela qual tenta-se criar umacolaboração entre os diversos centros de pesquisas em robótica e motivar os novospesquisadores, como garante Veloso [VELOSO, 2003]. Apenas para se ter a dimensão dos trabalhos nesta área, o proposta feita pelacomunidade científica mundial começou em 1993 e mesmo com os esforços para aorganização, o primeiro torneio só ocorreu em 1997 no Japão, durante a conferencia de IAem Nagoya. Naquele primeiro evento, participaram quarenta times em três categorias: simulação,pequenos robôs e médios robôs. A partir daquele ano, torneios anuais foram propostos aoredor do mundo, e no torneio de 2003, na Itália, estavam inscritos quatrocentos times. É a ciência se aproximando da comunidade e aumentando a sua penetração,permitindo que se faça ciência desde de cedo [MORAVEC, 2003].
  15. 15. 151.1 Objetivos e motivação Este trabalho não tem a pretensão de criar um time de robôs, mas apenas tentarsubstituir o goleiro de um jogo de futebol de mesa denominado pebolim, construindo umconjunto mecânico de movimentação linear e um sistema de visão artificial que possaidentificar e prever as possíveis trajetórias da bola e enviá-las ao motor que controla o goleirovia um canal serial, impedindo que a bola entre no gol. Mas somente neste pequeno enfoque abre-se um campo enorme de pesquisa eprincipalmente a integração de diversas áreas do conhecimento. Esta multidisciplinalidade é ameta das pesquisas no campo da robótica, porque une áreas que eram extremamente distintasno passado, e que com a união, podem propor soluções realmente inovadoras e úteis em umcurto espaço de tempo. Este trabalho propõe a construção de um dispositivo mecânico que faz atransformação do movimento rotativo de um motor de passo em um movimento linear atravésde uma correia dentada. O sistema captará imagens de um plano α previamente definido e aguardará pelapresença de um objeto móvel, que nesta aplicação será uma bola branca com diâmetro de30mm. O movimento da bola será rastreado e sua trajetória no plano acompanhado até queocorra a interceptação pelo goleiro. As principais motivações foram a possibilidade de se projetar e construir um sistemamecatrônico, onde todo o controle será executado por um microcontrolador 8031, porém estecontrole está apenas relacionado com o posicionamento do goleiro no eixo X, já que ascoordenadas serão enviadas através de uma porta serial por um microcomputador PC. O PC seencarregará de coletar e analisar a imagem, e fazer o rastreio da bola ao longo dos quadroscapturados.
  16. 16. 16 O projeto foi dividido então em duas partes, sendo uma, o projeto e construção doconjunto mecânico, eletrônico e de suporte, e a segunda, o sistema de visão e sua integraçãocom o conjunto mecatrônico. Ficou a cargo de um outro pós-graduando (deste curso), aexecução da primeira parte, enquanto o autor desta monografia se encarregou da parte davisão artificial. Os trabalhos foram executados em conjunto, onde apenas as descrições decada parte estão separadas.1.2 Conteúdo Este trabalho estará assim dividido, o capitulo 2 discorrerá sobre uma revisãobibliográfica, mostrando os caminhos percorridos para que fosse possível unir todos osconjuntos deste trabalho. No capitulo 3 veremos o sistema completo, onde será possívelanalisar toda a arquitetura mecânica, eletrônica e de software, no capitulo 4 veremos osensaios e os resultados obtido, estratificando-os para um estudo comparativo entre o desejadoe o realizado. Verificaremos se a meta foi atingida e quais foram as dificuldades encontradasneste projeto. Finalmente no capitulo 5, discorremos sobre as conclusões obtidas dosresultados e a proposição de novos estudos e desafios.1.3 Metodologia Foi projetado e construído um conjunto mecatrônico, conforme descrito na introdução,e toda a parte do hardware eletrônico para o controle do conjunto mecatrônico, e também deuma mesa, de dimensão 1.0mt x 0.8mt, que servirá de plataforma de apoio e aplicação doprojeto. O software de controle será dividido em duas partes distintas, a primeira executarátodo o controle do conjunto mecatrônico através de um micro controlador da família 8051
  17. 17. 17Intel, e o programa fonte será desenvolvido em C através de um compilador AVOCET C paraa família dos microcontroladores. [ARAUJO, 2005] Será responsabilidade deste módulo, o controle de direção e geração dos pulsos deexcitação do circuito de ponte transistorizada que alimentará o motor de passo. Este móduloreceberá as coordenadas de posição através de uma entrada serial, cujo protocolo serádefinido em modo ASCII e será detalhado mais a diante. O outro módulo de software seráimplementado em um computador IBM PC compatível sobre a plataforma Windows98/ME/XP e será responsável para aquisição, análise e geração de coordenadas de movimentodo motor, enviando-as em seguida para a interface de controle via canal serial. O software deinterface homem/máquina, bem como o de tratamento de imagens, será escrito em LabView6.1 juntamente com o aplicativo Imaq Vision, para aquisição e tratamento da imagem. OLabView é um software compilador da National Instruments que deriva do C++. Veremos no próximo capítulo, um breve histórico sobre a área da visão artificial e suasaplicações.
  18. 18. 2 Histórico dos sistemas de visão artificial O campo de processamento digital de imagens ou visão artificial é um camporelativamente novo sob o ponto de vista prático, mas em teoria já existe desde a década de 20. Um sistema de tratamento e transmissão de imagens digitais começou com o sistemaBartlane de transmissão de imagens via cabo submarino entre Londres e Nova York. Umoutro trabalho importante sobre processamento de imagens iniciou-se com o projetoRANGER do Jet Propulsion Laboratory (JPL Pasadena, Califórnia - EUA), onde eranecessário transmitir imagens da Lua, com a qual pretendia-se mapear a superfície lunar edefinir locais de pouso para os futuros vôos tripulados [NASA FACTS]. Foram lançados 9 Rangers entre Agosto de 1961 à Março de 1965 e somente as 3últimas obtiveram sucesso transmitindo um total de 17439 fotos da superfície lunar. Todas asfotos eram processadas para corrigir distorções introduzidas pelas câmeras de TV acopladasàs sondas espaciais [MARQUES & VIEIRA, 1999]. Desde então diversos estudos foram desenvolvidos para tentar emular o maiscomplexo dos sentidos humanos, a visão. Atualmente, a convergência de várias tecnologiaspermitiu transferir as técnicas de processamento de imagem dos laboratórios e centros depesquisas para as indústrias. Tecnologias tais como, os computadores baseados em PC combarramento local PCI, placas de captura de imagens, câmeras digitais e softwares deprocessamento de imagem tornam a Visão Artificial uma realidade. Dentre as várias áreas em que o processamento de imagens pode estar presentepodemos citar os trabalhos na área médica que possibilitam melhorar as imagens obtidas porequipamentos de diagnose não invasiva (Tomografia, Raio X), na área biológica parareconhecimento e contagem automática de células nos microscópios, na área de
  19. 19. 19geoprocessamento, onde as imagens tiradas via satélite permitem reconhecimento de solos,recursos minerais e ambientais e mapeamento de fronteiras. Dotar os robôs com um sistema de visão artificial também tem sido objeto de intensoestudo, visto o enorme avanço que este tipo de automação pode trazer para as indústrias. Naautomação industrial, a substituição do homem nos trabalhos repetitivos, nas quais apercepção visual é um item indispensável, abre um campo vasto de aplicação para a visãoartificial. Em serviços postais, o sistema de visão artificial tem sido aplicado para reconhecercaracteres e assim fazer a triagem automática dos envelopes postados. Uma quantidadeenorme de aplicações podem ser beneficiadas com a aplicação desta tecnologia que estáapenas começando [GONZALES & WOODS, 2002]. Pesquisadores como David Marr [BIANCHI, 2001], criaram definições e conceitossobre o que seria a visão artificial. Segundo Bianchi [BIANCHI, 2001], Marr acreditava quequalquer sistema de visão artificial deveria ser composto de uma estrutura na qual umaimagem passaria por três processos distintos e seqüenciais, conforme é mostrado na figura 1. Implemtação física Representação e Teoria computacional algorítmo Figura 1. Estrutura da visão artificial segundo Marr. Adaptado de [BIANCHI, 2001]. A etapa de implementação física é responsável pela aquisição da imagem, ou seja, aetapa sensorial e perceptiva do processo de visão. Na representação e algoritmo aproblemática é como a informação vinda dos sensores pode ser representada de forma queseja útil para o usuário da imagem. E finalmente na teoria computacional teríamos o que Marrdefine como o objetivo da visão, sobre a qual devem existir teorias sobre como utilizar asrepresentações para se atingir os objetivos desejados. É justamente sobre este enfoque que
  20. 20. 20Marr define que “a visão é uma representação do mundo sobre os aspectos que sãorelevantes para o observador”. Cada etapa definida por Marr entrega um tipo de informação, permitindo-se aseparação em três grandes categorias, nas quais as pesquisas são divididas. Esta separaçãopode ser vista no tabela 1.Tabela 1PROCESSAMENTO DE IMAGENS ENTRA IMAGEM E SAI IMAGEMANALISE DE IMAGENS ENTRA IMAGEM E SAI MEDIDAS DA IMAGEMINTERPRETAÇÃO DA IMAGEM ENTRA IMAGEM E SAI UMA REPRESENTAÇÃO COMPLEXA DA IMAGEMUma separação moderna sobre a área de visão artificial. Adaptado de [YOUNG et al. 1995]. Observa-se pela tabela 1 que a visão artificial continua sendo um sistema compostopor três abordagens, tais como definido por Marr, mas que permite estudar cada abordagemde uma maneira bem distinta, sem que necessariamente elas estejam interligadas. Muitos sistemas aplicados comercialmente e industrialmente valem-se apenas daprimeira e segunda etapa de um sistema de visão artificial., mas se definem inadequadamentecomo sistemas de visão artificial. Percebe-se que o grau de complexidade aumenta no avançode cada processo e que existe uma ligação da abordagem mais complexa para a menos, e quenão necessariamente o inverso é verdadeiro. Veremos nos próximos tópicos essa divisão eperceberemos que as abordagens podem atingir uma complexidade dependente apenas do tipode informação que desejamos na saída.
  21. 21. 3 Estrutura de um sistema de visão artificial Embora um sistema de visão artificial seja um processo integrado, este pode sermelhor compreendido se o dividirmos em quatro etapas distintas, como é visto na figura 2. Aquisição Pré processamento Segmentação Descrição e Reconhecimento Figura 2. As principais etapas de um sistema de visão artificial O bloco de aquisição é responsável por fazer a coleta e a transformação da imagem emum sinal elétrico que possa ser tratado por um equipamento eletrônico. Na fase de pré-processamento os sinais elétricos, que normalmente vem na forma analógica, é convertido emum conjunto de informações digitais e eventualmente o sinal pode ainda sofrer algum tipo detransformação numérica para melhorar o sinal obtido. A segmentação toma a informação digital e tenta separar o objeto em estudo dorestante da imagem. Com a informação segmentada é necessário descrever numericamente oobjeto segmentado ou separado do restante da imagem. Com a descrição do objeto é possívelfazer o reconhecimento dele baseado em uma base de conhecimento sobre objetossemelhantes e então se passa à fase de interpretação que definirá se ele é ou não o objeto deinteresse.
  22. 22. 223.1 Aquisição da imagem Esta é a primeira fase, e consiste em definir um meio de conversão de uma imagemou informação visual para um sinal digital ou analógico. Esta conversão se dá por meio decâmeras ou sensores óticos que capturam a imagem ou informação e as transformam emsinais elétricos. Estes sinais podem estar em diferentes espectros eletromagnéticos, tais como,Raios X, ultravioleta, infravermelho ou espectro visível, e para cada espectro é necessário umsensor específico. A qualidade da imagem obtida é de extrema importância para as demais etapas sendonecessário conhecimento de técnicas de iluminação e uso de lentes para se conseguir umaimagem com qualidade. Os dispositivos mais utilizados são as câmeras eletrônicas, que aindapodem ser analógicas ou digitais. A aplicação de cada tipo de câmera depende do tipo deaplicação e dos custos envolvidos. Será descrito apenas como se faz a aquisição eprocessamento de imagens monocromáticas. Como foi dito anteriormente, a aquisição de uma imagem consiste em transformaruma imagem obtida através de uma câmera eletrônica em uma matriz de pontos alocados emmemória. A conversão mais comum é aquela obtida por células CCDs (Charge CoupledDevices) na qual cada ponto da célula representa um ponto de imagem projetada sobre ela.As CCD´s são células eletrônicas sensíveis à luz visível ou infravermelho e são caracterizadaspor seu tamanho e resolução. Basicamente são construídas em silício e são formadas por umamatriz que armazena uma carga elétrica toda as vezes que uma célula é bombardeada porfótons. As câmeras com CCD’s ainda são caracterizadas pelo tamanho do sensor que émedido pela sua diagonal, definindo tamanho tais como representado na figura 3.
  23. 23. 23Figura 3. Representação dos tamanhos comerciais de células CCD´s. Adaptado dewww.edmundoptics.com, 2005. Como são construídas como uma matriz, a forma mais fácil de se obter informaçõessobre cada célula é varrer a matriz na forma de linhas e colunas. Na verdade, cada linha damatriz é lida de uma vez e o valor de cada célula é armazenado em um registrador paralelo, eentão os dados deste registrador são enviados serialmente, como pode ser visto na figura 4.Figura 4. Representação de uma matriz de célula CCD. Adaptado de [FORSYTH & PONCE,2003]. O tamanho da CCD é medido pela diagonal da célula e a resolução é dada pelonúmero de células que formam a matriz da CCD. Esta representação é feita multiplicando-se onúmero de células na vertical e na horizontal. Muitas vezes a representação da quantidade decélulas é feita mantendo a representação do produto da lateral maior pela lateral menor, por
  24. 24. 24exemplo, uma CCD de 640 por 480 significa um matriz de 640 colunas por 480 linhas econtém 307000 células.As células de uma matriz CCD são mais conhecidas como pixel que éa abreviatura de picture element em inglês. A partir de então, uma câmera com CCD passa ase comportar como uma câmera fotográfica comum, onde a luz incidente sobre a CCD passapor um conjunto de lentes que convergem a luz vinda do objeto de interesse e a distribui sobrea área da CCD, sensibilizando - a. Esta sensibilização provoca uma excitação nas células capacitivas, e estasarmazenam uma energia elétrica proporcional à intensidade luminosa que atinge cada pixel.Desta maneira, a distribuição de carga sobre a superfície do CCD é uma representaçãodiscretizada da cena que foi captura em um determinado instante t. Ou seja, cada célula damatriz z (m×n) da CCD denominado de z(x, y), com x = 0,1,2...m e y = 0,1,2....n, representa aluminância (λ) daquele ponto na imagem no instante t. Ponto na matriz = p(x,y,t,λ) (Eq. 1) p(x,y,t,λ)Figura 5. Discretização de uma imagem contínua. Adaptado de [YOUNG et al., 1995]. O processo seguinte será o de varrer cada célula da matriz e transformar suarepresentação analógica em um número adimensional normalizado entre 0 a 255 (para
  25. 25. 25câmeras com profundidade de 8 bits), e cujo significado é a intensidade luminosa (λ) daqueleponto no tempo t. O processo se repete a cada célula, percorrendo a matriz do primeiroelemento superior à esquerda até o último elemento inferior da direita, percorrendoinicialmente somente as linhas pares e depois as ímpares. Isto faz com que a imagem capturada esteja completa na memória somente apósduas varreduras completas da matriz. Este processo é ainda derivado do antigo sistema decaptura e transmissão de imagens das câmeras analógicas. Após as duas varreduras, a matrizde CCD é limpa para que possa ser excitada novamente por um novo quadro de imagem.Note-se a inexistência de um obturador mecânico, como nas câmeras convencionais, paraimpedir que ocorra uma sobre exposição da imagem, uma vez que o efeito do obturador étotalmente eletrônico. Assim como no olho humano, a área sensível à radiação é fixa, portanto o sistemade visão artificial deve também se ajustar a diferentes distâncias focais, e isto é conseguidoatravés de conjuntos de lentes óticas. A figura 6 representa um sistema convencional defotografia, onde a imagem a ser capturada dever ser capaz de preencher no máximo a área dofilme, e este ajuste é conseguido com o auxilio de lentes.Figura 6. A figura mostra a incidência de um feixe luz passando por uma lente e sendoprojetado em um filme ou uma matriz CCD, onde d é o diâmetro do sensor, f é a distânciafocal do sensor ou filme. Adaptado de [FORSYTH & PONCE, 2003].
  26. 26. 26 Nos processos com câmeras eletrônicas, as técnicas são semelhantes aos da fotografia,utilizando inclusive, em muitos casos, os mesmos tipos de lentes. A figura 7 mostra umaconfiguração com uso de uma lente com ajuste manual de foco, onde mecanicamente semodifica a distância focal do objeto em relação ao sensor.Figura 7 mostra o ajuste manual da distância focal, variando-se a distância das lentes interna ea abertura da iris. Adaptado de www.edmundoptics.com, 2005. As câmeras comerciais são produzidas basicamente em dois modelos: analógicas edigitais. Nas câmeras analógicas, o sinal do CCD lido de cada pixel é devidamente convertidoem sinal de formato padronizado. Para as câmeras monocromáticas este sinal varia de 0.5V a2.0V representando a luminosidade de cada pixel. O sinal é montado de cima para baixo e daesquerda para a direita de uma matriz CCD. O gráfico da figura 8 mostra o período de varredura do sinal ao longo da linha de umamatriz CCD e também o período de apagamento horizontal para o retorno da varredura para apróxima linha da matriz.
  27. 27. 27Figura 8: Representação de um sinal de vídeo, adaptado e disponível em www.ni.com. Naturalmente, o processo de aquisição inicia-se pela cena de interesse e esta cena éreduzida (ou ampliado) para as dimensões de uma CCD através de um conjunto de lentes,cuja função principal (não considerando fenômenos ópticos como interferência, difração, etc)o ajuste do tamanho da cena a ser capturado, com o tamanho da CCD [FORSYT & PONCE2003]. O tempo de varredura de uma câmera analógica obedece ao padrão definido para asTVs comerciais, tendo um mínimo de 24 quadros amostrados por segundo. A amplitude decada pixel representa a intensidade de luz naquele ponto, portanto cada linha é formada porum conjunto de pontos que podem ou não ter diferentes intensidades luminosas e comoconseqüência, a imagem obtida é o conjunto de todos os pontos da matriz CCD. Após a transformação da imagem projetada em cada ponto da matriz CCD em umsinal elétrico, será necessário converter este sinal em um padrão manipulável numericamenteou mesmo armazenáveis. É neste ponto que começa a diferença entre as câmeras CCD´sanalógicas e digitais. Enquanto a primeira entrega somente a imagem no formato elétrico devídeo composto, que necessita ser convertida em um sinal digital, a câmera digital entregaeste mesmo sinal já convertido em binário. Quando temos somente a informação da imagemno formato analógico é necessária uma conversão desse sinal para o formato digital, para que
  28. 28. 28possa ser devidamente manipulável e armazenável por um computador. A figura 9 mostra odiagrama em blocos de um sistema mínimo de aquisição de imagem. A transformação é conseguida através de um conversor A/D, onde cada pixelconvertido é armazenado em um byte de memória dentro da própria placa que faz aconversão, ou então diretamente na memória de um computador. Placa de captura Memória RAM de imagem com de vídeo conversores A/DFigura 9. Representação da ligação de uma câmera com uma placa de aquisição de imagem. As placas que fazem a aquisição e conversão da imagem em dados digitais sãoconhecidas também como Frame Grabber ou placa capturadora de vídeo. Estas placas têm afunção de converter, montar e armazenar uma imagem vinda de uma câmera analógica oudigital para dentro de uma banco de memória RAM. A imagem então estará representada poruma matriz numérica de n x m, correspondente ao número de pixel da célula CCD da câmera. Cada pixel é armazenado em um byte da memória e tem o comprimento de 8 bits. Acapacidade numérica de representação é de 0 a 255, onde 0 representa o ponto mais escuro e255 o ponto mais claro, como mostrado na figura 10. Esta capacidade de representação daprofundidade dos tons de cinza está apenas limitado ao tipo de câmera utilizado. Modelosespeciais e científicos possuem profundidade de 10 a 12 bits, capazes de captar variação detons de cinza entre 0 e 1024 e 2048 respectivamente.
  29. 29. 29Figura 10: Representação de como uma imagem (A) é convertida em escala de cinza (B) eentão armazenada em memória (C). Adaptado de [ORTH, 2001] Nas câmeras digitais, não é dispensável o uso da placa Frame Grabber, porém omodelo da placa a ser utilizado é diferente do modelo analógico, pelo fato da câmeraanalógica não possuir um conversor A/D. Na realidade, a própria câmera digital faz aconversão do valor de pixel analógico em um valor digital. Este processo permite aconstrução de câmeras de alta velocidade, denominadas progressive scan, que permitem atransferência de dados em uma velocidade muito alta. A câmera progressive scan captura cada linha da matriz e envia linha inteira eseqüencialmente sem a necessidade de entrelaçamento. São muito utilizadas em aplicaçõesque requerem captura da imagem em movimento, mas são incompatíveis com os formatos devídeo padrão e, portanto, somente é possível aplicar esta câmera com as placas de aquisiçãode imagem. Para que uma imagem possa ser projetada sobre uma célula CCD, é necessárioque o objeto a ser filmado seja iluminado corretamente. E esta é uma das maiores dificuldadesna área de processamento de imagens, porque na maioria das aplicações o ambiente nãopossui iluminação homogênea, os objetos nem sempre são estáticos e as superfícies muitasvezes não são Lambertianas [YOUNG, 1998]. Ainda na fase de aquisição devemos considerar a necessidade de se iluminar a cenaque deseja captar, e a iluminação dependerá muito do ambiente e dos objetos que se desejacaptar. Como foi dito anteriormente, existem superfícies que são especulares, Lambertianas e
  30. 30. 30totalmente absorvente, logo, o estudo prévio da superfície é necessário para se definir o tipode iluminação. A iluminação tem um peso significativo no processamento da imagem devidoa grande influência provocada por ela, principalmente em imagens obtidas por câmeras únicase ortogonais.Figura 11. Fotos de uma mesma pessoa e mesma pose, mas com diferentes intensidades de luze direção. Adaptado de [BELHUMEUR, 1997]. Observando as fotos da figura 11, percebe-se a grande influência que iluminaçãoproduz em uma cena, alterando profundamente a nossa percepção, e isto se deveprincipalmente ao fato que a imagem é função da intensidade luminosa λ , como é descrito naEq. 1. Portanto sempre será necessário um ajuste da iluminação fisicamente ou através deequalizações de histograma, como veremos mais a diante. A figura 12 esquematiza os diferentes modelos de iluminação, conforme o tipo deproblema ser solucionado. As linhas vermelhas representam a fonte de luz, e as linhas azuis areflexão do produzida pelo objeto da cena.
  31. 31. 31 AAAAAFigura 12. Diferentes modelos de iluminação, a partir do primeiro do alto à esquerda e indoem direção à direita temos: iluminação direta e unilateral, angular, axial ou perpendicular,axial difusa, frontal difusa, iluminação de fundo, iluminação difusa uniforme. Adaptado dehttp://www.edmundoptics.com/, 2005. Após estabelecer o modelo de aquisição (câmera, iluminação) estará disponível, nasaída deste sistema, imagens temporais do mundo em R3 para um plano R2. A partir desta faseexecuta-se o pré-processamento da imagem. A figura 13 representa todo o processo descrito.Figura 13. Representa a captura, formação e discretização da imagem. Adaptado de[GONZALEZ & WOOD, 2002]
  32. 32. 323.2 Pré Processamento A etapa de pré-processamento faz o tratamento da imagem para de forma a minimizaro custo computacional e maximizar a extração de características relevantes ao processo. Istosignifica a redução ou eliminação de ruídos, reduções dos efeitos indesejáveis de umailuminação inadequada, remoção de objetos da cena, e a redução da dimensionalidade dosdados. Neste último tópico observa-se que qualquer matriz com 64×64 pontos representa 4096pontos de um vetor A. Como normalmente as imagens capturadas por câmeras modernasapresentam uma matriz mínima de 640×480, isto representa um conjunto de 307.200 pontos.Com matrizes dessa magnitude, qualquer operação aritmética demandará um custocomputacional no melhor das hipóteses O(m.n). Dentre as várias técnicas de pré-processamento, destacaremos somente aquelas quesão relevantes para este trabalho. O leitor interessado em conhecer outras abordagens podeconsultar [GONZALEZ & WOODS, 2002] e [PRATT, 1991].3.2.1 Histograma O histograma não é necessariamente uma técnica de pré-processamento, mas umextrator de característica que possibilita estudar alguns comportamentos da imagem. Ohistograma é uma técnica estatística que determina a distribuição de uma determinada amostraem classes de amostras e assim permite determinar a densidade da distribuição ao longo daamostra. No caso específico de uma imagem, a densidade seria a quantidade de pixelsdistribuída ao longo das classes, que neste caso é a escala de gradação dos tons de cinza. Isto
  33. 33. 33é possível porque o domínio da função intensidade em uma imagem discretizada é finito, epertencente ao conjunto dos números naturais Ν. Considere λ(x,y) a intensidade de um pixel na coordenada x,y, então o domínio daƒ(λ) será 0 ≤ ƒ(λ) ≤ 255 para uma imagem com profundidade de 8 bits. Assim poderemosdistribuir os pontos de uma imagem em até 255 classes. Assim podemos escrever que: H(k) = Σnk Eq. 2onde, k é a intensidade e n são todos os pixels da imagem que possuem intensidade k.Figura14. Imagem com alto contraste, onde podemos observar a distribuição uniforme depixels ao longo das classes. Adaptado de [GONZALEZ & WOODS, 2002].Figura 15. Imagem com baixo contraste, onde observa-se a concentração de pixels na regiãocentral. Adaptado de [GONZALEZ & WOODS, 2002].
  34. 34. 34 As figuras 14 e 15 mostram claramente como ficam as distribuições de densidade dostons de cinza e como isto afeta a qualidade da imagem. A idéia principal por traz desta técnicaé determinar como estão distribuídos os pixels ao longo da imagem, de modo a determinarprincipalmente quais são os limites de separação entre o objeto de interesse e a cena de fundo. Este interesse reside, como foi dito por Marr, justamente em extrair da imagemsomente as parte as relevantes ao nosso estudo, e assim encontrar as fronteiras de separaçãoentre os objetos das cenas. Se a imagem não apresenta um bom contraste, todos os pixelsestarão concentrados em uma região do histograma e tornará difícil a sua separação. Noentanto, se a distribuição estiver linear, existirão vários hiperplanos que separarão asdiferentes classes de intensidade e por conseqüência os objetos da cena.3.2.2 Equalização do Histograma Com a extração do histograma da imagem, é possível portanto aplicar diversas técnicasde transformações na imagem, onde a partir de uma imagem de entrada I, obtemos umasegunda imagem I’, derivada da primeira. Estas transformações podem ser lineares ou nãodependendo apenas da técnica e do efeito esperado. O nosso interesse aqui é equalização dohistograma da imagem. Como observado no tópico anterior, uma imagem com uma densidadede distribuição não uniforme produz imagens com baixo contraste. Portanto, equalizarsignifica fazer uma distribuição uniforme ao longo das classes de intensidade. Para tantoaplica-se uma função de transformação de que deve ser monotonicamente crescente queobedece aos seguintes requisitos:a) Existe uma função T(r) crescente e derivável no intervalo de 0 ≤ r ≤ 1, onde r é a normalização dos pixels no intervalo de [0,1].
  35. 35. 35 +∞b) Que a função T(r) seja também normalizado no intervalo de [0,1], ou seja ∫ −∞ T (r )dr = 1 Uma função que segue as definições a e b é a função densidade de probabilidadeacumulada, que para uma dada variável x, com domínio em R, têm a imagem entre osintervalos [0,1]. b P( x) = ∫a f ( x)dx Eq. 3 Como a imagem é formada de pontos discretos e randômicos, a transformação serádada por uma função de densidade acumulada Pk, tal que: k nk Pk = ∑ Eq. 4 0 nonde k varia de 0,1,2..... L-1 , n é o número total de pixels da imagem, nk é número de pixelscom intensidade k e L é o número de classes. Desta forma, tem-se um vetor Pa com valoresmapeados da probabilidade de densidade acumulada de cada pixel da imagem, e assim faz-sea transformação baseada nesta densidade. Ou seja, teremos um outro conjunto de densidadeque é uma transformação linear da imagem original. I k = nk .Pk Eq. 5A figura 16 mostra o resultado de uma transformação baseada na equação 5.
  36. 36. 36Figura 16. Vemos uma imagem de baixo contraste e depois de transformada por umaequalização de histograma. Adaptado de [GONZALEZ & WOODS, 2002].3.3 Segmetação Segmentar uma imagem significa separar os diferentes objetos que compões a imageme separá-las do fundo da imagem. A segmentação é uma das fases mais difíceis de seremimplementadas, isto porque muitas vezes os diferentes objetos se confundem entre si etambém com o fundo da imagem. Imagem com texturas complexas, múltiplos objetos ouentão com baixo contraste, apresentam uma dificuldade enorme de segmentação.Figura 17. Aqui vemos duas imagens que apresentam alta complexidade de segmentação,dado às características de textura (no caso da imagem à esquerda) e de contraste, na imagemda direita. Adaptado de [FORSYTH & PONCE, 2003] a figura da esquerda e [GONZALEZ& WOODS, 2002] a figura da direita.
  37. 37. 37 Existe uma série de técnicas de segmentação, sejam aplicando filtros de convolução ouentão por técnicas de limiarização. Neste trabalho veremos apenas a limiarização comotécnica de segmentação da imagem. Outras técnicas de segmentação podem ser encontradaspelo leitor em [GONZALEZ & WOODS, 2002] e técnicas avançadas em [PARKER, 1997].3.3.1 Limiarização (Thresholding) Limiarização é uma técnica que busca separar fronteiras entres regiões da imagembaseado no histograma, considerando que, se existe contraste na imagem, então existem nomínimo duas regiões separáveis. O que se busca na realidade é a separação do objeto deinteresse do fundo da imagem. Existem técnicas que podem separar mais de duas regiões, taiscomo o multilevel thresholding, e o local adaptative thresholding, mas não serão abordadasneste trabalho. O leitor interessado poderá encontrar uma vasta informação em [GONZALEZ& WOODS, 2002]. A base da limiarização é encontrar uma função de que separe as regiões baseadassomente nos níveis de cinza da imagem, e a função mais simples é a binarização baseada nohistograma. Esta função cria uma nova imagem I’ que apresenta somente dois níveis de corese que normalmente conhecida como imagens binarizadas. A idéia desta transformação é fazera analise geométrica do objeto de interesse, e extrair informações de fronteiras. A equação 6mostra com seria esta transformação. A variável T é um valor de limiar que depende daimagem e do histograma, de modo que o seu valor seja um limite entre duas regiões. 0 ⇔ g ( x, y ) ≤ T  I = g ( x, y ) =   Eq. 6 1 ⇔ g ( x, y ) > T 
  38. 38. 38Figura 18. O gráfico da esquerda mostra um histograma de uma imagem que apresenta duasregiões separáveis, enquanto o histograma da direita mostra três regiões. Adaptado de[GONZALEZ & WOODS, 2002]. A figura 17 mostra dois histogramas cujas imagens apresentam regiões multimodaisbem definidas, permitindo uma separação fácil. O valor de T, portanto dependerá da análisedo histograma para se definir a região de separação. A figura 18 mostra um exemplo de uma imagem binarizada. Observa-se que as duascores que compõem a imagem binarizada (preto e vermelho) foram escolhidas apenas para dardestaque. Uma imagem binarizada pode ser composta de quaisquer duas cores do conjunto decores disponível no software de transformação.Figura 19. À esquerda uma imagem original e à direita a binarização baseada na limiarizaçãodo histograma. Adaptado do aplicativo LabView com o módulo Imaq Vision.
  39. 39. 393.3.2 Operações Morfológicas Operações morfológicas são aquelas aplicadas às imagens binarizadas, pois se desejasomente determinar características geométricas do objeto de estudo. Pelo fato de as imagensserem binárias, ou seja, de somente existirem pixels com dois níveis de cor, permite umtratamento diferenciado da imagem. Aplicamos na imagem uma série de operadores bináriosde modo a ressaltar ou suprimir uma característica. Além das transformações, ainda é possível obter dados geométricos da imagem e umacorrespondência com o plano real. Podem-se determinar distâncias, áreas, densidades,topologias e ainda quantificar e qualificar os objetos da imagem. No caso da figura 18, pode-se, por exemplo, determinar o número de objetos com área menor que Apixels. Neste trabalho foram utilizadas duas técnicas de operadores morfológicos. A primeiraé a remoção de partículas e depois o preenchimento de áreas. A remoção de partículas baseia-se no principio de que durante a binarização, podem ser transformados alguns ruídos, queapresentam um nível de cinza maior que T. Porém não necessariamente estas partículasrepresentam um objeto de interesse. A remoção de partículas é executada através do operadormorfológico erosão, que elimina partículas soltas. Este operador utiliza um elemento estruturante que é aplicado em toda a imagem demodo a eliminar agrupamentos de pixels que têm o mesmo tamanho do elemento estruturantee também para separar dois agrupamentos que eventualmente possam estar conectados porpoucos pixels. A operação de erosão é, portanto, um operador matemático dado por [PRATT,1991]:
  40. 40. 40 G ( j , k ) = I I Tl , c {F ( j , k )} Eq.7onde G(j,k) é a imagem resultante da erosão de F(j,k) por uma matriz quadrada H(j,k). Ouseja, G(j,k) é a intersecção de todas as translações na qual a distancia da translação são osíndices das linhas e colunas de H, cujos elementos de H sejam logicamente verdadeiros (1). Partítcula Elemento estruturanteFigura 20. Exemplo de uma erosão na imagem através de um elemento estruturante H.Observa-se que na imagem maior, a parte mais escura será o resultado da erosão. Adaptado de[YOUNG et al., 1999]Após a aplicação do operador de erosão, ocorrerá a separação de partículas e alguns pontosque poderão pequenos “furos” e regiões completamente fechadas. Essas ilhas são entãolocalizadas e preenchidas de modo a obter uma partícula uniforme na sua superfície.Figura 21. A imagem A mostra uma partícula com uma ilha central e a imagem B após aoperação de preenchimento. Adaptado de [IMAQ, 1999]
  41. 41. 41 Com a aplicação das operações morfológicas, consegue-se uma redução significativana dimensão dos dados da imagem, principalmente naquelas imagens pequenas produzidaspor ruídos. Mas ainda assim, restam elementos que não necessariamente pertencem aoconjunto de interesse, mas que conseguiram passar pelos filtros anteriores. As operaçõesmorfológicas são muito mais vastas, e o leitor interessado em conhecer outras ferramentasmorfológicas encontrará informações em [GONZALEZ & WOODS, 2002]. Um tratamentomatemático mais profundo pode ser encontrado em [PRATT, 1991].3.4 Descrição e representação Nesta etapa temos uma matriz de pontos transformada em relação à imagem original,onde se tem somente o objeto de interesse. A problemática agora é como representar oudescrever o objeto em questão. Usualmente, os humanos classificam os objetos, conformesuas similaridades e categorias, agrupando-os ou dissociando-os. Da mesma maneira, asimagens devem ser representadas para que possam ser identificadas. Os modelos de representações mais comuns, e mais fáceis de se operar, são osmodelos geométricos, onde podemos ver na estrutura da imagem uma determinada formageométrica ou até mesmo a uma combinação delas. Com este modelamento geométrico,podemos determinar distâncias, áreas, volumes, momentos de massa, e inclusive parâmetrostemporais em imagens de vídeo. A fase da representação é uma das mais difíceis de se implementar, dadaprincipalmente a dificuldade e a dimensão do conhecimento do modelo. Informar aoprograma a diferença entre uma bola e uma laranja, caso eles tenham o mesmo tamanho e cor,pode ser uma tarefa muito complicada. Não é claro ainda, como o cérebro humano representa
  42. 42. 42os objetos que nós vemos, principalmente, considerando-se que as crianças vêm ao mundo senenhuma noção geométrica, mas elas são capazes de diferenciar objetos complexos. Este trabalho faz uso do modelamento geométrico e matemático do objeto bola, e érastreado e separado do restante das imagens baseada no principio da determinação da área ecentro de massa do agrupamento de pixels.3.4.1 Área de agrupamentos de pixels. Com os agrupamentos da imagem devidamente segmentados, podem-se aplicarmecanismos de seleção e identificação de agrupamentos. E uma forma de se executar essasclassificações seria o de analisar geometricamente os agrupamentos de pixels que restaram, eque em inglês são denominados blobs, tentando determinar parâmetros que possam separar osdiferentes conjuntos que restaram. Um parâmetro interessante a ser aplicado é a determinaçãoda área em pixels que os diferentes agrupamentos nas imagens ocupam. A área da imagem édefinida como sendo a somatória de todos os pixels que pertencem ao um determinadoagrupamento contínuo de pixels, e ainda dependente do tipo de conectividade definido antesda contagem. O conceito de conectividade refere-se à relação entre um pixel do agrupamentoem relação a seus vizinhos, que podem ser 8 conectados. Tomando-se um pixel central, todosos seus vizinhos são aqueles pixels que o tocam em todas as direções, no caso de um pixel 8conectado. A figura 22 mostra como um pixel pode ser considerado 4 ou 8 conectado. Aquestão principal aqui é se quando dois agrupamentos se tocam, os pixels das fronteiras sãoou não pertencentes ao mesmo agrupamento.
  43. 43. 43 PIXEL CENTRAL 8 CONECTADOFigura 22. Mostra um pixel central que é 8 conectado, pois têm vizinhos em todas asdireções. Adaptado de [IMAQ, 1999] Um pixel pode ser também 4 conectado. Neste caso, somente se considerarão osvizinhos que estão nas direções ortogonais ao seu centro, não considerando os pixels queestão nas diagonais. Portanto, o calculo da área de uma partícula leva em consideração se oagrupamento é 4 ou 8 conectados. Seja P uma partícula, a área de P será: AP = Σ (p(x,y) | p(x,y) ∈ P) Eq. 8 No próximo capítulo veremos a implementação do software baseado no modelo devisão artificial apresentado na figura 2, utilizando o software LabView 7. Veremos como cadaetapa opera e as estratégias aplicadas para a solução do problema de interceptação de umabola com um sistema de visão artificial.
  44. 44. 4 Implementação A implementação prática do goleiro mecatrônico foi executada em duas etapas. Aprimeira ficou a cargo do aluno de pós-graduação desta instituição [ARAUJO, 2005] cujotrabalho consistiu na montagem mecânica e eletrônica do Goleiro Mecatrônico. A segundaparte, que ficou a cargo do autor desta monografia, e consistiu na construção do módulo decontrole e rastreio via sistema de visão artificial, bem como a interligação deste sistema com oconjunto de mecânico, através de uma interface de comunicação RS232C. O software de controle foi totalmente desenvolvido em cima da plataforma LabView,juntamente com o módulo de visão Imaq Vision. Estas ferramentas facilitam muito o processode criação de um software, uma vez que muitas rotinas comuns, tais como interfaces GUI(General User Interface) já estarem prontas. Assim, não se consome tempo na produçãodessas interfaces, e o tempo pode ser dedicado somente à aplicação. A idéia básica foi criar um sistema de visão que pudesse rastrear e interceptar umabola de pebolim que seria arremessada manualmente em direção a um gol. Posicionado nestegol, estaria então um pequeno boneco de pebolim movido por um motor de passo, e cujaposição seria enviado por um PC através do canal de comunicação serial. As coordenadas deinterceptação seriam capturadas por um sistema de visão, utilizando-se uma câmera de vídeodoméstica. A câmera captura as imagens do campo, convertendo-a em um sinal de vídeocomposto, e sendo então capturada por uma placa Frame Grabber, que converte este sinal dedados digitais, manipuláveis pelo computador.
  45. 45. 454.1 A mesa A mesa do equipamento foi construída em madeira e têm as dimensões 800X1300mm,totalmente fechada nas laterais. No fundo encontra-se o mecanismo do robô, e no lado opostoum usuário fica posicionado para lançar a bola. Na figura 22 temos duas fotos que mostramfisicamente área da mesa de trabalho.Figura 23 Duas fotos mostrando a montagem do conjunto mecânico sobre a mesa. O pontobranco é uma pequena bola de pebolim. O conjunto mecânico foi adaptado em cima de um carro de impressora matricial, o quefacilitou muito a conclusão deste trabalho. O leitor interessado em maiores detalhes sobre oconjunto mecatrônico deve consultar [ARAUJO, 2005]. Para o ensaio, foi utilizada uma câmera doméstica da Sony, modelo NV-S100,adaptado verticalmente sobre a mesa através de um tripé para câmeras fotográficas. A figura23 mostra a câmera e sua respectiva montagem sobre o tripé.
  46. 46. 46 Figura 24 Câmera da Sony montado sobre um tripé. A vista obtida pela câmera não foi muito ampla, devido a pequena altura disponívelpelo tripé. Portanto optamos pela observação parcial da área da mesa, e esta visão parcialsituava-se próximo da pequena área do gol. A iluminação utilizada foi aquela já existente norecinto do teste, e consistia de uma lâmpada de PL de 27W. Deste modo, pudemos testar arobustez do sistema de visão em capturar a imagem e pré processá-la ante de determinar a realposição da bola.4.2 O Software O pré-processamento consistiu de uma normalização da iluminação da imagembaseada no modelo de equalização do histograma. Isto permite uma que pequenas variaçõesna iluminação do ambiente possam ser igualmente distribuídas por toda a imagem, tornando oprocessamento da imagem mais robusto. Na tela de ajustes do software foram criados áreaspar ajustar os parâmetros de equalização, limiarização e remoção de partículas, de modo apermitir pequenos ajustes conforme as condições de iluminação ambiental, que estão fora do
  47. 47. 47controle do software. A placa de captura de imagem é uma placa digitalizadora de imagenscom entrada para sinais de vídeo composto no padrão NTSC, e é fabricado pela NationalInstruments, sob o código PCI 1409. Figura 25 Imagem da tela principal de controle do software de visão. Na figura 25 temos uma amostra da tela do software de visão que controla a posiçãodo goleiro mecatrônico, na parte superior temos a imagem como é vinda diretamente dacâmera de vídeo, enquanto que na parte inferior vemos uma imagem já pré-processada ebinarizada. O rastreio da bola é feito pela busca em toda a imagem de um objeto que tenha asdimensões da bola, e isto é feito utilizando-se um filtro de área de elimina toda as partículasmaiores e menores que um determinado valor estipulado no momento da operação. Énecessário definir o valor somente no momento da operação, pois as partículas normalmentesão ocasionadas por ruídos de problemas de iluminação.
  48. 48. 48 Com a imagem binarizada, determina-se a projeção da bola no eixo X, e faz-se umajuste linear de seu valor (relação entre milímetro/pixel) e este valor é enviado para a portaserial do computador PC. Na figura 26 veremos a tela de controle de parâmetros do software, onde podemosajustar os valores de normalização da iluminação pelo histograma, os valores de limiarização,para separar a bola do fundo, e os removedores de partículas. Figura 26. Tela de ajuste dos parâmetros do sistema de visão. Durante os ensaios, uma pequena bola de pebolim era arremessada em direção ao gol,com diferentes velocidades e ângulos de arremesso. As bolas arremessadas ortogonalmenteem relação ao goleiro eram mais facilmente interceptadas do que aquelas arremessadas comum ângulo, em relação ao goleiro. Isto se deve ao fato que o rastreio da bola é feito pelaprojeção da bola no eixo X de coordenadas da imagem, e quando a bola é arremessada em
  49. 49. 49ângulo, a projeção em X se altera constantemente. Como o conjunto mecatrônico acompanhaesta trajetória, o goleiro seguia na direção da primeira projeção detectada pela câmera. Mas abola continuava seguindo na direção oposta, pois o conjunto mecatrônico não tinha sidoimplementado para alterar a direção, caso fosse enviando um novo comando de posição.Figura 27. Módulo do software denominado Goalkeeper, desenvolvido na linguagem Labviewversão 7.1 Student Na figura 27, temos o código do programa que faz a copia da imagem vinda da FrameGrabber/ A leitura deve ser feita da esquerda para a direita, como se fosse o fluxo de umcircuito eletrônico. Observa-se que é feita uma cópia da imagem, analisado o histograma eentão equalizado. O resultado dessa transformação é enviado para um módulo de remove apartículas e faz o preenchimento dos blobs. Depois a imagem processada passa por dois filtros
  50. 50. 50de partículas que fazem remoção por área de pixels ocupados. Filtrando somente o blobs comárea dentro de uma tolerância que permita detectar apenas a bola. Finalmente, do aglomerado de pixels restantes, determina-se a sua projeção no eixo Xe no eixo Y. O valor de X é enviado para o módulo de comunicação serial que pode ser vistona figura 28.Figura 28. Código do módulo de comunicação serial. Observa-se no código da figura 28 que o valor da coordenada X é previamenteajustado e com uma função linear, de modo a adequar a relação métrica entre a imagem docampo e o campo real. A caixa “Serial Comm” faz a comunicação com o conjuntomecatrônico.
  51. 51. 5 Conclusão Este experimento demonstrou a funcionalidade e aplicabilidade de um sistema devisão artificial em um dispositivo simples, mas que apresentou uma série de desafios. E amotivação maior foi aguardar o momento em que o sistema pudesse rastrear e interceptarautonomamente um bola lançada aleatoriamente em direção a um gol. Mas, além da expectativa dos resultados práticos do experimento, o objetivo tambémfoi de adquirir conhecimento em uma área incipiente, como é a visão artificial. Muitossistemas de visão artificial comercial já são uma realidade em ambientes industriais,executando uma variedade de operações, sejam em identificação, localização ou segurança. No mercado de uso doméstico algumas implementações são feitas em robôs móveis,para uso de entretenimento, e o sistema de visão embarcado simplesmente identifica o usuárioe atende ao seu comando. Esperamos que com este trabalho, outros pós graduandos se motivem e continuem otrabalho de pesquisa na área de visão artificial, visto que esta é uma área com muitosproblema sem solução ainda. Novas tecnologias tornam o custo da pesquisa muito menor,permitindo-se que as instituições de ensino possam investir nessa área. Câmeras com do tipoWebcam via porta USB estão relativamente baratas, e cada geração tornam-se mais rápidas ecom uma resolução maior. Muitos produtores de softwares disponibilizam versões para estudantes, como foi ocaso da National Instruments. Existem também muitos compiladores e bibliotecas deprocessamento de imagens com acesso livre, tal como o Open CV da Intel. Portanto, ferramentas já existem em quantidade suficiente para se iniciar pesquisasnesta área. A globalização têm demonstrado que a produção industrial já não é umamecanismo eficiente de se aumentar a renda e obter lucros. Países como China já produzem e
  52. 52. 52reproduzem tecnologia com custos que assustam os outros. Face a este novo cenário, pode-sedizer que a “nova corrida do ouro” encontra-se no desenvolvimento do conhecimento, e daquebra de paradigmas. Inventar e descobrir novos meios de criação são as moedas atuais, poisa industrialização em massa acabou com o domínio do conhecimento prático e manual. Como sugestão para futuros trabalhos e assim permitir uma melhoria no projeto,sugerimos:1 – Substituir o motor de passo por um servomotor, de modo obter uma dinâmica maior,obtendo-se taxas de aceleração e velocidades que permitam interceptar a bola com maiorrapidez.2 – Substituir o sistema de câmera e placa de captura de imagem, por uma câmera Webcam eassim reduzir os custos da implementação.3 – Pesquisar e implementar algoritmos de predição de trajetória, tal como o Filtro deKalmam, de modo a compensar eventuais atrasos no processamento da imagem e movimentodo conjunto mecatrônico [VELOSO, 1997][Li & Smith, 2000] .4 – Utilizar a plataforma Open CV da Intel juntamente com o um compilador C livre e criar osoftware de rastreio e captura, de modo a diminuir o tempo de processamento e comparar comesta implementação.5 – Desenvolver um time de futebol de robôs, assim como proposto por [KITANO,1993][COSTA, 2000].
  53. 53. 5 ReferênciasARAUJO, Ricardo Correia; Sistema de Rastreio e Interceptação de Objetos no Plano via Sistema de Visão; Monografia de Pós Graduação Lato Sensu, USJT, São Paulo, 2005.BELHUMEUR, Peter N.; Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection, IEEE Transaction on Pattern Analysis and Machine Intelligence vol. 19 no. 7, Julho 1997.BIANCHI, Reinaldo A. C., Visão computacional aplicado ao controle de micro robôs. FEI São Bernardo do Campo: Relatório do projeto de trabalho OS.N5886, 2001.COSTA, Anna Helena Reali, PEGORARO, Renê, “Construindo Robôs Autônomos para Partidas de Futebol: O Time Guaraná”, SP, SBA Controle e Automação, vol 3 pag 143 a 149, Dezembro de 2000.FORSYTH, David A., PONCE, Jean. “Computer Vision A Modern Approach”, New Jersey, Prentice Hall, 2003.GONZALEZ, Rafael and WOODS, Richard. Digital Image Processing , 2.ed., India: Pearson Education Asia, 2002.Imaq Vision User Manual, National Instruments May 1999.KITANO, Hiroaki, et al. “RoboCup: The Robot World Cup Initiative” 1993. disponivel em www.robocup.org, acessado em 14/04/2005.LabView Machine Vision and Image Processing , Hands-On-Course Version 1.0 May 1998 National InstrumentsLI, Bo; SMITH, Eduard; et al.; A Real Time Visual Tracking System in the Robot Soccer Domain; Proceedings of EUREL Robotics 2000, Salford, UK; Abril 2000.MARQUES, Ogê, VIEIRA, Hugo, Processamento Digital de Imagens, Rio de Janeiro: Brasport Livros, 1999.MORAVEC, Hans, “Robots, After All”, Communications Of the ACM, vol 46 pag. 90 a 97 Outubro de 2003.NASA FACTS, “Rangers and Surveyors to the Moon”; disponível em www.nasa.gov.ORTH, Alexandre. “Desenvolvimento de um sistema visão para medir desgaste do flanco de ferramentas de corte”; UFSC Santa Catarina; Dissertação de Mestrado; 2001.PARKER, J.R. Algorithms for Image Processing and Computer Vision, Canada: Wiley Computer Publishing , 1997.PRATT, Willian K. “Digital Image Processing”; John Wiley & Sons Inc. USA, 1991.
  54. 54. ROBOCUP PROCEDURES, disponível em www.robocup.org, e acessado em 10/04/2005.VELOSO, Manuela; et al.; The CMUnited 97 Small Robot Tean, Report of Computer Science Departament at Carnegie Mellon University.VELOSO, Manuela, Entrevista para Hasse, Rita F., ”Festival de Robôs Portugueses” TECNOTEMA ROBÓTICA 2003, Revista, PT, pag. 42 a 47, Junho de 2003YOUNG, Ian T. et al, Fundamental of Image Processing , Version 2.2, Netherlands: Delft University of Tecnology, 1998.YOUNG, Matt, Ótica e Lasers, São Paulo: EDUSP, 1998.

×