Segmentation floue d images de documents anciens par approche textur…

819
-1

Published on

Segmentation floue d'images de documents anciens par approche texture utilisant le filtre de gabor

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
819
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
33
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Segmentation floue d images de documents anciens par approche textur…

  1. 1. Segmentation Floue d’Images de Documents Anciens par Approche Texture Utilisant le Filtre de Gabor Kamel MOUATS Nicholas JOURNET Rémy MULLOT Laboratoire L3i, 17042 La Rochelle Cedex 1 – France k_mouats@yahoo.fr nicholas.jounet@univ-lr.fr remy.mullot@univ-lr.fr Résumé Cet article présente une méthode de segmentation les images de documents mais nécessitant une bonnefloue des images de documents anciens. Elle permet la définition et paramétrisation.séparation des zones de texte et de dessins d’images de Lapproche texturale de segmentation de textes etdocuments imprimés datant de la Renaissance. Notre graphiques, dans des documents numérisés, est basée surapproche consiste à définir des bancs de filtres de Gabor le fait que le texte dans le document peut être aperçucapables de localiser les zones de textes et de dessin comme une texture, cependant les graphiques sont uneséparément à l’aide d’un processus de classification flou autre texture différente. En se basant sur cette idée, ondes résultats de filtrage. Une simple fusion des résultats segmente les documents à laide dun schéma dedes bancs de filtres fournit une version segmentée de segmentation texture utilisant des bancs de filtres commel’image de document ancien en question. Extracteurs de Caractéristiques. La conception de bancNous avons validé notre système et des résultats seront de filtres utilise les filtres de Gabor, éléments de basedonnés et discutés. pour lextraction de caractéristiques, qui simulent la vision humaine et fournit une résolution optimale en temps et fréquence. Le principe consiste à décomposer limage à travers plusieurs filtres dimages avec des1. Introduction fréquences et orientations sélectives. Dans le présent article, nous allons adopter l’outil Les documents anciens sont des documents d’archives Gabor pour définir un système de segmentation d’imagesrédigés à une autre époque et obéissant donc à des règles de documents anciens, qui soit alors une premièretypographiques et de composition différentes de celles tentative et un premier pas dans la littérature desappliquées sur les documents modernes. méthodes de segmentation d’images de documents En effet, l’image d’un document ancien numérisé est anciens.souvent très tonale, à niveaux de gris ou en couleur. Ellepeut comprendre des annotations dans les marges, desillustrations, des lettrines, voire même des écritures 2. Théorie gaboriennemanuscrites. Ces documents se caractérisent par desprésentations et des écritures très variées, variations dues 2.1. Théorieà la multiplicité des styles et des techniques d’impressionqui ont évolué au cours du temps. L’usure du temps a, de Un filtre de Gabor est une fonction sinusoïdale àplus, produit des altérations au document original et laquelle on a rajouté une enveloppe gaussiennel’image numérisée qui en découle contient alors des (figure1.1). La fonction sinusoïdale est caractérisée parimperfections (taches, écritures fragmentées) qui sa fréquence et son orientation. Ainsi appliqué sur unen’existent pas dans les documents plus modernes. image, un filtre de Gabor peut être vu comme un La segmentation d’images de documents anciens en détecteur de segments dorientation particulière, puisquilvue de les indexer est un sujet de recherche. Les réagira aux arêtes perpendiculaires à la direction dedocuments anciens possèdent de nombreuses propagation du sinus [6].particularités qui ne permettent pas d’appliquer les Les techniques de filtrage multi-canaux permettenttechniques classiques d’analyse de documents lextraction des caractéristiques de texture localement, encomposites et d’OCR sur ces ouvrages. Ils sont dégradés, fréquence et orientation, pour tout pixel dans une régionreposent sur les anciennes techniques d’imprimerie et dintérêt. Cette méthode est particulièrement intéressanterespectent donc des règles particulières de typographie et vue quelle est inspirée du système de vision humain quide mise en forme. décompose limage projetée sur la rétine en un nombre La segmentation de texture est un sujet de base et important dimages filtrées, chacune contenant desimportant en traitement dimage. Elle consiste à variations dintensité fines de fréquences et dorientationssegmenter une image texturée en plusieurs régions ayant [3] .les mêmes caractéristiques de texture; elle est bien et Lidée de lapproche gaborienne est alors de concevoirbelle appliquée à lanalyse des images aériennes, images un filtrage particulièrement sélectif en fréquence etbiomédicales et des images sismiques, et récemment sur 1
  2. 2. orientation dans le but de caractériser au détail près les Dans le domaine fréquentiel, le signal est représenté textures. par deux gaussiennes selon laxe X, centrées en +u0 et -u0 L’idée de la segmentation de documents anciens à comme montré sur la figure1.2 [6]. l’aide d’outils texture est basée sur le constat que le texte et les illustrations peuvent êtres vus comme étant des zones fortement texturées. Figure 2. Banc de filtres de Gabor dans le domaine fréquentiel 2.2. Panorama Figure 1.1. La fonction de Gabor dans le domaine spatial Le filtre de Gabor est l’outil utilisé par excellence dans la segmentation et l’analyse de texture. Cependant, peu de travaux l’ont adopté pour la segmentation Texte/Dessin et particulièrement appliquée sur des documents contemporains. Jain et Bhattacharjee [3] proposent une méthode directe de segmentation Texte/Dessin en utilisant un banc de filtres de Gabor; la méthode ainsi définie permet de marquer les zones de texte des images de journaux. Trygve et al. [2] reposent sur les travaux de Jain et Bhattacharjee pour mettre au point un système de segmentation supervisé capable de séparer le texte, le dessin et le fond des images de documents fortementFigure 1.2. La fonction de Gabor dans le domaine fréquentiel bruités. Il est possible de segmenter des images de documents Mausumi et Malay [4] développent une méthode de à l’aide de plusieurs filtres selon des fréquences et des segmentation d’images de documents à l’aide du filtre de orientations différentes (Figure 2). Gabor utilisé dans un environnement à base d’ondelette. Une fonction de Gabor 2D « h » est une onde plane Le travail ainsi défini opte seulement pour le marquage sinusoïdale modulée par une enveloppe gaussienne et des zones de texte présentes dans des documents orientée avec un angle q selon laxe X. La formulation contemporains (principalement pages de journaux) et mathématique, dans le domaine spatial pour une une analyse de l’efficacité en intégrant l’outil Gabor fréquence fondamentale u0 selon laxe X (c.à.d. q = 0°), dans une analyse multirésolution. est : 2.3. Ce qu’il faut retenir 1 −1 x 2 y 2h  x , y = exp [  ].cos 2 U 0 x  (1) 2  x  y  2  2 2 x y Si les approches de segmentation d’images de documents ascendantes/descendantes sont à privilégier où sx (respectivement sy) est l’écart type de la lorsque l’on traite des documents fortement structurés où gaussienne selon laxe X (respectivement Y). les modèles sont connus, il semble plus approprié de se Les filtres à orientation q (q∫0) sont obtenus en baser sur l’analyse de texture si, à l’instar des documents effectuant une rotation de léquation précédente. anciens, les images traitées sont faiblement structurées, La sélectivité du banc de filtre en orientation et fortement bruitées et surtout caractérisées par une forte fréquence est clairement illustrée dans le domaine variabilité de leur structure. fréquentiel, cest pour cette raison quon applique la Lobjectif du filtrage multi-canaux, à base de filtres de transformée de Fourier à léquation (1), et on obtient Gabor, est de transformer les segments entre les ainsi : différentes textures en des discontinuités détectables, H(u,v) = TF(h(x,y)) = donc pouvoir délimiter les différentes textures présentes 2 2 sur une image et l’extraire à l’aide d’un filtre de Gabor −1 u−u0  −1 uu 0  2 2 v v pour une fréquence et une orientation spécifiques. A[exp [ 2  2 ]exp [ 2  2 ]] (2) 2 u v 2 u v On utilise alors un banc de filtres de Gabor (fréquences et orientations sélectives) pour renvoyer les différentes zones (surfaces) des images dans chaque avec su = 1 / 2psx , sv = 1 / 2psy et A = 2psxsy . 2
  3. 3. canal, sachant que les zones de texte sont détectables à Le résultat de cette dernière fusion étant deux images, des fréquences importantes comparées aux zones la première détermine les zones de textes de l’image graphiques qui le sont pour de basses fréquences. d’origine, et la deuxième présente les zones graphiques. L’union de ces deux images donne lieu à l’image 3. Méthode de segmentation proposée segmentée recherchée. Nous allons décrire, dans ce qui suit, les différentes Image d’Entrée étapes de notre système de segmentation proposé. Filtrage 3-1 Bancs de Filtres et paramétrisation En se basant sur les travaux de Jain et BhattacharjeeSous – Banc de Filtres de Sous – Banc de Filtres de [3] et Trygve et al. [2], on a opté pour la définition de Gabor 1 Gabor 2 deux bancs de filtres, le premier spécifique pour (Hautes Fréquence) (Basses Fréquence) l’analyse du texte des images de documents anciens et le deuxième est destiné à capter les zones graphiques de GH1 GH1 GB1 GH1 ces mêmes images. F1θ1 F 3θ 5 F’1θ1 F’3θ5 Le 1er banc manipule trois hautes fréquences qu’on a jugé discriminantes pour l’analyse des zones de textes Extraction de Caractéristiques (16√2, 32√2 et 64√2) et le 2ème utilise aussi trois basses fréquences jugées fiables pour la détection des zones graphiques (1√2, 2√2 et 4√2).On a opté pour cinq orientations : 0°, 30°, 60°, 90° et 120°.15 caractéristiques 15 caractéristiques Les images de documents anciens sont des imagestextuelles par pixel graphiques par pixel riches en traits, à multiples orientations, ce qui fait que la variabilité des orientations choisies est objective et Classification justifiée.Image de Texte Image de Dessin 3.2. Images caractéristiques / Calcul de Fusion des résultats l’énergie locale L’étape suivante consiste à estimer l’énergie des réponses des filtres dans une région locale autour de chaque pixel. L’estimateur de l’énergie locale est utilisé Image résultante Segmentée dans le but d’identifier les zones dans chaque canal. Contrairement à beaucoup d’autres travaux [1], [2], [3], [4], qui utilisent une fonction d’énergie locale non-Figure 3. Schéma du processus de segmentation d’image linéaire avec un facteur de saturation de canal, on a utilisant un banc de filtres de Gabor adopté la fonction d’amplitude simple comme valeur de la fonction d’énergie locale engki(x,y) autour du pixel Notre méthode consiste à définir deux bancs de filtres (x,y) [4]. Ce choix se justifie par le fait qu’une fonction de Gabor, le premier destiné à détecter les zones d’énergie locale peut être pénalisante vu le caractère graphiques en manipulant des basses fréquences, et le compensatoire de son expression. Alors, pour favoriser deuxième utilise des hautes fréquences pour localiser les la précision, on décrit chaque pixel par sa seule fonction zones de texte (figure 3). d’amplitude : Une fonction d’énergie locale est appliquée sur engki(x,y) = hki(x,y) (3) chaque image filtrée pour obtenir ainsi une image caractéristique. Pour décider sur la classe d’appartenance où hki(x,y) est la réponse du kème filtre au pixel (x,y). d’un pixel (Texte/Dessin), on a appliqué une Formellement, l’image caractéristique Featki(x,y) Classification Floue en introduisant le concept de degré correspondante à l’image d’entrée hki est donnée par la d’appartenance qui détermine la « force » de chaque formule suivante : pixel à appartenir à une classe spécifique en raisonnant 1 sur la base d’un intervalle de valeurs (seuils Featki(x,y )= 2  m ,n   h ki m , n {(m,n) eGx,y} (4) G d’appartenance) calculés pour chaque pixel dans un Où Y() est l’estimateur de l’énergie locale et Gx,y est une voisinage donné. A partir de la base des images obtenue fenêtre GxG centrée au pixel de coordonnées (x,y). (images de Texte et images de Dessin), on établit une Il a été constaté qu’une fenêtre de taille 9x9 est fusion d’images pour chacune des classes à part, en appropriée [4]. associant des poids de contribution à la définition de la classe (texte ou dessin) pour chacune des orientations (méthode de fusion par vote). 3
  4. 4. 3.3. Classification Sur les images caractéristiques obtenues, on applique Calculer l’écart type (ρ) sur les degrés d’appartenance deune classification de type flou non supervisée dont le la matrice de voisinage (%)principe consiste à trouver une partition de chaque Si ρ < 50% alors (1) sinon (2)image, caractérisée par le degré d’appartenance d’un (1) Si deg(i,j) >= Moy(deg(k,l)) i-2<=k<=i+2,pixel (i,j) à une classe Ck [7], [8]. L’idée qui soutient Moy : moyenne j-2<=l<=j+2,l’approche par la logique floue est la possibilité Alors pixel (i,j) e Classe1 Sinon pixel (i,j) e Classe 1d’appartenance à la fois à plusieurs classes pour un pixelou une région donnée de l’image. L’approche par la (2) °/Calculer le nombre d’éléments avec un degrélogique floue en segmentation d’images se justifie donc d’appartenance supérieur à deg(i,j) (nb1)grâce à sa capacité d’engendrer une matrice des degrés Et le nombre d’éléments avec un degréd’appartenance. L’idée est qu’au lieu de chercher un d’appartenance inférieur à deg(i,j) (nb2);seuil unique S décidant l’appartenance à un ensemble °/ Si nb1>=nb2 alors pixel (i,j) e Classe1 Sinondans un contexte donné, il semble plus réaliste de pixel (i,j) e Classe 1considérer deux seuils S1<S2, avec une fonctiond’appartenance donnant à chaque pixel un degréd’appartenance (compris entre 0 et 1) selon lequel ondécide sur son appartenance à une classe. Suite à cette opération, chaque pixel sera attribuer à Dans notre cas, pour chaque banc de filtre, il existe une classe, ‘Texte’ ou ‘Non’ pour le premier sous-bancdeux classes : Texte – Non-Texte pour le 1er banc et de filtres et ‘Dessin’ ou ‘Non’ pour le second (figure 4).Dessin – Non-Dessin pour le 2ème. Une fois les pixels affectés à leurs classes, on procède L’initialisation des degrés d’appartenance se fait à une fusion des résultats d’affectation pour ne gardercomme suit : qu’une seule classe par pixel et fournir ainsi le résultat final de notre système de segmentation d’images de Si Fk(i,j) < S1 Alors App(i,j) C1; documents anciens. Uij-1 Fk(i,j); Sinon Si Fk(i,j) > S2 Alors App(i,j) C2; Matrices des degrés d’appartenance Uij-2 Fk(i,j) produites par l’opération de Uij-1 normalisation des résultats de filtrage dans un Sous Banc de Filtres de Gabor. Fk(i,j) : Degré d’appartenance du pixel (i,j) VC(i,j)={Uij-k,k=1..15} {résultat de la fuzzyfication des Featk(i,j)} e [0,1]; °/ Pour le Sous Banc de Filtres 1 (HF) : 1 D App : Matrice des affectations. deg(i, j ) = ∑ U ij −l , D = 15 Classe1 = Texte Classe1 = Non Texte C1 : Texte pour banc1 / Dessin pour banc2 D l =1 °/ Pour le Sous Banc de Filtres 2 (BF) : C2 : Non-Texte pour banc1/Non-Dessin pour banc2 Si deg(i,j)<S1 I(i,j)eClasse1 Classe1 = Dessin [Uij-k] : matrice des degrés d’appartenance Classe1 = Non Dessin Si deg(i,j)>S2 I(i,j)eClasse1 Parmi les techniques de la logique floue enclassification, l’algorithme C-Moyennes Floue (CMF) a Figure 4. Affectation des pixels aux classesété choisi pour son autonomie due à l’usage d’un correspondantes (Initialisation de la classificationclassificateur non supervisé. Cet algorithme utilise un floue)critère de minimisation des distances intra-classes et demaximisation des distances inter-classes mais en tenant 3.5. Fusion des résultats de chaque sous banc decompte des degrés d’appartenance. filtres L’exécution de cet algorithme permet d’affecter lespixels dont le degré d’appartenance est compris entre S1 Dans cette phase, on intègre les résultats de laet S2 aux classes jugées adéquates [7]. classification précédemment réalisée, et on génère une affectation plus appropriée des pixels. Comme résultat,3.4. Analyse de seuillage on obtient deux sous images de l’image d’origine, l’une produisant l’image du texte, et l’autre donne l’image des Le seuillage adopté dans notre méthode est trop zones graphiques.simple à mettre en œuvre et se situe dans la phase de On a adopté une heuristique de fusion par vote [7],défuzzyfication. [8], [9] moyennée par le nombre de filtres utilisés dans Il s’agit d’un seuillage local et adaptatif pour tout chaque banc, et dont le résultat est comparé à un seuilpixel dans un voisinage de 3x3. qu’on a fixé à 50%. Pour chaque sous-banc de filtres, le seuillage peut êtreformalisé comme suit : 3.6. Génération de l’image segmentée A partir du résultat de la fusion des sorties des deux sous banc de filtres, on regroupe les 2 images produites 4
  5. 5. pour avoir ainsi l’image segmentée de l’image de document ancien introduite en entrée. On définit une règle heuristique de priorité textuelle, on utilise l’opérateur XOR entre les deux résultats de classification (image de texte et image de dessin) pour éviter le conflit d’affectation ; le résultat de fusion contient, en premier lieu, les composants textuels (qui sont plus sûrs), en les excluant du résultat de Filtrage Filtrage classification de dessin, ensuite on affecte le résultat des (Banc de filtres 2) (Banc de filtres 1) pixels dessins restants. Les pixels sans étiquettes forment Basses Fréquences Basses Fréquences le fond de l’image (figure 5). Résultat de FCM – 2 Résultat de FCM - 1Sous – Banc de Filtres 2 XOR Sous - Banc de Filtres1 Vecteurs Vecteurs (Détection des zones (Détection des zones de Caractéristiques CMF Caractéristiques Texte graphiques) textes) Dessin Priorité Priorité Min Max XOR Image de document ancien segmentée : Texte / Dessin / Fond Figure 5. Processus de fusion des résultats de classification floue des 2 Sous Banc de Filtres Texte 4. Résultats Dessin Nous avons implanté et testé notre système sur une Fond base de 120 images de documents anciens tirées de quatre ouvrages de Vésale et nous avons calculé le taux Image de document ancien segmentée de reconnaissance obtenu (Voir figures 6 et 7). √2 Hz 8√2 Hz 16√2 Hz 64√2 Hz Figure 7. Exemple d’application du système de Apparition des zones Apparition des zones segmentation floue d’images de documents anciens par graphiques pour des textuelles pour des le filtre de Gabor fréquences basses fréquences hautes (Résultats de filtrage (Résultats de filtrage Voici quelques résultats obtenus : après seuillage) après seuillage) 0° 98.76% de pixels bien classés 01.34% de pixels mal classés 0% de pixels non classés 60° ² 98.75% de pixels bien classés 01.21% de pixels mal classés 90° 0.04% de pixels non classés Figure 6. Effets de la fréquence et l’orientation sur le résultat de filtrage (Résultats après seuillage) 5
  6. 6. sans bordure et avec lettrine seule, gros dessin, gros texte,….), un banc de filtres spécifique est nécessaire à définir. 93.08% de pixels bien classés 6.02% de pixels mal classés Les imperfections présentes dans quelques décisions 0.90% de pixels non classés de notre système peuvent être corrigées en incluant des mesures de texture dans la signature définie précédemment. Les applications à prévoir comme complément de notre travail peuvent être résumées dans ce qui suit :Discussion ► Intégration des mesures de texture de Tamura dans notre système et le valider sur une base d’images de Les résultats obtenus sont encourageants, cependant, documents anciens ;les valeurs calculées sur les exemples précédents ne sont ► Détermination des propriétés typographiques despas les mêmes pour d’autres types d’images de documents (types du texte / tailles des fonte,…) ;documents anciens (images de documents avec bordures ► Définir des primitives optimales et efficaces pour latexturées, des images avec de grands portraits finement quantification et la classification (segments, régions,...)texturée, images avec des zones ombrées,…). afin d’éviter le parcours exhaustif et répétitif de tous les Les résultats de la segmentation sont de plus en plus pixels ;parfaits que les zones graphiques soient de plus en plus ► Utiliser loutil Gabor pour lindexation et lahomogènes, cependant, si les zones graphiques consultation des bases de données dImages decontiennent des textures fines (similaires à des lignes, Documents Anciens.hachurées), alors le système décide du comportenttextuel de ces zones. 6. Références La structure des ombres, qui est principalementlinéaire, fait que ces zones seront classées en tant que [1] S. Raju S, P. Basa Pati, and A G Ramakrishnan, "Gaborzones de texte. Filter Based Block Energy for Text Extraction from Digital La taille de la police peut basculer la décision du Document Images", Proc. First International Workshop onsystème sur l’appartenance des pixels de ces zones, c-à-d Document Image Analysis for Libraries (DIAL’04) – 2004que tant que la taille grandisse, le système change la IEEEclasse d’appartenance de texte en dessin, ceci étant [2] T. Randen, J. Håkon Husǿy, Segmentation of Text/Imagelogique vu qu’un caractère de grande taille est qualifié Documents Using Texture Approaches Proc. Norway, Juinen zone homogène et se localise en basse fréquence. 1994.Malgré les bons résultats obtenus par notre système de [3] A. K. Jain and S. Bhattacharjee, Text Segmentation Usingsegmentation floue d’images de documents anciens, qui Gabor Filters for Automatic Document Processing, Machinea atteint un taux de 95% de bonnes réponses, un système Vision and Applications (1992) 5 : 169-184.de segmentation basé uniquement sur les réponses dufiltre de Gabor est loin d’être parfait ou meilleur. De ce [4] M. Acharyya and M. K. Kundu, Document Imagefait, d’autres connaissances (mesures de texture), autres Segmentation Using Wavelet Scale-Space Features, IEEEque les réponses des filtres de Gabor, sont indispensables Transactions on Circuits and Systems for Video Technology,pour améliorer les résultats et corriger les imperfections. Vol. 12, n° 12, December 2002. [5] N. Journet, R. Mullot, J.Y. Ramel, V. Eglin, "Ancient5. Conclusion et perspectives Printed Documents indexation :a new approach", International Conference on Advances in Pattern Recognition, August 2005. Nous avons exploité les propriétés du filtre de Gaborpour développer un système de segmentation floue [6] K. Hammouda, Texture Segmentation Using Gabord’images de documents anciens. Filters, SYDE 775, Image Processing, Department of Systems A chaque pixel, nous avons associé une signature Design Engineering, University of Waterloo, Canada, December 2000.composée de deux parties : l’une textuelle et l’autregraphique et dont chacune est définie par les réponses de [7] Y. Smara, N. Ouarab, "Techniques de fusion et defiltrage. classification floue d’images satellitaires multisources pour la L’approche floue adoptée se justifie par le caractère caractérisation et le suivi de l’extension du tissu urbain de laincertain de définition de seuil ou de borne séparant les région d’Alger (Algérie)", 2nd FIG Regional Conference –réponses des pixels graphiques et des pixels des zones de Marrakech, Morocco, December 2-5, 2003.texte. Les résultats obtenus sont très encourageants, [8] J.C.Bezdek, "Pattern Recognition with Fuzzy Objectivecependant, la généralisation de l’ensemble des Function Algorithms", Plenum Press, New York, 1981.paramètres du banc de filtres semble une tâche difficile, [9] A. Martin, "Fusion de classifieurs pour la classificationvoire même impraticable, de ce fait, pour chaque classe d’images sonar", Revue des Nouvelles Technologies ded’images de documents anciens (images avec bordure, l’Information RNTI-1, 2004. 6

×