AméLioration Du SystèMe De Reconnaissance De L’éCriture Arabe
1. 04/06/2009
Amélioration du système de
reconnaissance de l’écriture arabe
manuscrite, basé sur le réseau RNT-DF
Présenté par: Messaoudi Hafedh Encadré par: M. Maddouri Mondher
Mohamed Hichem Mme. Maddouri Samia
2. 1. Introduction
2. Systèmes de reconnaissance de l’écriture manuscrite
• Types de reconnaissance de l’écriture manuscrite
• Etapes de reconnaissance de l’écriture manuscrite
• Caractérisation de l’écriture arabe
• Système RNT-DF
3. Aspect méthodologique
• Détection des points diacritiques
• Estimation du nombre des PAWs
• Détection des hampes
4. Aspect technique
• Problèmes de mémoires
• Interface
5. Conclusion et perspectives
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 2
3. Systèmes de
Systèmes de Aspect
Introduction Aspect Aspect Aspect technique
Introduction reconnaissance de de l’écriture
reconnaissance méthodologique Conclusion
l’écriture méthodologique technique
• Contexte
– Reconnaissance de l’écriture arabe manuscrite
• Discipline récente, apparue au début des années 80
• Domaine de recherche très disputé
• But
– Amélioration du système de reconnaissance de
l’écriture arabe manuscrite basé sur le réseau de
neurones transparents RNT-DF
• Améliorations méthodologique
• Amélioration technique
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 3
4. Systèmes de
Aspect Aspect
Introduction reconnaissance de Conclusion
l’écriture méthodologique technique
Types de reconnaissance de l’écriture manuscrite
• Deux types de reconnaissance
– Reconnaissance en ligne:
• Reconnaissance en temps réel du texte à partir de la
trajectoire du stylo
• Données sous forme de signal
– Reconnaissance hors ligne:
• Reconnaissance statique d’images
• Absence d’informations temporelles
Reconnaissance hors ligne est plus difficile (moins
d’informations)
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 4
5. Systèmes de
Aspect Aspect
Introduction reconnaissance de Conclusion
l’écriture méthodologique technique
Etapes de reconnaissance
Prétraitement
• Dilatation Extraction des
Reconnaissance
• Normalisation caractéristiques
•…
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 5
6. Systèmes de
Aspect Aspect
Introduction reconnaissance de Conclusion
l’écriture méthodologique technique
Caractérisation de l’écriture arabe
Primitives Description
H Hampe
J Jambage
B Boucle
P Point diacritique au-dessus
du corps du mot
Q point diacritiQue au-
dessous du corps du mot
Rien des primitives ci-
R
dessus
D, M, F, I Position des primitives dans
le mot (D : Début, M :
Milieu, F : Fin, I : Isolé)
PAW
05/06/2009 13:18 Piece of Arabic WordHafedh , Mohamed Hichem
Messaoudi 6
7. Systèmes de
Aspect Aspect
Introduction reconnaissance de Conclusion
l’écriture méthodologique technique
Système RNT-DF: Architecture
• Réseau de Neurones Transparent – Descripteurs de Fourier
: Propagation
: Retropropagation
reconnaître
Couche Couche Couche Couche
reconnu
Mot à
Mot
des des lettres des PAWs des mots
primitives
H
J
B
P
… … …
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 7
8. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Détection des points diacritiques
• Méthode existante:
– Toute boucle détectée au dessus de la ligne
supérieure ou au dessous de la ligne inférieure est
un point diacritique
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 8
9. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Détection des points diacritiques
Observation
Boucle au dessus de la ligne Boucle au dessus de la ligne
supérieure supérieure
Ligne supérieure
Ligne de base
Ligne inférieure
Mauvaise détection
Bonne détection Point diacritique entre ligne
Non détection inférieure et supérieure
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 9
10. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Détection des points diacritiques
Observation
Boucle au dessus de
la ligne supérieure
Mauvaise détection
Bonne détection
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 10
11. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Détection des points diacritiques
Traitement
Proportionnalité de Nombre de points
la forme Remplissage interne de contour
Si (largeur > hauteur)
rapport = largeur / hauteur
Sinon
rapport = hauteur / largeur
Nombre Point de contours < Seuil
La boucle est considérée
proportionnelle si rapport < seuil
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 11
12. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Estimation du nombre des PAWs
Observation
Nombre PAWS
correct = 5
Nombre de PAWs
détectés = 6
Nombre PAWS
correct = 8
Nombre de PAWs
détectés = 10
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 12
13. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Estimation du nombre des PAWs
Traitement
Un PAW est éliminé si:
Sa largeur est Son plus haut point est Son plus bas point est au
supérieure à sa ET au dessous de la ligne OU dessus de la ligne
hauteur inférieure - une marge supérieure + une marge
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 13
14. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Détection des hampes
Observation et traitement
Détection des hampes à
partir de maximums
locaux
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 14
15. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Impact sur le taux de reconnaissance
Ancien taux:
13%
Mot reconnu
Nouveau
Taux: 18%
Le pourcentage des taux est par rapport à 6500 images traitées
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 15
16. Systèmes de
Systèmes de Aspect
Introduction Aspect Aspect Aspect technique
Introduction reconnaissance de de l’écriture
reconnaissance méthodologique Conclusion
l’écriture méthodologique technique
Description des modules d’IKRAA
Présentation technique
– Langage de
Nom du fichier Nombre programmation : C++
Nombre de Nombre de Nombre de Rôle
lignes de fonctions types de variables
– Approche fonctionnelle données
code
– Interface 36
ImageBMP.h en MFC 2 5 53 Saisie des images
LectureLoop1.c 2268 48 5 260 Extraction des
pp primitives
MainFrm.cpp 1120 25 5 96 Programme principal
Normalisation1 564 13 4 5 Normalisation par
.h DF
Pretraitement1 137 1 3 8 Prétraitement
.h
RNT_Recogniti 1030 59 6 154 Fonctionnement du
on_Words1.cp RNT-DF
p
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 16
17. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Problème de mémoire
Solution
Impact
Problème de Fuites de
mémoire
Traitement de 32 000 images à la fois en un temps réduit à
20h, comparé au fonctionnement en s’inspirant du Pattern
Gestion centralisé de de matrices de initial du système qui ne
Utilisation
la mémoire grandes taille
traitait«que 100 images à la»fois
du Garbage Collector
Certaines matrices vivent dans plusieurs
fonctions
Stockage des pointeurs sur matrices dans une liste afin de
Faciliter la tâcheles libérer ultérieurementqui allait jusqu’à
d’évaluation du système
prendre des jourssont difficiles à gérer
Les pointeurs en C voire des semaines
Nécessité de gestion avancée de la désallocation
de ces matrices
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 17
18. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Autres problèmes
Stack Overflow
• Observation
– Généralement causé par les fonctions récursives
– Certaines fonctions de l’application font appels à elles
mêmes plus de 10000 fois
– Impossible de traiter les images dont le nombre de pixels
dépasse 30000 pixels.
• Solution
– Convertir les fonctions récursives en itératives
• Impact
– Traitement d’image allant jusqu’à (10 000 x 10 000) pixels
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 18
19. Systèmes de
Aspect Aspect
Introduction reconnaissance Conclusion
méthodologique technique
de l’écriture
Autres problèmes
Interfaces
MFC GTK
Technologie obsolète Simplicité et rapidité
Utilisation exclusive de Visual
Studio Open Source,
Modèle événementiel complexe : multiplateforme
utilisation de boucle d’évènements
(messages)
Modèle événementielle
Présence obligatoire de la DLL
MFC42.dll pour fonctionner Callback/listener
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 19
21. Systèmes de
Systèmes de Aspect
Introduction Aspect Aspect Aspect technique
Introduction reconnaissance de de l’écriture
reconnaissance méthodologique Conclusion
l’écriture méthodologique technique
• Ce projet nous a permis de
– Avoir une expérience dans le domaine du
traitement d’image et de la reconnaissance de
l’écriture manuscrite
– Manipuler un système à réseaux de neurones
• Ce présent projet a été présenté dans un
workshop en Mars à Sousse dans le cadre des
travaux de collaboration effectués entre l’ENIS
l’ENIT et l’IFN allemande
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 21
22. Systèmes de
Systèmes de Aspect
Introduction Aspect Aspect Aspect technique
Introduction reconnaissance de de l’écriture
reconnaissance méthodologique Conclusion
l’écriture méthodologique technique
• Perspectives
– Améliorer les résultats d’extraction de
caractéristiques
– Ajouter des étapes de prétraitement (exemple:
squelettisation)
– Transformer l’application en P.O.O.
– Avoir de bons résultats lors de la première
participation arabe et tunisienne dans la
compétition ICDAR dans le domaine de la
reconnaissance de l’écriture arabe manuscrite
05/06/2009 13:18 Messaoudi Hafedh , Mohamed Hichem 22