OCR

2,336 views
2,232 views

Published on

Published in: Technology, Art & Photos
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,336
On SlideShare
0
From Embeds
0
Number of Embeds
25
Actions
Shares
0
Downloads
42
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

OCR

  1. 1. Kinga Dudzic Agata Wajda Agnieszka Gurgul
  2. 2. OPROGRAMOWANIE OCR <ul><li>Oprogramowanie OCR umożliwia odczytywanie informacji z papieru i przełożenie jej na język zrozumiały dla przeciętnego komputera. </li></ul><ul><li>OCR (Optical Character Recognition- optyczne rozpoznawanie znaków). </li></ul>www.aurorabarcode.com/ OCR_Systems.htm
  3. 3. OCR – aplikacje do rozpoznawania tekstu, przegląd.  <ul><li>Początkowo był to stosunkowo prosty, sprzętowy mechanizm polegający na porównywaniu pojedynczych liter z ich odpowiednikami na liście wzorców. W połowie lat sześćdziesiątych wprowadzone zostały w tym celu dwa znormalizowane zestawy znaków: OCR-A i OCR-B. </li></ul>
  4. 4. OCR-A i OCR-B <ul><li>W praktyce oznacza to, że każda litera A, B lub C jest identyfikowana tylko wówczas, gdy wygląda identycznie jak odpowiadający jej znak wzorcowy. W przeciwnym wypadku litera taka będzie ignorowana bądź sygnalizowana jako błąd.     Później na rynku pojawiły się bardziej zaawansowane urządzenia odczytujące, które oprócz znaków OCR-A i OCR-B potrafiły także rozpoznać standardowe pisma maszynowe. Nadal jednak do tego celu była wykorzystywana technika &quot;porównywania ze wzorcem&quot; (Matrix Matching), polegająca na porównywaniu rozpoznawanego znaku z zapamiętanym, matrycowym wzorcem czcionki. </li></ul>
  5. 5. Obecnie rozpoznawaniem znaków zajmuje się nowocześniejszy system ICR (Intelligent Character Recognition). <ul><li>Etapy skanowania oprogramowaniem ICR: </li></ul><ul><li>Wstępne przetwarzanie obrazu strony (Preprocessing), </li></ul><ul><li>Segmentacja (Atto Zoning lub Page Decomposition), </li></ul><ul><li>Rozpoznawanie znaków (Charter Recognition), </li></ul><ul><li>Analiza językowa (Language Analysis). </li></ul>http://www.retetesauro.net/immagini/ICR.jpg
  6. 6. WSTĘPNE ROZPOZNAWANIE OBRAZU STRONY     Pierwszy etap to wstępne przetworzenie obrazu strony (Preprocessing) . Na tym etapie automatycznie wykrywana i korygowana jest orientacja tekstu na stronie - program sprawdza, czy wydruk nie został włożony do skanera &quot;do góry nogami”. Program ustala, czy ma do czynienia z drukiem &quot;czarno na białym&quot;, czy też wydruk jest negatywem - białe litery na czarnym tle.
  7. 7. SEGMENTACJA <ul><li>W trakcie segmentacji (Atto Zoning lub Page Decomposition) , program automatycznie wykrywa te fragmenty obrazu, które warto rozpoznawać. Rezultatem tej operacji jest wyróżnienie w obrazie dokumentu obszarów zawierających tekst, grafikę, zdjęcia lub, tabele. Dodatkowo ustalana jest kolejność obszarów tekstowych, tak aby wynik rozpoznawania jak najdokładniej odzwierciedlał logiczny porządek tekstu w skanowanym dokumencie. Regułą jest to, że użytkownik może manualnie skorygować rezultat segmentacji. </li></ul>
  8. 8. ROZPOZNAWANIE ZNAKÓW <ul><li>Kolejny etap to rozpoznawanie znaków (Character Recognition) . Podczas rozpoznawania obraz dokumentu, wiersz po wierszu, znak po znaku, zamieniany jest na tekst. Nowoczesne programy ICR wykorzystują co najmniej dwie, równolegle działające metody konwersji obrazu na znaki, a ostateczny rezultat tejże konwersji weryfikuje i ustala specjalny system ekspertowy. </li></ul>
  9. 9. ANALIZA JĘZYKOWA <ul><li>Ostatnim krokiem jest analiza językowa (Language Analysis) . W prostszych systemach OCR analiza językowa jest całkowicie oddzielona od etapu rozpoznawania znaków i sprowadza się do wykrywania literówek (Spell Checking) na podstawie słownictwa wybranego języka. W programach ICR algorytmy analizy językowej uczestniczą w rozpoznawaniu znaków i pełnią funkcję ekspertów przejmujących odpowiedzialność za ostateczny wynik, a wykorzystują do tego wiedzę zarówno o słownictwie, jak i o gramatyce. </li></ul>
  10. 10. PODSUMOWANIE <ul><li>Najnowszej generacji oprogramowanie do skanerów potrafi samodzielnie rozpoznać rodzaj skanowanego dokumentu, dopasowuje na bieżąco tryb pracy i automatycznie koryguje tryb pracy urządzenia. Najbardziej wyrafinowane sterowniki potrafią nawet automatycznie tak dobierać rozdzielczość, aby nie pojawiały się zakłócenia w obrazie skanowanego dokumentu, charakterystyczne przy transformacji danych z postaci analogowej na cyfrową. </li></ul>
  11. 11. BIBLIOGRAFIA <ul><li>http://republika.pl/pracownia3d/skanowanie.htm </li></ul><ul><li>http://www.quedex.com/show.php?prod=135&firm=29 </li></ul><ul><li>Prezentacja- Mirosława Mortki WT-INFORMATYKA 2000/2001 </li></ul><ul><li>http://www.ssi.civ.pl/data/rozdzielczosc.php </li></ul><ul><li>www. twojepc.pl/artykuly.php?id=plustek_opticpro_s... </li></ul>

×