OCR

  • 1,900 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,900
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
36
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Kinga Dudzic Agata Wajda Agnieszka Gurgul
  • 2. OPROGRAMOWANIE OCR
    • Oprogramowanie OCR umożliwia odczytywanie informacji z papieru i przełożenie jej na język zrozumiały dla przeciętnego komputera.
    • OCR (Optical Character Recognition- optyczne rozpoznawanie znaków).
    www.aurorabarcode.com/ OCR_Systems.htm
  • 3. OCR – aplikacje do rozpoznawania tekstu, przegląd. 
    • Początkowo był to stosunkowo prosty, sprzętowy mechanizm polegający na porównywaniu pojedynczych liter z ich odpowiednikami na liście wzorców. W połowie lat sześćdziesiątych wprowadzone zostały w tym celu dwa znormalizowane zestawy znaków: OCR-A i OCR-B.
  • 4. OCR-A i OCR-B
    • W praktyce oznacza to, że każda litera A, B lub C jest identyfikowana tylko wówczas, gdy wygląda identycznie jak odpowiadający jej znak wzorcowy. W przeciwnym wypadku litera taka będzie ignorowana bądź sygnalizowana jako błąd.     Później na rynku pojawiły się bardziej zaawansowane urządzenia odczytujące, które oprócz znaków OCR-A i OCR-B potrafiły także rozpoznać standardowe pisma maszynowe. Nadal jednak do tego celu była wykorzystywana technika "porównywania ze wzorcem" (Matrix Matching), polegająca na porównywaniu rozpoznawanego znaku z zapamiętanym, matrycowym wzorcem czcionki.
  • 5. Obecnie rozpoznawaniem znaków zajmuje się nowocześniejszy system ICR (Intelligent Character Recognition).
    • Etapy skanowania oprogramowaniem ICR:
    • Wstępne przetwarzanie obrazu strony (Preprocessing),
    • Segmentacja (Atto Zoning lub Page Decomposition),
    • Rozpoznawanie znaków (Charter Recognition),
    • Analiza językowa (Language Analysis).
    http://www.retetesauro.net/immagini/ICR.jpg
  • 6. WSTĘPNE ROZPOZNAWANIE OBRAZU STRONY     Pierwszy etap to wstępne przetworzenie obrazu strony (Preprocessing) . Na tym etapie automatycznie wykrywana i korygowana jest orientacja tekstu na stronie - program sprawdza, czy wydruk nie został włożony do skanera "do góry nogami”. Program ustala, czy ma do czynienia z drukiem "czarno na białym", czy też wydruk jest negatywem - białe litery na czarnym tle.
  • 7. SEGMENTACJA
    • W trakcie segmentacji (Atto Zoning lub Page Decomposition) , program automatycznie wykrywa te fragmenty obrazu, które warto rozpoznawać. Rezultatem tej operacji jest wyróżnienie w obrazie dokumentu obszarów zawierających tekst, grafikę, zdjęcia lub, tabele. Dodatkowo ustalana jest kolejność obszarów tekstowych, tak aby wynik rozpoznawania jak najdokładniej odzwierciedlał logiczny porządek tekstu w skanowanym dokumencie. Regułą jest to, że użytkownik może manualnie skorygować rezultat segmentacji.
  • 8. ROZPOZNAWANIE ZNAKÓW
    • Kolejny etap to rozpoznawanie znaków (Character Recognition) . Podczas rozpoznawania obraz dokumentu, wiersz po wierszu, znak po znaku, zamieniany jest na tekst. Nowoczesne programy ICR wykorzystują co najmniej dwie, równolegle działające metody konwersji obrazu na znaki, a ostateczny rezultat tejże konwersji weryfikuje i ustala specjalny system ekspertowy.
  • 9. ANALIZA JĘZYKOWA
    • Ostatnim krokiem jest analiza językowa (Language Analysis) . W prostszych systemach OCR analiza językowa jest całkowicie oddzielona od etapu rozpoznawania znaków i sprowadza się do wykrywania literówek (Spell Checking) na podstawie słownictwa wybranego języka. W programach ICR algorytmy analizy językowej uczestniczą w rozpoznawaniu znaków i pełnią funkcję ekspertów przejmujących odpowiedzialność za ostateczny wynik, a wykorzystują do tego wiedzę zarówno o słownictwie, jak i o gramatyce.
  • 10. PODSUMOWANIE
    • Najnowszej generacji oprogramowanie do skanerów potrafi samodzielnie rozpoznać rodzaj skanowanego dokumentu, dopasowuje na bieżąco tryb pracy i automatycznie koryguje tryb pracy urządzenia. Najbardziej wyrafinowane sterowniki potrafią nawet automatycznie tak dobierać rozdzielczość, aby nie pojawiały się zakłócenia w obrazie skanowanego dokumentu, charakterystyczne przy transformacji danych z postaci analogowej na cyfrową.
  • 11. BIBLIOGRAFIA
    • http://republika.pl/pracownia3d/skanowanie.htm
    • http://www.quedex.com/show.php?prod=135&firm=29
    • Prezentacja- Mirosława Mortki WT-INFORMATYKA 2000/2001
    • http://www.ssi.civ.pl/data/rozdzielczosc.php
    • www. twojepc.pl/artykuly.php?id=plustek_opticpro_s...