OCR
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

OCR

on

  • 2,995 views

 

Statistics

Views

Total Views
2,995
Views on SlideShare
2,995
Embed Views
0

Actions

Likes
0
Downloads
33
Comments
0

0 Embeds 0

No embeds

Accessibility

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

OCR Presentation Transcript

  • 1. Kinga Dudzic Agata Wajda Agnieszka Gurgul
  • 2. OPROGRAMOWANIE OCR
    • Oprogramowanie OCR umożliwia odczytywanie informacji z papieru i przełożenie jej na język zrozumiały dla przeciętnego komputera.
    • OCR (Optical Character Recognition- optyczne rozpoznawanie znaków).
    www.aurorabarcode.com/ OCR_Systems.htm
  • 3. OCR – aplikacje do rozpoznawania tekstu, przegląd. 
    • Początkowo był to stosunkowo prosty, sprzętowy mechanizm polegający na porównywaniu pojedynczych liter z ich odpowiednikami na liście wzorców. W połowie lat sześćdziesiątych wprowadzone zostały w tym celu dwa znormalizowane zestawy znaków: OCR-A i OCR-B.
  • 4. OCR-A i OCR-B
    • W praktyce oznacza to, że każda litera A, B lub C jest identyfikowana tylko wówczas, gdy wygląda identycznie jak odpowiadający jej znak wzorcowy. W przeciwnym wypadku litera taka będzie ignorowana bądź sygnalizowana jako błąd.     Później na rynku pojawiły się bardziej zaawansowane urządzenia odczytujące, które oprócz znaków OCR-A i OCR-B potrafiły także rozpoznać standardowe pisma maszynowe. Nadal jednak do tego celu była wykorzystywana technika "porównywania ze wzorcem" (Matrix Matching), polegająca na porównywaniu rozpoznawanego znaku z zapamiętanym, matrycowym wzorcem czcionki.
  • 5. Obecnie rozpoznawaniem znaków zajmuje się nowocześniejszy system ICR (Intelligent Character Recognition).
    • Etapy skanowania oprogramowaniem ICR:
    • Wstępne przetwarzanie obrazu strony (Preprocessing),
    • Segmentacja (Atto Zoning lub Page Decomposition),
    • Rozpoznawanie znaków (Charter Recognition),
    • Analiza językowa (Language Analysis).
    http://www.retetesauro.net/immagini/ICR.jpg
  • 6. WSTĘPNE ROZPOZNAWANIE OBRAZU STRONY     Pierwszy etap to wstępne przetworzenie obrazu strony (Preprocessing) . Na tym etapie automatycznie wykrywana i korygowana jest orientacja tekstu na stronie - program sprawdza, czy wydruk nie został włożony do skanera "do góry nogami”. Program ustala, czy ma do czynienia z drukiem "czarno na białym", czy też wydruk jest negatywem - białe litery na czarnym tle.
  • 7. SEGMENTACJA
    • W trakcie segmentacji (Atto Zoning lub Page Decomposition) , program automatycznie wykrywa te fragmenty obrazu, które warto rozpoznawać. Rezultatem tej operacji jest wyróżnienie w obrazie dokumentu obszarów zawierających tekst, grafikę, zdjęcia lub, tabele. Dodatkowo ustalana jest kolejność obszarów tekstowych, tak aby wynik rozpoznawania jak najdokładniej odzwierciedlał logiczny porządek tekstu w skanowanym dokumencie. Regułą jest to, że użytkownik może manualnie skorygować rezultat segmentacji.
  • 8. ROZPOZNAWANIE ZNAKÓW
    • Kolejny etap to rozpoznawanie znaków (Character Recognition) . Podczas rozpoznawania obraz dokumentu, wiersz po wierszu, znak po znaku, zamieniany jest na tekst. Nowoczesne programy ICR wykorzystują co najmniej dwie, równolegle działające metody konwersji obrazu na znaki, a ostateczny rezultat tejże konwersji weryfikuje i ustala specjalny system ekspertowy.
  • 9. ANALIZA JĘZYKOWA
    • Ostatnim krokiem jest analiza językowa (Language Analysis) . W prostszych systemach OCR analiza językowa jest całkowicie oddzielona od etapu rozpoznawania znaków i sprowadza się do wykrywania literówek (Spell Checking) na podstawie słownictwa wybranego języka. W programach ICR algorytmy analizy językowej uczestniczą w rozpoznawaniu znaków i pełnią funkcję ekspertów przejmujących odpowiedzialność za ostateczny wynik, a wykorzystują do tego wiedzę zarówno o słownictwie, jak i o gramatyce.
  • 10. PODSUMOWANIE
    • Najnowszej generacji oprogramowanie do skanerów potrafi samodzielnie rozpoznać rodzaj skanowanego dokumentu, dopasowuje na bieżąco tryb pracy i automatycznie koryguje tryb pracy urządzenia. Najbardziej wyrafinowane sterowniki potrafią nawet automatycznie tak dobierać rozdzielczość, aby nie pojawiały się zakłócenia w obrazie skanowanego dokumentu, charakterystyczne przy transformacji danych z postaci analogowej na cyfrową.
  • 11. BIBLIOGRAFIA
    • http://republika.pl/pracownia3d/skanowanie.htm
    • http://www.quedex.com/show.php?prod=135&firm=29
    • Prezentacja- Mirosława Mortki WT-INFORMATYKA 2000/2001
    • http://www.ssi.civ.pl/data/rozdzielczosc.php
    • www. twojepc.pl/artykuly.php?id=plustek_opticpro_s...