Applying ocr to extract information : Text mining

•Download as PPTX, PDF•

0 likes•86 views

Text Analysis (TA) is a process which takes unseen texts as input and produces fixed-format, unambiguous data as output. This data may be used directly for display to users, or may be stored in a database or spreadsheet for later analysis, or may be used for indexing purposes in Information Retrieval (IR) applications.

Data & Analytics

Applying OCR to Extract Information: Text-Mining
Step 1:
Get Access of Scanned
PDF Documents
Step 2:
Use of Apache Tika
library to extract
textual data
Step 3:
Information extraction
from text to structured
tables
Data processing Steps:

Applying OCR to Extract Information: Text-Mining
Step 1: Access Scanned PDF documents
Extracting/Connecting data to Hadoop
server to get access of scanned PDF files
(document) in Python Environment.
Step 2: Text Extraction
Use of parser from Apache Tika library to
extract text from each assessment orders
and store in a table form with two columns
namely "Assessment Order ID" and "Actual
Text".
Synopsis of text extracted into a table:
Step 3: Information Extraction from text
Extracting following list of information with the use of Regular Expressions (pattern search) over Actual Text for
each document.
1) Name
2) Financial Year
3) PAN
4) Legal Citation (which includes citation of SC, HC & ITAT) and
5) Legal Issues associated with each document

1.Define
2.Design
3.Deploy
4.Analyze
5.Act
Define:
Identify specific requirements within use cases while highlighting risk factors
and estimate value opportunities
Design:
Design a tracking strategy that captures the appropriate data with proper
KPIs of the business requirement
Deploy:
Implement the technologies required to capture the data as along with the
measurement strategy design
Analyze:
Insight driven analyses to expose challenges and identify opportunities
Act:
Leverage Analysis to describe and prescribe the challenges with solutions
and uncover the hidden opportunities
Analytics Cycle
Text Analytics
Text Analysis (TA) is a process which takes unseen texts as input and produces fixed-format, unambiguous data as output.
This data may be used directly for display to users, or may be stored in a database or spreadsheet for later analysis, or may be
used for indexing purposes in Information Retrieval (IR) applications.

Documents
• Text Mining
• Topic Modeling
• Text Classification
• Named Entity Recognition
• Relation extraction
• Event detection
• Natural Language Toolkit (NLTK)
• Gensim,
• Scikit-Learn
Multi-dimensional Text Mining Tools
Word Frequency Analysis:
• Most Frequent words
• Frequency Distribution
Results
Text Classification:
• Multi-label Domain Specific
classified texts
Collocation Analysis
• Bigrams
• Trigrams and
• N-grams
Keyword Analysis
• Keyword Counts,
• Most prominent Categories
Topic Modeling
• Discovering Topics and
Categories
Performance Measures
• Accuracy, Precision, Recall,
F-Measures
Comprehensive tool set for
• Data editing and visualization
• Rapid application development
• Manual annotation
• Ontology management
User Interface
Text Analytics - Process Flow

Similar to Applying ocr to extract information : Text mining

data miningmanasa polu

Text mining and analytics v6 - p1Dave King

CNI 2018: A Research Object Authoring Tool for the Data CommonsAnita de Waard

Unit_8_Data_processing,_analysis_and_presentation_and_Application (1).pptxtesfkeb

Introduction Big DataFrank Kienle

Automated Data Capture and Extraction with ChronoScan for Automated Metadata ...DocuFi, offering HAI and Infection Prevention Analytics

Solved Big Data and Data Science Projects pdf.pdfProjectPro Big Data and Data Science Projects

Info 2402 irt-chapter_2Shahriar Rafee

ProjectsSummary.pptxJamesKirk79

Apache tikaNexThoughts Technologies

Data management (newest version)Graça Gabriel

Workflows for Publishing Data; Scientific Data's experience as an early adopterVarsha Khodiyar

Machine Learned Relevance at A Large Scale Search EngineSalford Systems

DataONE Education Module 07: MetadataDataONE

Top 30 Data Analyst Interview Questions.pdfShaikSikindar1

Page 18Goal Implement a complete search engine. Milestones.docxsmile790243

Dma unit 1thamizh arasi

Web_Mining_Overview_Nfaoui_El_HabibEl Habib NFAOUI

Apache CarbonData+Spark to realize data convergence and Unified high performa...Tech Triveni

Paper id 26201475IJRAT

Similar to Applying ocr to extract information : Text mining (20)

data mining

Text mining and analytics v6 - p1

CNI 2018: A Research Object Authoring Tool for the Data Commons

Unit_8_Data_processing,_analysis_and_presentation_and_Application (1).pptx

Introduction Big Data

Automated Data Capture and Extraction with ChronoScan for Automated Metadata ...

Solved Big Data and Data Science Projects pdf.pdf

Info 2402 irt-chapter_2

ProjectsSummary.pptx

Apache tika

Data management (newest version)

Workflows for Publishing Data; Scientific Data's experience as an early adopter

Machine Learned Relevance at A Large Scale Search Engine

DataONE Education Module 07: Metadata

Top 30 Data Analyst Interview Questions.pdf

Page 18Goal Implement a complete search engine. Milestones.docx

Dma unit 1

Web_Mining_Overview_Nfaoui_El_Habib

Apache CarbonData+Spark to realize data convergence and Unified high performa...

Paper id 26201475

Recently uploaded

Beautiful Sapna Vip Call Girls Hauz Khas 9711199012 Call /Whatsappssapnasaifi408

Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Callshivangimorya083

꧁❤ Aerocity Call Girls Service Aerocity Delhi ❤꧂ 9999965857 ☎️ Hard And Sexy ...Call Girls In Delhi Whatsup 9873940964 Enjoy Unlimited Pleasure

VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...Suhani Kapoor

Building on a FAIRly Strong Foundation to Connect Academic Research to Transl...Jack DiGiovanna

Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh9953056974 Low Rate Call Girls In Saket, Delhi NCR

Kantar AI Summit- Under Embargo till Wednesday, 24th April 2024, 4 PM, IST.pdfSocial Samosa

Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...Sapana Sha

Unveiling Insights: The Role of a Data AnalystSamantha Rae Coolbeth

Deep Generative Learning for All - The Gen AI Hype (Spring 2024)Universitat Politècnica de Catalunya

Customer Service Analytics - Make Sense of All Your Data.pptxEmmanuel Dauda

Low Rate Call Girls Bhilai Anika 8250192130 Independent Escort Service BhilaiSuhani Kapoor

VIP Call Girls Service Miyapur Hyderabad Call +91-8250192130Suhani Kapoor

Russian Call Girls Dwarka Sector 15 💓 Delhi 9999965857 @Sabina Modi VVIP MODE...Call Girls In Delhi Whatsup 9873940964 Enjoy Unlimited Pleasure

Indian Call Girls in Abu Dhabi O5286O24O8 Call Girls in Abu Dhabi By Independ...dajasot375

Industrialised data - the key to AI success.pdfLars Albertsson

VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...Call Girls In Delhi Whatsup 9873940964 Enjoy Unlimited Pleasure

Call Girls in Defence Colony Delhi 💯Call Us 🔝8264348440🔝soniya singh

Ukraine War presentation: KNOW THE BASICSAishani27

Full night 🥵 Call Girls Delhi New Friends Colony {9711199171} Sanya Reddy ✌️o...shivangimorya083

Recently uploaded (20)

Beautiful Sapna Vip Call Girls Hauz Khas 9711199012 Call /Whatsapps

Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call

꧁❤ Aerocity Call Girls Service Aerocity Delhi ❤꧂ 9999965857 ☎️ Hard And Sexy ...

VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...

Building on a FAIRly Strong Foundation to Connect Academic Research to Transl...

Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh

Kantar AI Summit- Under Embargo till Wednesday, 24th April 2024, 4 PM, IST.pdf

Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...

Unveiling Insights: The Role of a Data Analyst

Deep Generative Learning for All - The Gen AI Hype (Spring 2024)

Customer Service Analytics - Make Sense of All Your Data.pptx

Low Rate Call Girls Bhilai Anika 8250192130 Independent Escort Service Bhilai

VIP Call Girls Service Miyapur Hyderabad Call +91-8250192130

Russian Call Girls Dwarka Sector 15 💓 Delhi 9999965857 @Sabina Modi VVIP MODE...

Indian Call Girls in Abu Dhabi O5286O24O8 Call Girls in Abu Dhabi By Independ...

Industrialised data - the key to AI success.pdf

VIP Call Girls Service Charbagh { Lucknow Call Girls Service 9548273370 } Boo...

Call Girls in Defence Colony Delhi 💯Call Us 🔝8264348440🔝

Ukraine War presentation: KNOW THE BASICS

Full night 🥵 Call Girls Delhi New Friends Colony {9711199171} Sanya Reddy ✌️o...

Applying ocr to extract information : Text mining

1. Applying OCR to Extract Information: Text-Mining Step 1: Get Access of Scanned PDF Documents Step 2: Use of Apache Tika library to extract textual data Step 3: Information extraction from text to structured tables Data processing Steps:

2. Applying OCR to Extract Information: Text-Mining Step 1: Access Scanned PDF documents Extracting/Connecting data to Hadoop server to get access of scanned PDF files (document) in Python Environment. Step 2: Text Extraction Use of parser from Apache Tika library to extract text from each assessment orders and store in a table form with two columns namely "Assessment Order ID" and "Actual Text". Synopsis of text extracted into a table: Step 3: Information Extraction from text Extracting following list of information with the use of Regular Expressions (pattern search) over Actual Text for each document. 1) Name 2) Financial Year 3) PAN 4) Legal Citation (which includes citation of SC, HC & ITAT) and 5) Legal Issues associated with each document

3. 1.Define 2.Design 3.Deploy 4.Analyze 5.Act Define: Identify specific requirements within use cases while highlighting risk factors and estimate value opportunities Design: Design a tracking strategy that captures the appropriate data with proper KPIs of the business requirement Deploy: Implement the technologies required to capture the data as along with the measurement strategy design Analyze: Insight driven analyses to expose challenges and identify opportunities Act: Leverage Analysis to describe and prescribe the challenges with solutions and uncover the hidden opportunities Analytics Cycle Text Analytics Text Analysis (TA) is a process which takes unseen texts as input and produces fixed-format, unambiguous data as output. This data may be used directly for display to users, or may be stored in a database or spreadsheet for later analysis, or may be used for indexing purposes in Information Retrieval (IR) applications.

4. Documents • Text Mining • Topic Modeling • Text Classification • Named Entity Recognition • Relation extraction • Event detection • Natural Language Toolkit (NLTK) • Gensim, • Scikit-Learn Multi-dimensional Text Mining Tools Word Frequency Analysis: • Most Frequent words • Frequency Distribution Results Text Classification: • Multi-label Domain Specific classified texts Collocation Analysis • Bigrams • Trigrams and • N-grams Keyword Analysis • Keyword Counts, • Most prominent Categories Topic Modeling • Discovering Topics and Categories Performance Measures • Accuracy, Precision, Recall, F-Measures Comprehensive tool set for • Data editing and visualization • Rapid application development • Manual annotation • Ontology management User Interface Text Analytics - Process Flow

Applying ocr to extract information : Text mining

Recommended

Recommended

More Related Content

Similar to Applying ocr to extract information : Text mining

Similar to Applying ocr to extract information : Text mining (20)

Recently uploaded

Recently uploaded (20)

Applying ocr to extract information : Text mining