20070702 Text Categorization

Text Categorization Chapter 16 Foundations of Statistical Natural Language Processing

Outline ,[object Object],[object Object],[object Object],[object Object],[object Object]

Classification ,[object Object],[object Object],Parse trees Sentence PP attachment The word’s seneses Context of a word Disambiguation topics Document Text categorization Languages Document Language identification Document authors Document Author identification The word’s (POS) tags Context of a word Tagging Categories Object Problem

Task Description ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Task Formulation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],A data representation model g(x) = 0 x1 x2 w w = (1,1) b = -1 w x2 + b < 0 w x1 + b > 0 (0,1) (1,0)

Evaluation(1) ,[object Object],[object Object],[object Object],Contingency table d c No was assigned b a Yes was assigned No is correct Yes is correct

Evaluation(2) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

E.g. A trained decision tree for category “earnings” Doc = {cts=1, net =3} Node1 7681 articles P(c|n1) = 0.3000 split: cts value: 2 Node2 5977 articles P(c|n2) = 0.116 split: net value: 1 Node5 1704 articles P(c|n5) = 0.943 split: vs value: 2 Node3 5436 articles P(c|n3) = 0.050 Node4 541 articles P(c|n4) = 0.649 Node6 301 articles P(c|n6) = 0.694 Node7 1403 articles P(c|n7) = 0.996 cts < 2 cts >= 2 net<1 Net>= 1 vs <2 vs >= 2

A Closer Look on the E.g. ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Presentation Model (1) ,[object Object],[object Object],[object Object],[object Object],[object Object],Ref to: Chap 5

Data Presentation Model (2) ,[object Object],[object Object],[object Object],[object Object]

Training Procedure: Growing (1) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Entropy of parent Node Proportion of elements that passed on to the left nodes Ref. Machine Learning

Training Procedure: Growing (2) ,[object Object],[object Object],[object Object],[object Object],cts < 2 cts >= 2 Node1 7681 articles P(c|n1) = 0.3000 split: cts value: 2 Node2 5977 articles2 p(c|n) = 0.116 Node5 1704 articles P(c|n5) = 0.943

Training Procedure: pruning (1) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Ref to :chap3 (3.7.1) machine learning

Training Procedure: pruning (2) ,[object Object],[object Object]

Discussion ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Part III ,[object Object],[object Object],[object Object],[object Object]

Basic Idea ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Data Presentation Model ,[object Object],[object Object],[object Object]

Model Class ,[object Object],[object Object],[object Object],[object Object]

Training Process: Generalized Iterative Scaling ,[object Object],[object Object],[object Object],[object Object],[object Object]

The Principle of Maximum Entropy ,[object Object],[object Object],[object Object],[object Object],[object Object]

Application to Text Categorization ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Models ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Perceptron learning Procedure: gradient descent ,[object Object],[object Object],[object Object]

Perceptron learning Procedure: Basic Idea ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],j-th item in the weight vector j-th item in the input vector expected output & output

Why ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Discussion ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Nearest Neighbor ,[object Object]

K Nearest Neighbor ,[object Object],[object Object]

Discussion ,[object Object],[object Object],[object Object],[object Object],[object Object]

20070702 Text Categorization

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 20070702 Text Categorization

Similar to 20070702 Text Categorization (20)

Recently uploaded

Recently uploaded (20)

20070702 Text Categorization