[ppt]
Upcoming SlideShare
Loading in...5
×
 

[ppt]

on

  • 666 views

 

Statistics

Views

Total Views
666
Slideshare-icon Views on SlideShare
666
Embed Views
0

Actions

Likes
0
Downloads
3
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • インターネットの普及やコンピュータを用いた文書の電子化が進むにつれて、 メールやニュース、ブログ等、大量の電子化されたデータが入手可能となってきた。 それに従い、時間や人的コストの観点から、 人手を介さずに大量の文書を効率良く分類する必要が高まってきている。
  • 例えばテキストを自動的にどのトピックに属するかを調べたり、 Webからの評判を抽出、といった応用が挙げられる。
  • そこで、テキストを自動で分類するための手法として最も広く用いられているのが、 単語などのテキスト情報を元にした機械学習の手法である。 機械学習は広く分けて教師あり、教師無し、があるが、 本輪講では教師あり学習について述べる
  • ここでテキスト分類における機械学習の主な流れを示す。 まず、自然言語で書かれたテキストを機械が扱えるような形に変換する。 (特徴抽出) そしてその特徴を用いて学習器で学習する。 (学習) 未知のデータが来た場合、訓練した学習器を元にデータを分類する。 (分類) このようにテキスト分類は一般で用いられる機械学習の流れとほぼ同じなため、 機械学習の分野で広く研究されている。 ここでは、このそれぞれの段階について用いられている手法の調査を行う。
  • ここではテキストデータからの特徴抽出について説明する。 まず、自然言語で書かれたデータを形態素解析等を用いて何らかの数値データに変換する必要がある。
  • この場合、例えば英語で言えばthe, for, 等の非常に頻繁に出てくる単語は「ストップワード」として 取り除かれる必要がある。
  • まず最初に思いつく最も単純な方法として、各単語の出現回数を数える方法が考えられる。 文書数×単語数のベクトルを考え、どの文書にどの単語が何回出現するのか、を表す。 この場合、非常に単純にデータを扱うことが出来るが、出現回数のみを見ているのであまり精度が出ない
  • ここで考えられるのが tf-idf 法である。 これは、(単語がある文書に出てくる頻度) × (単語が出てくる文書数の逆数)をとったもので、 文書に頻繁に出てきて、また全体ではあまり出てこない単語に高い重みがつくようになっており、 テキスト分類における特徴抽出の方法として広く用いられている。 基本的に文書の特徴は tf-idf か、あるいはこの値を正規化したものを用いることが 事実上標準となっており、新たな研究はあまり行われていない。
  • 上のままだと文書を表すベクトルが文書数×辞書の単語数、とかなり大きくなってしまう。 そこで、この次元数を削減するために特徴選択が用いられる。
  • ここで用いられているものは、まず一つは出現頻度に特定のスレッショルドを設けることである。 単語が出てくる文書数一定回以上出てない単語は学習に用いない。 これは、非常に少ない文書にしか出てこない単語は分類の役に立たないであろう、という推測に基づいている。

[ppt] [ppt] Presentation Transcript

  • A Survey on Text Categorization with Machine Learning Chikayama lab. Dai Saito
  • Introduction: Text Categorization
    • Many digital Texts are available
      • E-mail, Online news, Blog …
    • Need of Automatic Text Categorization is increasing
      • without human resource
      • Merits of time and cost
  • Introduction: Text Categorization
    • Application
      • Spam filter
      • Topic Categorization
  • Introduction: Machine Learning
    • Making Categorization rule automatically by Feature of Text
    • Types of Machine Learning (ML)
      • Supervised Learning
        • Labeling
      • Unsupervised Learning
        • Clustering
  • Introduction: flow of ML
    • Prepare training Text data with label
      • Feature of Text
    • Learn
    • Categorize new Text
    Label1 Label2 ?
  • Outline
    • Introduction
    • Text Categorization
    • Feature of Text
    • Learning Algorithm
    • Conclusion
  • Number of labels
    • Binary-label
      • True or False (Ex. spam or not)
      • Applied for other types
    • Multi-label
      • Many labels, but One Text has one label
    • Overlapping-label
      • One Text has some labels
    Yes No L1 L2 L3 L4 L1 L2 L3 L4
  • Types of labels
    • Topic Categorization
      • Basic Task
      • Compare individual words
    • Author Categorization
    • Sentiment Categorization
      • Ex) Review of products
      • Need more linguistic information
  • Outline
    • Introduction
    • Text Categorization
    • Feature of Text
    • Learning Algorithm
    • Conclusion
  • Feature of Text
    • How to express a feature of Text?
      • “ Bag of Words”
        • Ignore an order of words
      • Structure
        • Ex) I like this car. | I don’t like this car.
          • “ Bag of Words” will not work well
      • (d:document = text)
      • (t:term = word)
  • Preprocessing
    • Remove stop words
      • “ the” “a” “for” …
    • Stemming
      • relational -> relate, truly -> true
  • Term Weighting
    • Term Frequency
      • Number of a term in a document
      • Frequent terms in a document seems to be important for categorization
    • tf ・ idf
      • Terms appearing in many documents are not useful for categorization
  • Sentiment Weighting
    • For sentiment classification, weight a word as Positive or Negative
    • Constructing sentiment dictionary
    • WordNet [04 Kamps et al.]
      • Synonym Database
      • Using a distance from ‘good’ and ‘bad’
    d (good, happy) = 2 d (bad, happy) = 4 good bad happy
  • Dimension Reduction
    • Size of feature vector is (#terms)*(#documents)
      • #terms ≒ size of dictionary
      • High calculation cost
      • Risk of overfitting
        • Best for training data ≠ Best for real data
    • Choosing effective feature
      • to improve accuracy and calculation cost
  • Dimension Reduction
    • df-threshold
      • Terms appearing in very few documents (ex.only one) are not important
    •    Score
      •  
      • If t and cj are independent, Score is equal to Zero
  • Outline
    • Introduction
    • Text Categorization
    • Feature of Text
    • Learning Algorithm
    • Conclusion
  • Learning Algorithm
    • Many (Almost all?) algorithms are used in Text Categorization
      • Simple approach
        • Naïve Bayes
        • K-Nearest Neighbor
      • High performance approach
        • Boosting
        • Support Vector Machine
      • Hierarchical Learning
  • Naïve Bayes
    • Bayes Rule
    • This value is hard to calculate
      • ?
      • Assumption : each terms occurs independently
  • k-Nearest Neighbor
    • Define a “distance” of two Texts
      • Ex)Sim(d1, d2) = d1 ・ d2 / |d1||d2| = cosθ
    • check k of high similarity Texts and categorize by majority vote
    • If size of test data is larger, memory and search cost is higher
    d1 d2 θ k=3
  • Boosting
    • BoosTexter [00 Schapire et al.]
    • Ada boost
      • making many “weak learner”s with different parameters
      • Kth “weak learner” checks performance of 1..K-1th, and tries to classify right to the worst score training data
      • BoosTexter uses Decision Stump as “weak learner”
  • Simple example of Boosting + + + + + - - - - - + + + + + - - - - - 1. - - + + + + + - - - 2. + + + + + - - - - - 3.
  • Support Vector Machine
    • Text Categorization with SVM [98 Joachims]
    • Maximize margin
  • Text Categorization with SVM
    • SVM works well for Text Categorization
      • Robustness for high dimension
        • Robustness for overfitting
      • Most Text Categorization problems are linearly separable
        • All of OHSUMED (MEDLINE collection)
        • Most of Reuters-21578 (NEWS collection)
  • Comparison of these methods
    • [02 Sebastiani]
    • Reuters-21578 (2 versions)
      • difference: number of Categories
    .920 .870 SVM Boosting Naïve Bayes k-NN Method .878 .795 .860 Ver.1(90) - .815 .823 Ver.2(10)
  • Hierarchical Learning
    • TreeBoost[06 Esuli et al.]
      • Boosting algorithm for Hierarchical labels
      • Hierarchical labels and Texts with label as Training data
      • Applying AdaBoost recursively
      • Better classifier than ‘flat’ AdaBoost
        • Accuracy : 2-3% up
        • Time: training and categorization time down
    • Hierarchical SVM[04 Cai et al.]
  • TreeBoost root L1 L2 L3 L4 L11 L12 L41 L42 L43 L421 L422
  • Outline
    • Introduction
    • Text Categorization
    • Feature of Text
    • Learning Algorithm
    • Conclusion
  • Conclusion
    • Overview of Text Categorization with Machine Learning
      • Feature of Text
      • Learning Algorithm
    • Future Work
      • Natural Language Processing with Machine Learning, especially in Japanese
      • Calculation Cost