データ・テキストマイニング

[例３]商品の購買履歴からの商品推薦。
例３]
データ・テキストマイニング
データ・テキストマイニング
流通業では、例えば、書籍やＣＤについて、どのユーザ
山西健司（NEC インターネットシステム研究所）が過去にどのような商品を買ったかという購買履歴デー
タを集めている。そこで、特定のユーザの嗜好を他のユ
１．はじめにーザの情報をもとに学習し、その人が未だ購入していな
データウェアハウスやデータベースが普及して、大量い商品を購入しそうかどうかを予測する。そして、これ
の顧客データ、購買データ、ログデータ、アンケートデに基づいて商品推薦を行う。
ータ等が蓄積されるようになった。ビジネスの現場では、[例４]ネットワークアクセスログからの不正検出。
例４]
計算機性能の向上に伴って、このような大量データの中過去のネットワークアクセスログを調べて、異常なアク
から、売れ筋商品の傾向を発見したり、優良顧客層を発セスログを検出し、ネットワーク不正侵入を検出する。
見したり、といったことが現実に要求されるようになっ [例５]自由記述アンケートからのテキストマイニング。
例５]
てきた。これを可能にするのが、データマイニング、商品評価や苦情など、顧客から寄せられた自由記述アン
データマイニング、
テキストマイニングとよばれる技術である。
テキストマイニングケートデータから、特定商品あるいは特定顧客層に特有
これらは一言でいうと、大量のデータからビジネスにな意見・コメントの特徴を言葉の上で分析する。
有効な価値ある情報を掘り起こす（マイニング）ための
技術である。このような機能は「知識発見」と呼ばれて３．マイニング技術の要件
いる。一般に、構造化された数値データを対象にする場人工知能の分野で、80 年代後半から「機械学習「機械学習
合はデータマイニングと呼ばれるが、自然言語のような（Machine Learning） Learning）」とよばれる、事例データから
」
非構造データをも対象にする場合はテキストマイニング知識を発見するためのアルゴリズムと実装の研究が盛ん
と呼んで区別している。以下、まとめてマイニング技術に行われてきた。マイニング技術とは、基本的には機械
という言い方をする。マイニング技術の本質は事例デー学習技術そのものであるといえる。ただし、マイニング
タからの構造的な知識の「学習学習」にある。
学習と改めて呼び直される背景には、マイニング技術には以
下の要件が求められていることがあげられる。
２．ＣＲＭとマイニング１）Scalability GB から TB に及ぶ大量のデータを
Scalability:
マイニング技術は、顧客に関するデータを一元的に管現実的な計算時間と計算機メモリ容量の制約の
理し、One-to-One マーケティングによって顧客の満足もとで処理できなければならない
CRM（ Effectiveness:
を向上させようとする CRM（Customer Relationship ２）Effectiveness 発見された知識が、現実のデータ
Management）
Management）の分野で特に重要である。CRM は年間の要約、あるいは未知のデータに対する予測と
２０％の伸び率で急成長し、2002 年度には世界的に市いった面において現実に有効でなければならな
場規模が 4000 億円に上ると見込まれている分野であるい。
（ミック経済研究所調べ）。 Readability:
３）Readability 発見された知識が理解しやすいも
ＣＲＭの文脈でどのようなマイニング技術が活かされのでなければならない。
ているか、例で示そう。尚、マイニング技術の背景には、情報理論、統計学、
[例１]POS データからの購買分析。
例１]POS 計算機科学、統計物理学、ニューロサイエンス、計算論
購買履歴データのようなＰＯＳデータから、どのような的学習理論などといった学際的な分野が広がっている。
商品が同時に売れたかといった相関性を発見する（これ
をバスケット分析とよぶ）。有名な例としては、スーパ
ーマーケットで紙おむつとビールが同時に売れるといっ
た相関ルールの発見が挙げられる。
[例２]顧客契約データからの解約者分析。
例２]
通信業やＩＳＰ事業などでは契約を解約するユーザを予
測することを問題としている（これは Churn 分析とよ
ばれる）。そこでは解約者と非解約者のプロファイルデ
ータから、それらを分類するルールを発見し、これから
解約しそうなユーザを予測する。ひとたび解約者層が特
定できれば、そういった顧客にダイレクトメールなどを
集中的に送ることによって、解約を防ぐことができる。

図１．マイニング分野の全体図
ルールは、サポートσと信頼度ｐで特徴付けられる。
４．マイニング分野の全体図サポートとは X と Y が同時に含まれるトランザクショ
サポート
マイニングに関しては ACM に SIG―KDD（ACM SIG―KDD ンが現れる確率である。信頼度信頼度とは、トランザクショ
信頼度
Special Interest Group on Knowledge Discovery and ンに X が含まれる場合に、Y も含まれる条件付き確率
Data Mining[19]）という世界最大の組織が生まれ、こである。図２の例に対して CE→A といったルールは、
こが主催になって 1996 年より KDD （ Knowledge
KDD（全トランザクション数が６で、C、E、A の同時出現数
Mining）
Discovery and Data Mining）とよばれる世界最大のデが４であるからサポートは(４/６)である。また、CE の
ータマイニングの国際会議が毎年開催されている[19]。出現数が５で、CE の出現のもとでの A の出現数が４で
他にも SIAM,IEEE でのデータマイニング会議やあるから、信頼度は（4 / 5）である。
PAKDD, Discovery Science などといった国際会議もあバスケット分析では、サポートと信頼度がある一定以
り、いずれも年を追うごとに盛況になっている。雑誌で上の値をもつルールを抽出することを考える。そのステ
は Data Mining and Knowledge Discovery Journal[21] ップは以下の２つに分かれる。
があり、本分野の最先端の技術を集めている。１）頻出アイテム集合の発見。
頻出アイテム集合の発見。一定値以上のサポー
頻出アイテム集合の発見。
KDD では多くの技術要素が新しく生まれている。こトをもつアイテム集合を抽出する。図３は図 2 の例に
れらの基本技術の関係を表したのが図１である。横軸は対して 50％以上のサポートをもったアイテム集合を表
左側から右側に移るにつれて数値データからテキストデしている（一定値以上のサポートをもつアイテム集合を
ータを対象にすることを示しており、縦軸は上に進むに頻出アイテム集合とよぶ）。この場合、他のアイテム集
従って、比較的新しい技術であることを示している。合の部分集合とならないアイテム集合（これを極大頻出
本稿で全てを解説することは出来ないので、特に基本アイテム集合とよぶ）は ABCE と CDE である。ここ
的であると思われる、バスケット分析、分類ルールの学における計算時間は O(r・n・2ｌ)である。ここでｒは極
習、嗜好学習とリコメンデーション、外れ値検出、テキ大頻出アイテム集合の数、ｎはアイテム数、ｌは頻出ア
スト分類といった技術をとりあげる。イテム集合のうち最長のものの長さ（要素の数）である。

４．バスケット分析
バスケット分析は POS データのトランザクションか
らどの商品が一緒に買われるかを分析するものである。
これはデータマイニングの技術の中でも最も単純な機能
であり、機械学習アルゴリズムが出てくるまでもない。
しかし、データマイニングが世の中に普及するきっかけ
となった技術なので、簡単に説明しておこう。
POS データは図２に示すような、誰がどんなアイテ
ムを買ったかを記述したトランザクションデータである図３．頻出アイテム集合の生成
（データ数は６）相関ルール Association Rule）[２]、
。相関ルール
相関ルール（（ Rule）
[13]とは２)信頼度の高いルールの発見。
信頼度の高いルールの発見。全ての頻出アイテム集
信頼度の高いルールの発見。
R: X→Y 合 Y 対して、全ての X⊂Y（X≠∅）に対して、信頼度が
の形で表されるルールである。これは「顧客が X を買一定以上のルール：X→Y−X を生成する。図４はア
えば Y を買う」と読む。X、Y は単一のアイテムであっイテム集合を X＝ACE としたときに６つのルールが生
ても、アイテムの集合であっても良い。成出来ることを示している。ここでの計算時間は O(f・
2ｌ)である。ここに、f は頻出アイテム集合の要素数、l
は前出と同じである。

A→CE (4/4) C→AE (4/6) E→AC (4/5)
AC→E (4/4) AE→C (4/4) CE→A (4/5)

図４．ルール生成と信頼度
図２．トランザクションデータ

最近のバスケット分析では、上記アルゴリズムを高速に木を成長させる Growing と、一旦最後まで成長させ
化したり、出現するルールの冗長性を除いたりする研究た木を刈り込む Pruning とに分けられる。
[16]が進められている。また、相関ルールは時系列にお Growing
Growing では、情報利得を最大化するようにノード
けるパタン抽出などにも用いられている。を選んでいく。解約者のデータを１、非解約者のデー
５．分類ルールの学習タを０で表すとき、データを表す２元系列を D とし、
分類ルールの学習とは、属性とクラスからなる事例デそれがノードの条件を満たすデータとそうでないデータ
ータから、属性とクラスの間の一般的な関係を導き出す列に分割されたとして、それぞれ、D＋、D−とする。そ
手法である。こで、ノードが与えられたときの分割による情報利得情報利得
例えば、インターネットプロバイダにおける解約者分を
析の例を考えよう。１つのデータが会員のプロファイル
データであるとして、属性は性別、職業、年齢、収入ラ I(D)−（I(D＋)＋I(D−)）（１）
ンク、趣味などであり、クラスは会員が解約したかどう
かを表すものとする。このようなデータが大量に蓄積さとして計算する。上記値が最も大きくなるような属性条
れたときに、どのような属性条件が満たされれば、その件をノードとして選ぶ。これは I(D)はノードによらな
人は解約するか？といった一般的関係性を導くのがここいから I(D＋)＋I(D−)を最小化することと等価である。
での問題である（図５）。これはクラスといった教師情ここで、I(x)は系列ｘのもつコンプレキシティであり、
報をもとに学習するので、機械学習の分野では「教師「教師１と０が半分づつ混じっているときに最大値をとり、全
あり学習」と呼ばれている。
あり学習」て１、または全て０の系列に対しては最小値をとる性質
をもつとする。例えば、エントロピーを用いて

I(ｘ)=ｍH(m1/m)

のように計算する場合がある。ここに、H(z)はエントロ
ピー関数 H(z)＝−zlog2 z−(1−ｚ)log2(１−ｚ)であり、
ｍは系列ｘにおけるデータ数、ｍ１はｘ中での１の出現
数である。また、確率的コンプレキシティ（Stochastic
確率的コンプレキシティ（
確率的コンプレキシティ
Complexity）
Complexity）[10]と呼ばれる量を用いて

図５．決定木の学習 I(ｘ)＝ｍH(m1/m)＋(1/2)log2(ｍπ/2) （２）

このような関係性の表現としては決定木、決定リスト、と計算する場合や、拡張型確率的コンプレキシティを用
回帰式、ニューラルネットワーク、サポートベクトルマいて計算する場合[17]がある。確率的コンプレキシティ
シン等がある。中でも高い Readability(知識の読みやすは符号化するのに必要な符号長として情報理論的に正確
決定木（
決定木 Tree）
さ)を実現するのが決定木（Decision Tree）である。に定義された量であり、有限長のデータ列に対しては、
決定木は図 5 のように親ノードから子ノードへたどエントロピーよりも的確に系列の複雑さを捉えている。
って、属性条件を調べることにより、最終的にクラスを
判定する。ひとたび決定木が生成されると、この木を用
いて新しいユーザに対しても解約する可能性を予測する
ことができる。そのためには未知データに対して高い分
類予測精度をもつような決定木を学習しなければならな
い。
このような決定木を生成する学習アルゴリズムの研究
は機械学習の中でも最も盛んな研究の１つである。有名
なところでは、Breiman 等による CART[3]や Quinlan
による ID3,C4.5,C5.0 がある[11]。ここではそれらで用図６．決定木の Growing
いられている代表的な決定木生成の方式を述べよう。
Pruning
通常、決定木学習のプロセスは、データを増やすごと Pruning では、全体として情報量規準に関して最適

になるようにノードを刈り込んでいく。ここで、情報情報
たときの予測値が最も割れるようなデータを選択的にサ
量規準とは、決定木が定める統計的モデルの最適な構
量規準ンプリングすることを繰り返す方法をとっている（図
造を決定するための規準である。 AIC
例えば、（Akaike’s
７）。この方法ではリサンプリングの繰り返しに計算時
Information Criteria） MDL
や（Minimum Description
間がかかるものの、それは高々サンプル数の線形オーダ
Length）規準などがよく用いられる。例えば、MDL MDL
であり、サンプル数の二乗に比例して計算時間がかかる
規準[10]では決定木 T を用いたときの全データ列 D の
規準決定木生成部分においてサンプル数を劇的に減らしてい
記述長を、（２）のコンプレキシティを用いてるので、トータルとして高い Scalability を達成するこ
とができる。しかも、分類予測精度は全データを用いた
I（D：T）＝ΣｔI(Dt)＋L（T）（３）ものとほとんど変わらないといった Effectiveness をも
っている。
で計算し、これを T に関して最小化する。ここにｔは
決定木の末端のリーフ（葉）を示し、Dt はリーフｔに６．嗜好学習とリコメンデーション
たどり着いたデータ列（クラスに関する２元系列）であ複数のユーザの商品購買履歴データから、ある特定の
るとする。また、L（T）は T を符号化するのに必要なユーザの嗜好を推定することを考える。例えば、図８の
最短ビット数である。一般に式（２）の右辺の第１項とように、縦軸にユーザを、横軸に CD のアーティスト
第２項はトレードオフの関係にある。MDL 規準では、名を表すとき、表の中にはどのユーザがどの CD を買
そのようなトレードオフのもとで最適な決定木が選ばれって、どれだけ気に入ったか？という数字が与えられて
る。このような決定木の選択によって、未知のデータにいる。数字が高いほど満足度合いが高いとする。このよ
対する分類予測誤差を小さく抑えることができることがうな表は与えられたデータに対して、埋まっている部分
理論的に明らかになっている。は通常少ない。そこで、埋まっていない部分（例えば、
決定木の学習で重要なのは Scalability の問題である。梅子はユニット F の CD を気に入るかどうか？）を予
C4.5、C5.0 などの標準アルゴリズムを用いた場合は、測し、これに基づいて商品推薦を行うのが嗜好学習によ
ｍをデータ数として、O(ｍ２)の計算量を必要とする。るリコメンデーションである。
したがって、データ数が膨大であるときは大変時間がかここでは、特定のユーザの嗜好を推定するのに他人の
かってしまう。実際にはｍが百万件規模のときにはもはデータを用いて嗜好パタンを推定する方式を考える。こ
やメモリに載らなくなることさえある。れは協調フィルタリング（Collaborative Filtering）[9]
協調フィルタリング（
協調フィルタリング Filtering）
そこで、決定木の学習において Scalability を獲得すと呼ばれている。
るための方法として近年、「選択的サンプリング」とよ
「選択的サンプリング」
ばれる手法が提案されている[1]。これは全てのデータ
を学習に用いるのではなく、選択的にデータをサンプリ
ングし、メモリに載せて学習を行うというものである。

図８. 相関係数法

協調フィルタリングの方法の代表的手法として相関相関
係数法[9]と呼ばれるものがあげられる。これは図８の
係数法
横軸の相関性に基づくものである。すなわち、梅子の嗜
好を他人の嗜好の線形和で予測し、その係数としてユー
図７．選択的サンプリングザ間の相関係数を採用するのが相関係数法である。例え
ば、太郎と梅子の嗜好パタンが似ていれば、梅子の嗜好
例えば、文献[1]では、既に選ばれたデータを複数回を予測するのには太郎の嗜好が強く反映される。数学的
リサンプリングして、そこで得られたデータセットからには i 番目の人がｘという商品に対する嗜好の度合いを
複数の決定木を生成し、これらを用いてクラスを予測し Mix とかくとき次式で計算される。

Mix=Mi+ΣjCij(Mjx−Mj)/ Σj|Cij |

ここに、全ての和は欠損値以外でとられるとし、Mi は
Mix のｘに関する平均、Cij は i 行ｊ行の相関係数を表し、
以下で計算される。

Cij =Σx(Mix−Mi) (Mjx−Mj)
×１/ (Σx(Mix−Mi)2Σx(Mjx−Mj)２)1/2
図９．SmartSifter の原理
近年では、相関係数法に代わる様々な協調フィルタリ
ングの方法が生まれている。[7]では、逐次的二項関係 SmartSifter の原理は以下の通りである。
学習法と呼ばれるものが提案されている。そこでは、ユ１）ユーザのパタンを統計的モデルを用いて表現する。
ーザ間の相関だけでなく、商品間の相関性も考慮した二統計モデルとしては離散値変数 x に関してはヒス
項関係をオンライン的に学習する手法を取り入れて、相トグラム密度を用い、連続値変数 y に関しては次
関係数法を遥かに凌駕する嗜好学習性能を達成している。式で与えられるガウス混合分布を用いるとする：
協調フィルタリングの特徴は、顧客の購買履歴データ p(y)=Σi c i p(y|µi Σi)
のみを用いているという点である。つまり、嗜好予測に
商品に関するコンテンツの情報は必要としない。一方で、ここで、c i はΣi c i=１なる正数、p(y|µi Σi)は平均
コンテンツ情報を用いて嗜好学習を行う方法や（これをがµi 分散行列がΣi のガウス分布を表す。
コンテンツフィルタリングと呼ぶ）
コンテンツフィルタリング、協調フィルタリ２）データを取り込むごとに上記統計的モデルのパラ
ングとコンテンツフィルタリングを結合する様々な方法メータを、忘却型 EM アルゴリズム
忘却型アルゴリズムによって学習
も提案されている。する。これは過去のデータほどその効果を徐々に
少なくすることによって、データのパタンや異常
７．外れ値検出と不正検出値のパタンの変化に適応するというものである。
通常、データマイニングでは、データの全体的な傾向３）学習前後の統計的モデルの変化を統計的距離で計
を把握することが主に研究されている。しかしながら、算し、その値をスコアとする。すなわち、統計的
全体的な傾向から逸れた外れ値を検出することも重要なモデルをより大きく動かすようなデータほど外れ
データマイニングのテーマの１つである。なぜなら、異値度合いが大きいと見なされる。
常値の中には単純にノイズといえるものばかりでなく、 SmartSifter を KDDCup99 とよばれるデータセット
異常行動につながるデータや、新しいトレンドを示す重 [18]に対して適用した。このデータセットは侵入とそう
要なデータが含まれているからである。このような異常でないネットワークアクセスログからなり、元来教師あ
値を検出する技術を「外れ値検出」
「外れ値検出」とよんでいる。
「外れ値検出」り学習による不正検出のためのベンチマークデータとし
外れ値検出の応用分野の１つに不正検出（Fraud て与えられたが、ここでは教師情報（どれが不正侵入で
不正検出（
不正検出
Detection）
Detection）がある。応用対象としては、あるかといった情報）は用いていない。侵入の混合率は
･ネットワークの不正侵入検出０.３５％であった。その結果、SmartSifter には以下
･携帯電話の成りすまし利用の検出の特徴を確認することができた。
･クレジットカードの不正利用の検出１）高い不正侵入検出力
高い不正侵入検出力（Effectiveness）
高い不正侵入検出力。スコアの上
･医療や保険業界おける不正請求検出位５％のデータの中に全体の侵入の８５％が含まれ
などがあげられる。ていた。この結果は、同様な機能をもつ競合アルゴ
本節では、統計的外れ値検出エンジン SmartSifter リズムと比較しても圧倒的に優れている。
について説明する[11]。これはデータを入力する毎に、２）高速性高速性（Scalability）
高速性。Service の形態、接続時間、
データのスコアを計算する。スコアの値が高いほど、そ送信バイト数、受信バイト数などといった４つの属
の外れ値度合いが高いと見なされる。一定数のデータに性を用いたときには、データ数５０万件に対して
対してスコアリングを行ったならば、スコアの降順にこ 140 秒で処理できた。
れをソートし、上位のデータを調査すれば、高い確率で４）高い適応性高い適応性。データのパタンが変化しても忘却型
不正データを検出することができると期待できる。学習アルゴリズムによって適応的に外れ値を検出。

文献[11]では、不正医療サービスデータから不審な医
療サービスデータを検出できた事例が示されている。
SmartSifter には、外れ値が何故例外的かを説明する
機能がなく、Readability が不十分であったが、最近で
は、SmartSifter が検出した外れ値の一群をルールで説
明する研究が進められている[12]。
外れ値検出技術の応用は不正検出に限らない。将来は
意外なトピックの検出や新しい傾向の発見などに応用で
きるものと期待されている。
図１１．テキスト分類
８．テキスト分類と自由記述アンケート分析
８．１．テキストマイニングこのようなテキスト分類は、自然言語の形態素解析と 5
テキストマイニング
テキストマイニングは、自然言語処理とデータマイ
テキストマイニング節で触れた教師あり学習技術を組み合わせることで実現
ニング技法を結合した技術である。テキストマイニングできる。これを以下、やや詳しく述べよう。
の要素技術には、テキストクラスタリング、テキスト分形態素解析とは、文章を意味のなす単語の単位に分
形態素解析
類、相関性解析、情報抽出、などがあり、それらの応用解することである。例えば、「意味のなす単語の単位に
分野としては自由記述アンケート分析、コールセンター分解する」という文章は「意味/の/なす/単語/の/単位/に/
におけるメールの自動分類、営業レポートの分析など多分解する」と区切られる。そうして得られる単語の中か
岐に渡っている。要素後術と応用領域の対応関係をまとら特に分類にとって重要である単語をなんらかの基準の
めたのが図 10 である。下で抽出する（これを属性選択
属性選択とよぶ）
属性選択。そこで、テキ
ストを属性選択された単語がそれぞれ含まれているか否
かを１、０で表現することにより、バイナリベクトルで
表現する。次に、バイナリベクトルとカテゴリの一般的
な対応関係について事例データから教師あり学習を行う。
テキスト分類の主な目的は、カテゴリが未知のテキス
トに対してそのカテゴリを出来るだけ正しく予測するこ
とである。その場合には、今のところサポートベクトル
マシンを用いた場合が最も分類予測制度が高いことが検
証されている[4]。ところが、それは非ルール形式であ
り、対応関係が複雑な数式で表されるためにReadability
がない。知識発見の立場からは Readability が重要なの
図 10.テキストマイニングの要素技術と応用領域で、ルール形式の表現形が有利である。ルール形式の最
もわかりやすい例が決定リスト
決定リストである。決定リストは
決定リスト
８．２．テキスト分類
テキスト分類はテキストマイニングの中でも最も重 “If テキストが単語 A を含む then カテゴリ＝X
テキスト分類
要な要素技術の１つである。これはテキストを複数のカ else if テキストが単語 B を含む then カテゴリ＝X
テゴリに振り分けるための技術である[15]（図 11）
。例 ……”
えば、ニュース記事を、そのコンテンツに基づいて政治、といった If−then – else 形式でかける。ここで、条件
経済、スポーツなどのカテゴリに自動的に振り分けるの文には複数の単語の同時出現条件が入ってもよい。この
に用いられる。また、WEB 上を流れるテキストを有害ような決定リストを 5 節で述べたような情報量規準に
文書（ポルノ、薬物、等）と無害文書のカテゴリに振り基づいて学習するアルゴリズムが提案されている[6]。
分けて、有害文書をフィルタリングすることにも用いら
れる。そのためにはテキストをカテゴリへの振り分ける８．３．自由記述アンケート分析
分類ルールをデータから学習しなければならない。テキスト分類は自由記述アンケート分析に応用するこ
とができる[6]。通常、アンケートデータはカテゴリカ
ルデータと自由記述文からなっている。例えば、自動車
のブランドイメージ調査では、図１２のように一人のユ

ーザが回答したデータには、ブランド名（車種）、顧客域を拡大している。しかし、一貫してマイニング技術の
満足度、年代などといったカテゴリカルデータと、ブラ目指すところは「知識発見」であり、特に専門家をも驚
ンドイメージに関する自由記述回答部分が含まれている。かせるような新しい知識を大量データの中から発見する
ことが最大の課題である。そのためにもマイニング技術
は大規模計算技術、並列計算技術、可視化技術などと緊
密に結びついて発展していくと期待されている。

参考文献
[1]N. Abe and H. Mamitsuka: Query Learning
Strategies Using Boosting and Bagging, Proc .of the 15th
図 12. 自由記述アンケートデータの構造 Int. Conf.. on Machine Learning (ICML98), pp:1-9(1998)
[2]R. Agarwal, H. Mannila ,R. Srikant,H.Toivonen,and
そこで、カテゴリカルデータの中から特定のカテゴリ A.I.Verkamo: Fast Discovery of Association Rules.
を指定し（例えば、ブランド）、自由記述回答部分をテ U.Fayyadet.al. editors, Advances in Knowlesge Discovery
キストとして、テキスト分類を行うことを考える。この and Data Mining, pp:307-328, AAAI Press (1996).
ときアンケートデータから分類ルールを決定リストの形 [3] L.Breiman, J.H.Friedman, R.A.Olshen, and
で学習したとき、条件文の中に、そのカテゴリに特徴的 C.J.Stone: Classification and Regression Trees.
な言葉が現れる。例えば A 車というブランドに注目 Belmnt,CA:Wadsworth. (1984).
して [4]T.Joachims: Text Categorization with Support Vector
If 安全 & 心地良い then ブランド＝Ａ車 Machines: Learning with Many　Irrelevant Features.
Else if アウトドア向き then ブランド＝A 車 Proc. European Conf. on Machine Learning (ECML’98 )
Else if ….. pp:137-142 , (1998)
図 13. 自由記述アンケート分析 [5]H.Li and K.Yamanishi: Text Classification Using ESC-
というルールが得られたとする。このとき、Ａ車の特徴 based Stochastic Decision Lists.　Proc. of 8th Int. Conf.
が、「安全 & 心地良い」「アウトドア向き」といった on Information and Knowledge Management　 (ACM-
言葉で表されるというわけである。このような言葉は情 CIKM’99), pp: 122—130, (2000).
報利得の高い順に選ばれる。情報利得とは５節の式（１）[6]H.Li and K.Yamanishi: Mining from Open Answers
で示した量であり、言葉が指定されたカテゴリにとって in Questionnaire Data.. To appear in Proc. of 　Seventh
どれだけ特徴的であるかを示している。以上のようなテ ACM　 SIGKDD　 Int.　Conf.　 Knowledge Discovery and
on　
キスト分類に基づく自由記述アンケートは実際にマーケ Data Mining (KDD2001 )(2001)
ティングの中で活用されている[6]､[20]。 [7]A. Nakamura and N. Abe.： Collaborative Filtering Using
自由記述アンケートを分析する手法としては、他に、 Weighted Majority Prediction Algorithms. Proc. of 15th Int.
テキストクラスタリングや相関分析などがある。 Conf. on Machine Learning (ICML98) , pp.395-403,
テキストクラスタリングはプレーンなテキストを教（1998）.
テキストクラスタリング
師無し学習によって指定された数のクラスタ（群）に分 [8]J.R.Quinlan：C4.5 Programs for Machine Learning,
共起度に基づく相関分析では、 Morgan Kaufmann 1993
けるものである。一方、共起度に基づく相関分析
共起度に基づく相関分析
単語間の同時出現（共起関係）の情報から主成分分析、 [9]P. Resnick, N. Iacovou, M. Suchak, P. Bergstom and J.
数量化三類、などを行い、言葉同士の連関をポジショニ Riedl.：　GroupLens: An Open Architechture for Collaborative
ングマップと呼ばれる二次元マップ上で表現する。以上 Filtering of Netnews . Pro.c . of ACM　Conf. on Computer
の技術は[14]､[16]を参考にされたい。 Supported Cooperativ Work (CSCW94 ) pp.175-186, 1994
[10]J.Rissanen: Fisher Information and Stochastic
９．おわりに Complexity. IEEE Trans.on Information Theory, 42(1),
以上、データ・テキストマイニング技術を、バスケッ pp:40-47 (1996).
ト分析、分類ルールの学習、嗜好学習とリコメンデーシ [11]K. Yamanishi, J. Takeuchi, G. Williams, P. Milne：
ョン、外れ値検出、テキスト分類に焦点を絞って解説し On-line Unsupervised Outlier Detection Using Finite
てきた。データ・テキストマイニングの技術は以上にと Mixtures Using Discounting Learning Algorithms.
どまらず、今も多くの要素技術を生み出しながら応用領 Proc. of Sixth　 ACM　 SIGKDD　 Int.　Conf.　 Knowledge
on

Discovery and Data Mining (KDD2000), pp:320-324
(2000)
[12]K. Yamanishi and J. Takeuchi: Discovering Outlier
Filtering Rules from Unlabeled Data. To appear in Proc.
of Seventh　ACM　SIGKDD　Int.　Conf.　on　Knowledge
Discovery and Data Mining (KDD2001 ) (2001)
[13]M.J.Zaki: Generating Non-redundant Association
Rules. Proc. of Sixth　ACM　SIGKDD　Int.　Conf.　on
Knowledge Discovery and Data Mining (KDD2000),
pp:34-43 (2000)
[14]人工知能学会誌　Vol.16, No.2 (2001 年 3 月)　特集「テ
キストマイニング」
[15]永田、平田：　テキスト分類－学習理論の「見本市」－、情
報処理、vol.42(1), pp:32-37 (2001).
[16]日経コンピュータ　pp:40-46, 2001 年 8 月
[17]山西　健司：拡張型確率的コンプレキシティと情報論的学
習理論、応用数理、49,pp:71-78 (1998).
[18]http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
[19]http:///www.acm.org/sigkdd/
[20]http://www.labs.nec.co.jp/DTmining/
[21]http://www.wkap.nl/journalhome. htm/1384-5810

データ・テキストマイニング

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (14)

Similar to データ・テキストマイニング

Similar to データ・テキストマイニング (20)

More from Hiroshi Ono

More from Hiroshi Ono (20)

Recently uploaded

Recently uploaded (14)

データ・テキストマイニング