More Related Content Similar to データ・テキストマイニング (20) More from Hiroshi Ono (20) データ・テキストマイニング1. [例3]商品の購買履歴からの商品推薦。
例3]
データ・テキストマイニング
データ・テキストマイニング
流通業では、例えば、書籍やCDについて、どのユーザ
山西 健司(NEC インターネットシステム研究所) が過去にどのような商品を買ったかという購買履歴デー
タを集めている。そこで、特定のユーザの嗜好を他のユ
1.はじめに ーザの情報をもとに学習し、その人が未だ購入していな
データウェアハウスやデータベースが普及して、大量 い商品を購入しそうかどうかを予測する。そして、これ
の顧客データ、購買データ、ログデータ、アンケートデ に基づいて商品推薦を行う 。
ータ等が蓄積されるようになった。 ビジネスの現場では、[例4]ネットワークアクセスログからの不正検出。
例4]
計算機性能の向上に伴って、このような大量データの中 過去のネットワークアクセスログを調べて、異常なアク
から、売れ筋商品の傾向を発見したり、優良顧客層を発 セスログを検出し、ネットワーク不正侵入を検出する。
見したり、といったことが現実に要求されるようになっ [例5]自由記述アンケートからのテキストマイニング。
例5]
てきた。 これを可能にするのが、データマイニング、 商品評価や苦情など、顧客から寄せられた自由記述アン
データマイニング、
テキストマイニングとよばれる技術である。
テキストマイニング ケートデータから、特定商品あるいは特定顧客層に特有
これらは一言でいうと、大量のデータからビジネスに な意見・コメントの特徴を言葉の上で分析する。
有効な価値ある情報を掘り起こす(マイニング)ための
技術である。このような機能は「知識発見」と呼ばれて 3.マイニング技術の要件
いる。一般に、構造化された数値データを対象にする場 人工知能の分野で、80 年代後半から「機械学習 「機械学習
合はデータマイニングと呼ばれるが、自然言語のような (Machine Learning) Learning)」とよばれる、事例データから
」
非構造データをも対象にする場合はテキストマイニング 知識を発見するためのアルゴリズムと実装の研究が盛ん
と呼んで区別している。以下、まとめてマイニング技術 に行われてきた。マイニング技術とは、基本的には機械
という言い方をする。マイニング技術の本質は事例デー 学習技術そのものであるといえる。ただし、マイニング
タからの構造的な知識の「学習 学習」にある。
学習 と改めて呼び直される背景には、マイニング技術には以
下の要件が求められていることがあげられる。
2.CRMとマイニング 1)Scalability GB から TB に及ぶ大量のデータを
Scalability:
マイニング技術は、顧客に関するデータを一元的に管 現実的な計算時間と計算機メモリ容量の制約の
理し、One-to-One マーケティングによって顧客の満足 もとで処理できなければならない
CRM( Effectiveness:
を向上させようとする CRM(Customer Relationship 2)Effectiveness 発見された知識が、現実のデータ
Management)
Management)の分野で特に重要である。CRM は年間 の要約、あるいは未知のデータに対する予測と
20%の伸び率で急成長し、2002 年度には世界的に市 いった面において現実に有効でなければならな
場規模が 4000 億円に上ると見込まれている分野である い。
(ミック経済研究所調べ) 。 Readability:
3)Readability 発見された知識が理解しやすいも
CRMの文脈でどのようなマイニング技術が活かされ のでなければならない。
ているか、例で示そう。 尚、マイニング技術の背景には、情報理論、統計学、
[例1]POS データからの購買分析。
例1]POS 計算機科学、統計物理学、ニューロサイエンス、計算論
購買履歴データのようなPOSデータから、どのような 的学習理論などといった学際的な分野が広がっている。
商品が同時に売れたかといった相関性を発見する(これ
をバスケット分析とよぶ) 。有名な例としては、スーパ
ーマーケットで紙おむつとビールが同時に売れるといっ
た相関ルールの発見が挙げられる。
[例2]顧客契約データからの解約者分析。
例2]
通信業やISP事業などでは契約を解約するユーザを予
測することを問題としている(これは Churn 分析とよ
ばれる) 。そこでは解約者と非解約者のプロファイルデ
ータから、それらを分類するルールを発見し、これから
解約しそうなユーザを予測する。ひとたび解約者層が特
定できれば、そういった顧客にダイレクトメールなどを
集中的に送ることによって、解約を防ぐことができる。
2. 図1.マイニング分野の全体図
ルールは、サポートσと信頼度pで特徴付けられる。
4.マイニング分野の全体図 サポートとは X と Y が同時に含まれるトランザクショ
サポート
マイニングに関しては ACM に SIG―KDD(ACM SIG―KDD ンが現れる確率である。信頼度信頼度とは、トランザクショ
信頼度
Special Interest Group on Knowledge Discovery and ンに X が含まれる場合に、Y も含まれる条件付き確率
Data Mining[19])という世界最大の組織が生まれ、こ である。図2の例に対して CE→A といったルールは、
こが主催になって 1996 年より KDD ( Knowledge
KDD( 全トランザクション数が6で、C、E、A の同時出現数
Mining)
Discovery and Data Mining)とよばれる世界最大のデ が4であるからサポートは(4/6)である。また、CE の
ータマイニングの国際会議が毎年開催されている[19]。 出現数が5で、CE の出現のもとでの A の出現数が4で
他にも SIAM,IEEE でのデータマイニング会議や あるから、信頼度は(4 / 5)である。
PAKDD, Discovery Science などといった国際会議もあ バスケット分析では、サポートと信頼度がある一定以
り、いずれも年を追うごとに盛況になっている。雑誌で 上の値をもつルールを抽出することを考える。そのステ
は Data Mining and Knowledge Discovery Journal[21] ップは以下の2つに分かれる。
があり、本分野の最先端の技術を集めている。 1)頻出アイテム集合の発見。
頻出アイテム集合の発見。一定値以上のサポー
頻出アイテム集合の発見。
KDD では多くの技術要素が新しく生まれている。こ トをもつアイテム集合を抽出する。図3は図 2 の例に
れらの基本技術の関係を表したのが図1である。横軸は 対して 50%以上のサポートをもったアイテム集合を表
左側から右側に移るにつれて数値データからテキストデ している(一定値以上のサポートをもつアイテム集合を
ータを対象にすることを示しており、縦軸は上に進むに 頻出アイテム集合とよぶ) 。この場合、他のアイテム集
従って、比較的新しい技術であることを示している。 合の部分集合とならないアイテム集合(これを極大頻出
本稿で全てを解説することは出来ないので、特に基本 アイテム集合とよぶ)は ABCE と CDE である。ここ
的であると思われる、バスケット分析、分類ルールの学 における計算時間は O(r・n・2l)である。ここでrは極
習、嗜好学習とリコメンデーション、外れ値検出、テキ 大頻出アイテム集合の数、nはアイテム数、lは頻出ア
スト分類といった技術をとりあげる。 イテム集合のうち最長のものの長さ (要素の数)である。
4.バスケット分析
バスケット分析は POS データのトランザクションか
らどの商品が一緒に買われるかを分析するものである。
これはデータマイニングの技術の中でも最も単純な機能
であり、機械学習アルゴリズムが出てくるまでもない。
しかし、データマイニングが世の中に普及するきっかけ
となった技術なので、簡単に説明しておこう。
POS データは図2に示すような、誰がどんなアイテ
ムを買ったかを記述したトランザクションデータである 図3.頻出アイテム集合の生成
(データ数は6) 相関ルール Association Rule)[2]、
。相関ルール
相関ルール(( Rule)
[13]とは 2)信頼度の高いルールの発見。
信頼度の高いルールの発見。全ての頻出アイテム集
信頼度の高いルールの発見。
R: X→Y 合 Y 対して、全ての X⊂Y(X≠∅)に対して、信頼度が
の形で表されるルールである。これは「顧客が X を買 一定以上のルール:X→Y−X を生成する。図4はア
えば Y を買う」と読む。X、Y は単一のアイテムであっ イテム集合を X=ACE としたときに6つのルールが生
ても、アイテムの集合であっても良い。 成出来ることを示している。ここでの計算時間は O(f・
2l)である。ここに、f は頻出アイテム集合の要素数、l
は前出と同じである。
A→CE (4/4) C→AE (4/6) E→AC (4/5)
AC→E (4/4) AE→C (4/4) CE→A (4/5)
図4.ルール生成と信頼度
図2.トランザクションデータ
3. 最近のバスケット分析では、上記アルゴリズムを高速 に木を成長させる Growing と、一旦最後まで成長させ
化したり、出現するルールの冗長性を除いたりする研究 た木を刈り込む Pruning とに分けられる。
[16]が進められている。また、相関ルールは時系列にお Growing
Growing では、情報利得を最大化するようにノード
けるパタン抽出などにも用いられている。 を選んでいく。 解約者のデータを1、非解約者のデー
5.分類ルールの学習 タを0で表すとき、データを表す2元系列を D とし、
分類ルールの学習とは、属性とクラスからなる事例デ それがノードの条件を満たすデータとそうでないデータ
ータから、属性とクラスの間の一般的な関係を導き出す 列に分割されたとして、それぞれ、D+、D−とする。そ
手法である。 こで、ノードが与えられたときの分割による情報利得 情報利得
例えば、インターネットプロバイダにおける解約者分 を
析の例を考えよう。1つのデータが会員のプロファイル
データであるとして、属性は性別、職業、年齢、収入ラ I(D)−(I(D+)+I(D−)) (1)
ンク、趣味などであり、クラスは会員が解約したかどう
かを表すものとする。このようなデータが大量に蓄積さ として計算する。上記値が最も大きくなるような属性条
れたときに、どのような属性条件が満たされれば、その 件をノードとして選ぶ。これは I(D)はノードによらな
人は解約するか?といった一般的関係性を導くのがここ いから I(D+)+I(D−)を最小化することと等価である。
での問題である(図5) 。これはクラスといった教師情 ここで、I(x)は系列xのもつコンプレキシティであり、
報をもとに学習するので、機械学習の分野では「教師「教師 1と0が半分づつ混じっているときに最大値をとり、全
あり学習」と呼ばれている。
あり学習」 て1、または全て0の系列に対しては最小値をとる性質
をもつとする。例えば、エントロピーを用いて
I(x)=mH(m1/m)
のように計算する場合がある。ここに、H(z)はエントロ
ピー関数 H(z)=−zlog2 z−(1−z)log2(1−z)であり、
mは系列xにおけるデータ数、m1はx中での1の出現
数である。また、確率的コンプレキシティ(Stochastic
確率的コンプレキシティ(
確率的コンプレキシティ
Complexity)
Complexity)[10]と呼ばれる量を用いて
図5.決定木の学習 I(x)=mH(m1/m)+(1/2)log2(mπ/2) (2)
このような関係性の表現としては決定木、 決定リスト、と計算する場合や、拡張型確率的コンプレキシティを用
回帰式、ニューラルネットワーク、サポートベクトルマ いて計算する場合[17]がある。確率的コンプレキシティ
シン等がある。中でも高い Readability(知識の読みやす は符号化するのに必要な符号長として情報理論的に正確
決定木(
決定木 Tree)
さ)を実現するのが決定木(Decision Tree)である。 に定義された量であり、有限長のデータ列に対しては、
決定木は図 5 のように親ノードから子ノードへたど エントロピーよりも的確に系列の複雑さを捉えている。
って、属性条件を調べることにより、最終的にクラスを
判定する。ひとたび決定木が生成されると、この木を用
いて新しいユーザに対しても解約する可能性を予測する
ことができる。そのためには未知データに対して高い分
類予測精度をもつような決定木を学習しなければならな
い。
このような決定木を生成する学習アルゴリズムの研究
は機械学習の中でも最も盛んな研究の1つである。有名
なところでは、Breiman 等による CART[3]や Quinlan
による ID3,C4.5,C5.0 がある[11]。ここではそれらで用 図6.決定木の Growing
いられている代表的な決定木生成の方式を述べよう。
Pruning
通常、決定木学習のプロセスは、データを増やすごと Pruning では、全体として情報量規準に関して最適
4. になるようにノードを刈り込んでいく。ここで、情報 情報
たときの予測値が最も割れるようなデータを選択的にサ
量規準とは、決定木が定める統計的モデルの最適な構
量規準 ンプリングすることを繰り返す方法をとっている(図
造を決定するための規準である。 AIC
例えば、 (Akaike’s
7)。この方法ではリサンプリングの繰り返しに計算時
Information Criteria) MDL
や (Minimum Description
間がかかるものの、それは高々サンプル数の線形オーダ
Length)規準などがよく用いられる。例えば、MDL MDL
であり、サンプル数の二乗に比例して計算時間がかかる
規準[10]では決定木 T を用いたときの全データ列 D の
規準 決定木生成部分においてサンプル数を劇的に減らしてい
記述長を、 (2)のコンプレキシティを用いて るので、トータルとして高い Scalability を達成するこ
とができる。しかも、分類予測精度は全データを用いた
I(D:T)=ΣtI(Dt)+L(T) (3)ものとほとんど変わらないといった Effectiveness をも
っている。
で計算し、これを T に関して最小化する。ここにtは
決定木の末端のリーフ(葉)を示し、Dt はリーフtに 6.嗜好学習とリコメンデーション
たどり着いたデータ列(クラスに関する2元系列)であ 複数のユーザの商品購買履歴データから、ある特定の
るとする。また、L(T)は T を符号化するのに必要な ユーザの嗜好を推定することを考える。例えば、図8の
最短ビット数である。一般に式(2)の右辺の第1項と ように、縦軸にユーザを、横軸に CD のアーティスト
第2項はトレードオフの関係にある。MDL 規準では、 名を表すとき、表の中にはどのユーザがどの CD を買
そのようなトレードオフのもとで最適な決定木が選ばれ って、どれだけ気に入ったか?という数字が与えられて
る。このような決定木の選択によって、未知のデータに いる。数字が高いほど満足度合いが高いとする。このよ
対する分類予測誤差を小さく抑えることができることが うな表は与えられたデータに対して、埋まっている部分
理論的に明らかになっている。 は通常少ない。そこで、埋まっていない部分(例えば、
決定木の学習で重要なのは Scalability の問題である。梅子はユニット F の CD を気に入るかどうか?)を予
C4.5、C5.0 などの標準アルゴリズムを用いた場合は、 測し、これに基づいて商品推薦を行うのが嗜好学習によ
mをデータ数として、O(m2)の計算量を必要とする。 るリコメンデーションである。
したがって、データ数が膨大であるときは大変時間がか ここでは、特定のユーザの嗜好を推定するのに他人の
かってしまう。実際にはmが百万件規模のときにはもは データを用いて嗜好パタンを推定する方式を考える。こ
やメモリに載らなくなることさえある。 れは協調フィルタリング(Collaborative Filtering)[9]
協調フィルタリング(
協調フィルタリング Filtering)
そこで、決定木の学習において Scalability を獲得す と呼ばれている。
るための方法として近年、 「選択的サンプリング」とよ
「選択的サンプリング」
ばれる手法が提案されている[1]。これは全てのデータ
を学習に用いるのではなく、選択的にデータをサンプリ
ングし、メモリに載せて学習を行うというものである。
図8. 相関係数法
協調フィルタリングの方法の代表的手法として相関相関
係数法[9]と呼ばれるものがあげられる。これは図8の
係数法
横軸の相関性に基づくものである。すなわち、梅子の嗜
好を他人の嗜好の線形和で予測し、その係数としてユー
図7.選択的サンプリング ザ間の相関係数を採用するのが相関係数法である。例え
ば、太郎と梅子の嗜好パタンが似ていれば、梅子の嗜好
例えば、文献[1]では、既に選ばれたデータを複数回 を予測するのには太郎の嗜好が強く反映される。数学的
リサンプリングして、そこで得られたデータセットから には i 番目の人がxという商品に対する嗜好の度合いを
複数の決定木を生成し、これらを用いてクラスを予測し Mix とかくとき次式で計算される。
5. Mix=Mi+ΣjCij(Mjx−Mj)/ Σj|Cij |
ここに、全ての和は欠損値以外でとられるとし、Mi は
Mix のxに関する平均、Cij は i 行j行の相関係数を表し、
以下で計算される。
Cij =Σx(Mix−Mi) (Mjx−Mj)
×1/ (Σx(Mix−Mi)2Σx(Mjx−Mj)2)1/2
図9.SmartSifter の原理
近年では、相関係数法に代わる様々な協調フィルタリ
ングの方法が生まれている。[7]では、逐次的二項関係 SmartSifter の原理は以下の通りである。
学習法と呼ばれるものが提案されている。そこでは、ユ 1)ユーザのパタンを統計的モデルを用いて表現する。
ーザ間の相関だけでなく、商品間の相関性も考慮した二 統計モデルとしては離散値変数 x に関してはヒス
項関係をオンライン的に学習する手法を取り入れて、相 トグラム密度を用い、連続値変数 y に関しては次
関係数法を遥かに凌駕する嗜好学習性能を達成している。 式で与えられるガウス混合分布を用いるとする:
協調フィルタリングの特徴は、顧客の購買履歴データ p(y)=Σi c i p(y|µi Σi)
のみを用いているという点である。つまり、嗜好予測に
商品に関するコンテンツの情報は必要としない。 一方で、 ここで、c i はΣi c i=1なる正数、p(y|µi Σi)は平均
コンテンツ情報を用いて嗜好学習を行う方法や(これを がµi 分散行列がΣi のガウス分布を表す。
コンテンツフィルタリングと呼ぶ)
コンテンツフィルタリング 、 協調フィルタリ 2)データを取り込むごとに上記統計的モデルのパラ
ングとコンテンツフィルタリングを結合する様々な方法 メータを、忘却型 EM アルゴリズム
忘却型 アルゴリズムによって学習
も提案されている。 する。これは過去のデータほどその効果を徐々に
少なくすることによって、データのパタンや異常
7.外れ値検出と不正検出 値のパタンの変化に適応するというものである。
通常、データマイニングでは、データの全体的な傾向 3)学習前後の統計的モデルの変化を統計的距離で計
を把握することが主に研究されている。しかしながら、 算し、その値をスコアとする。すなわち、統計的
全体的な傾向から逸れた外れ値を検出することも重要な モデルをより大きく動かすようなデータほど外れ
データマイニングのテーマの1つである。なぜなら、異 値度合いが大きいと見なされる。
常値の中には単純にノイズといえるものばかりでなく、 SmartSifter を KDDCup99 とよばれるデータセット
異常行動につながるデータや、新しいトレンドを示す重 [18]に対して適用した。このデータセットは侵入とそう
要なデータが含まれているからである。このような異常 でないネットワークアクセスログからなり、元来教師あ
値を検出する技術を「外れ値検出」
「外れ値検出」とよんでいる。
「外れ値検出」 り学習による不正検出のためのベンチマークデータとし
外れ値検出の応用分野の1つに不正検出(Fraud て与えられたが、ここでは教師情報(どれが不正侵入で
不正検出(
不正検出
Detection)
Detection)がある。応用対象としては、 あるかといった情報)は用いていない。侵入の混合率は
・ネットワークの不正侵入検出 0.35%であった。その結果、SmartSifter には以下
・携帯電話の成りすまし利用の検出 の特徴を確認することができた。
・クレジットカードの不正利用の検出 1)高い不正侵入検出力
高い不正侵入検出力(Effectiveness)
高い不正侵入検出力 。スコアの上
・医療や保険業界おける不正請求検出 位5%のデータの中に全体の侵入の85%が含まれ
などがあげられる。 ていた。この結果は、同様な機能をもつ競合アルゴ
本節では、統計的外れ値検出エンジン SmartSifter リズムと比較しても圧倒的に優れている。
について説明する[11]。これはデータを入力する毎に、 2)高速性 高速性(Scalability)
高速性 。Service の形態、接続時間、
データのスコアを計算する。スコアの値が高いほど、そ 送信バイト数、受信バイト数などといった4つの属
の外れ値度合いが高いと見なされる。一定数のデータに 性を用いたときには、データ数50万件に対して
対してスコアリングを行ったならば、スコアの降順にこ 140 秒で処理できた。
れをソートし、上位のデータを調査すれば、高い確率で 4)高い適応性 高い適応性。データのパタンが変化しても忘却型
不正データを検出することができると期待できる。 学習アルゴリズムによって適応的に外れ値を検出。
6. 文献[11]では、不正医療サービスデータから不審な医
療サービスデータを検出できた事例が示されている。
SmartSifter には、外れ値が何故例外的かを説明する
機能がなく、Readability が不十分であったが、最近で
は、SmartSifter が検出した外れ値の一群をルールで説
明する研究が進められている[12]。
外れ値検出技術の応用は不正検出に限らない。将来は
意外なトピックの検出や新しい傾向の発見などに応用で
きるものと期待されている。
図11.テキスト分類
8.テキスト分類と自由記述アンケート分析
8.1.テキストマイニング このようなテキスト分類は、自然言語の形態素解析と 5
テキストマイニング
テキストマイニングは、自然言語処理とデータマイ
テキストマイニング 節で触れた教師あり学習技術を組み合わせることで実現
ニング技法を結合した技術である。テキストマイニング できる。これを以下、やや詳しく述べよう。
の要素技術には、テキストクラスタリング、テキスト分 形態素解析とは、文章を意味のなす単語の単位に分
形態素解析
類、相関性解析、情報抽出、などがあり、それらの応用 解することである。例えば、 「意味のなす単語の単位に
分野としては自由記述アンケート分析、コールセンター 分解する」という文章は「意味/の/なす/単語/の/単位/に/
におけるメールの自動分類、営業レポートの分析など多 分解する」と区切られる。そうして得られる単語の中か
岐に渡っている。要素後術と応用領域の対応関係をまと ら特に分類にとって重要である単語をなんらかの基準の
めたのが図 10 である。 下で抽出する(これを属性選択
属性選択とよぶ)
属性選択 。そこで、テキ
ストを属性選択された単語がそれぞれ含まれているか否
かを1、0で表現することにより、バイナリベクトルで
表現する。次に、バイナリベクトルとカテゴリの一般的
な対応関係について事例データから教師あり学習を行う。
テキスト分類の主な目的は、カテゴリが未知のテキス
トに対してそのカテゴリを出来るだけ正しく予測するこ
とである。その場合には、今のところサポートベクトル
マシンを用いた場合が最も分類予測制度が高いことが検
証されている[4]。ところが、それは非ルール形式であ
り、対応関係が複雑な数式で表されるためにReadability
がない。知識発見の立場からは Readability が重要なの
図 10.テキストマイニングの要素技術と応用領域 で、ルール形式の表現形が有利である。ルール形式の最
もわかりやすい例が決定リスト
決定リストである。決定リストは
決定リスト
8.2.テキスト分類
テキスト分類はテキストマイニングの中でも最も重 “If テキストが単語 A を含む then カテゴリ=X
テキスト分類
要な要素技術の1つである。これはテキストを複数のカ else if テキストが単語 B を含む then カテゴリ=X
テゴリに振り分けるための技術である[15](図 11)
。例 ……”
えば、ニュース記事を、そのコンテンツに基づいて政治、といった If−then – else 形式でかける。ここで、条件
経済、スポーツなどのカテゴリに自動的に振り分けるの 文には複数の単語の同時出現条件が入ってもよい。この
に用いられる。また、WEB 上を流れるテキストを有害 ような決定リストを 5 節で述べたような情報量規準に
文書(ポルノ、薬物、等)と無害文書のカテゴリに振り 基づいて学習するアルゴリズムが提案されている[6]。
分けて、有害文書をフィルタリングすることにも用いら
れる。そのためにはテキストをカテゴリへの振り分ける 8.3.自由記述アンケート分析
分類ルールをデータから学習しなければならない。 テキスト分類は自由記述アンケート分析に応用するこ
とができる[6]。通常、アンケートデータはカテゴリカ
ルデータと自由記述文からなっている。例えば、自動車
のブランドイメージ調査では、図12のように一人のユ
7. ーザが回答したデータには、ブランド名(車種)、顧客 域を拡大している。しかし、一貫してマイニング技術の
満足度、年代などといったカテゴリカルデータと、ブラ 目指すところは「知識発見」であり、特に専門家をも驚
ンドイメージに関する自由記述回答部分が含まれている。かせるような新しい知識を大量データの中から発見する
ことが最大の課題である。そのためにもマイニング技術
は大規模計算技術、並列計算技術、可視化技術などと緊
密に結びついて発展していくと期待されている。
参考文献
[1]N. Abe and H. Mamitsuka: Query Learning
Strategies Using Boosting and Bagging, Proc .of the 15th
図 12. 自由記述アンケートデータの構造 Int. Conf.. on Machine Learning (ICML98), pp:1-9(1998)
[2]R. Agarwal, H. Mannila ,R. Srikant,H.Toivonen,and
そこで、カテゴリカルデータの中から特定のカテゴリ A.I.Verkamo: Fast Discovery of Association Rules.
を指定し(例えば、ブランド) 、自由記述回答部分をテ U.Fayyadet.al. editors, Advances in Knowlesge Discovery
キストとして、テキスト分類を行うことを考える。この and Data Mining, pp:307-328, AAAI Press (1996).
ときアンケートデータから分類ルールを決定リストの形 [3] L.Breiman, J.H.Friedman, R.A.Olshen, and
で学習したとき、条件文の中に、そのカテゴリに特徴的 C.J.Stone: Classification and Regression Trees.
な言葉が現れる。 例えば A 車というブランドに注目 Belmnt,CA:Wadsworth. (1984).
して [4]T.Joachims: Text Categorization with Support Vector
If 安全 & 心地良い then ブランド=A車 Machines: Learning with Many Irrelevant Features.
Else if アウトドア向き then ブランド=A 車 Proc. European Conf. on Machine Learning (ECML’98 )
Else if ….. pp:137-142 , (1998)
図 13. 自由記述アンケート分析 [5]H.Li and K.Yamanishi: Text Classification Using ESC-
というルールが得られたとする。このとき、A車の特徴 based Stochastic Decision Lists. Proc. of 8th Int. Conf.
が、「安全 & 心地良い」 「アウトドア向き」といった on Information and Knowledge Management (ACM-
言葉で表されるというわけである。このような言葉は情 CIKM’99), pp: 122—130, (2000).
報利得の高い順に選ばれる。 情報利得とは5節の式 (1)[6]H.Li and K.Yamanishi: Mining from Open Answers
で示した量であり、言葉が指定されたカテゴリにとって in Questionnaire Data.. To appear in Proc. of Seventh
どれだけ特徴的であるかを示している。以上のようなテ ACM SIGKDD Int. Conf. Knowledge Discovery and
on
キスト分類に基づく自由記述アンケートは実際にマーケ Data Mining (KDD2001 )(2001)
ティングの中で活用されている[6]、[20]。 [7]A. Nakamura and N. Abe.: Collaborative Filtering Using
自由記述アンケートを分析する手法としては、他に、 Weighted Majority Prediction Algorithms. Proc. of 15th Int.
テキストクラスタリングや相関分析などがある。 Conf. on Machine Learning (ICML98) , pp.395-403,
テキストクラスタリングはプレーンなテキストを教 (1998).
テキストクラスタリング
師無し学習によって指定された数のクラスタ(群)に分 [8]J.R.Quinlan:C4.5 Programs for Machine Learning,
共起度に基づく相関分析では、 Morgan Kaufmann 1993
けるものである。一方、共起度に基づく相関分析
共起度に基づく相関分析
単語間の同時出現(共起関係)の情報から主成分分析、 [9]P. Resnick, N. Iacovou, M. Suchak, P. Bergstom and J.
数量化三類、などを行い、言葉同士の連関をポジショニ Riedl.: GroupLens: An Open Architechture for Collaborative
ングマップと呼ばれる二次元マップ上で表現する。以上 Filtering of Netnews . Pro.c . of ACM Conf. on Computer
の技術は[14]、[16]を参考にされたい。 Supported Cooperativ Work (CSCW94 ) pp.175-186, 1994
[10]J.Rissanen: Fisher Information and Stochastic
9.おわりに Complexity. IEEE Trans.on Information Theory, 42(1),
以上、データ・テキストマイニング技術を、バスケッ pp:40-47 (1996).
ト分析、分類ルールの学習、嗜好学習とリコメンデーシ [11]K. Yamanishi, J. Takeuchi, G. Williams, P. Milne:
ョン、外れ値検出、テキスト分類に焦点を絞って解説し On-line Unsupervised Outlier Detection Using Finite
てきた。データ・テキストマイニングの技術は以上にと Mixtures Using Discounting Learning Algorithms.
どまらず、今も多くの要素技術を生み出しながら応用領 Proc. of Sixth ACM SIGKDD Int. Conf. Knowledge
on
8. Discovery and Data Mining (KDD2000), pp:320-324
(2000)
[12]K. Yamanishi and J. Takeuchi: Discovering Outlier
Filtering Rules from Unlabeled Data. To appear in Proc.
of Seventh ACM SIGKDD Int. Conf. on Knowledge
Discovery and Data Mining (KDD2001 ) (2001)
[13]M.J.Zaki: Generating Non-redundant Association
Rules. Proc. of Sixth ACM SIGKDD Int. Conf. on
Knowledge Discovery and Data Mining (KDD2000),
pp:34-43 (2000)
[14]人工知能学会誌 Vol.16, No.2 (2001 年 3 月) 特集「テ
キストマイニング」
[15]永田、平田: テキスト分類-学習理論の「見本市」-、情
報処理、vol.42(1), pp:32-37 (2001).
[16]日経コンピュータ pp:40-46, 2001 年 8 月
[17]山西 健司:拡張型確率的コンプレキシティと情報論的学
習理論、応用数理、49,pp:71-78 (1998).
[18]http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
[19]http:///www.acm.org/sigkdd/
[20]http://www.labs.nec.co.jp/DTmining/
[21]http://www.wkap.nl/journalhome. htm/1384-5810