データ・テキストマイニング
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

データ・テキストマイニング

on

  • 1,030 views

 

Statistics

Views

Total Views
1,030
Views on SlideShare
1,030
Embed Views
0

Actions

Likes
1
Downloads
7
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

データ・テキストマイニング Document Transcript

  • 1. [例3]商品の購買履歴からの商品推薦。 例3]データ・テキストマイニングデータ・テキストマイニング 流通業では、例えば、書籍やCDについて、どのユーザ山西 健司(NEC インターネットシステム研究所) が過去にどのような商品を買ったかという購買履歴デー タを集めている。そこで、特定のユーザの嗜好を他のユ1.はじめに ーザの情報をもとに学習し、その人が未だ購入していな データウェアハウスやデータベースが普及して、大量 い商品を購入しそうかどうかを予測する。そして、これの顧客データ、購買データ、ログデータ、アンケートデ に基づいて商品推薦を行う 。ータ等が蓄積されるようになった。 ビジネスの現場では、[例4]ネットワークアクセスログからの不正検出。 例4]計算機性能の向上に伴って、このような大量データの中 過去のネットワークアクセスログを調べて、異常なアクから、売れ筋商品の傾向を発見したり、優良顧客層を発 セスログを検出し、ネットワーク不正侵入を検出する。見したり、といったことが現実に要求されるようになっ [例5]自由記述アンケートからのテキストマイニング。 例5]てきた。 これを可能にするのが、データマイニング、 商品評価や苦情など、顧客から寄せられた自由記述アン データマイニング、テキストマイニングとよばれる技術である。テキストマイニング ケートデータから、特定商品あるいは特定顧客層に特有 これらは一言でいうと、大量のデータからビジネスに な意見・コメントの特徴を言葉の上で分析する。有効な価値ある情報を掘り起こす(マイニング)ための技術である。このような機能は「知識発見」と呼ばれて 3.マイニング技術の要件いる。一般に、構造化された数値データを対象にする場  人工知能の分野で、80 年代後半から「機械学習 「機械学習合はデータマイニングと呼ばれるが、自然言語のような (Machine Learning) Learning)」とよばれる、事例データから 」非構造データをも対象にする場合はテキストマイニング 知識を発見するためのアルゴリズムと実装の研究が盛んと呼んで区別している。以下、まとめてマイニング技術 に行われてきた。マイニング技術とは、基本的には機械という言い方をする。マイニング技術の本質は事例デー 学習技術そのものであるといえる。ただし、マイニングタからの構造的な知識の「学習 学習」にある。 学習 と改めて呼び直される背景には、マイニング技術には以 下の要件が求められていることがあげられる。2.CRMとマイニング 1)Scalability GB から TB に及ぶ大量のデータを Scalability: マイニング技術は、顧客に関するデータを一元的に管 現実的な計算時間と計算機メモリ容量の制約の理し、One-to-One マーケティングによって顧客の満足 もとで処理できなければならない CRM( Effectiveness:を向上させようとする CRM(Customer Relationship 2)Effectiveness 発見された知識が、現実のデータManagement)Management)の分野で特に重要である。CRM は年間 の要約、あるいは未知のデータに対する予測と20%の伸び率で急成長し、2002 年度には世界的に市 いった面において現実に有効でなければならな場規模が 4000 億円に上ると見込まれている分野である い。(ミック経済研究所調べ) 。 Readability: 3)Readability 発見された知識が理解しやすいも CRMの文脈でどのようなマイニング技術が活かされ のでなければならない。ているか、例で示そう。  尚、マイニング技術の背景には、情報理論、統計学、[例1]POS データからの購買分析。 例1]POS 計算機科学、統計物理学、ニューロサイエンス、計算論購買履歴データのようなPOSデータから、どのような 的学習理論などといった学際的な分野が広がっている。商品が同時に売れたかといった相関性を発見する(これをバスケット分析とよぶ) 。有名な例としては、スーパーマーケットで紙おむつとビールが同時に売れるといった相関ルールの発見が挙げられる。[例2]顧客契約データからの解約者分析。 例2]通信業やISP事業などでは契約を解約するユーザを予測することを問題としている(これは Churn 分析とよばれる) 。そこでは解約者と非解約者のプロファイルデータから、それらを分類するルールを発見し、これから解約しそうなユーザを予測する。ひとたび解約者層が特定できれば、そういった顧客にダイレクトメールなどを集中的に送ることによって、解約を防ぐことができる。
  • 2.      図1.マイニング分野の全体図 ルールは、サポートσと信頼度pで特徴付けられる。4.マイニング分野の全体図 サポートとは X と Y が同時に含まれるトランザクショ サポート マイニングに関しては ACM に SIG―KDD(ACM SIG―KDD ンが現れる確率である。信頼度信頼度とは、トランザクショ 信頼度Special Interest Group on Knowledge Discovery and ンに X が含まれる場合に、Y も含まれる条件付き確率Data Mining[19])という世界最大の組織が生まれ、こ である。図2の例に対して CE→A といったルールは、こが主催になって 1996 年より KDD ( Knowledge KDD( 全トランザクション数が6で、C、E、A の同時出現数 Mining)Discovery and Data Mining)とよばれる世界最大のデ が4であるからサポートは(4/6)である。また、CE のータマイニングの国際会議が毎年開催されている[19]。 出現数が5で、CE の出現のもとでの A の出現数が4で他にも SIAM,IEEE でのデータマイニング会議や あるから、信頼度は(4 / 5)である。PAKDD, Discovery Science などといった国際会議もあ バスケット分析では、サポートと信頼度がある一定以り、いずれも年を追うごとに盛況になっている。雑誌で 上の値をもつルールを抽出することを考える。そのステは Data Mining and Knowledge Discovery Journal[21] ップは以下の2つに分かれる。があり、本分野の最先端の技術を集めている。 1)頻出アイテム集合の発見。 頻出アイテム集合の発見。一定値以上のサポー 頻出アイテム集合の発見。 KDD では多くの技術要素が新しく生まれている。こ トをもつアイテム集合を抽出する。図3は図 2 の例にれらの基本技術の関係を表したのが図1である。横軸は 対して 50%以上のサポートをもったアイテム集合を表左側から右側に移るにつれて数値データからテキストデ している(一定値以上のサポートをもつアイテム集合をータを対象にすることを示しており、縦軸は上に進むに 頻出アイテム集合とよぶ) 。この場合、他のアイテム集従って、比較的新しい技術であることを示している。 合の部分集合とならないアイテム集合(これを極大頻出 本稿で全てを解説することは出来ないので、特に基本 アイテム集合とよぶ)は ABCE と CDE である。ここ的であると思われる、バスケット分析、分類ルールの学 における計算時間は O(r・n・2l)である。ここでrは極習、嗜好学習とリコメンデーション、外れ値検出、テキ 大頻出アイテム集合の数、nはアイテム数、lは頻出アスト分類といった技術をとりあげる。 イテム集合のうち最長のものの長さ (要素の数)である。   4.バスケット分析 バスケット分析は POS データのトランザクションからどの商品が一緒に買われるかを分析するものである。これはデータマイニングの技術の中でも最も単純な機能であり、機械学習アルゴリズムが出てくるまでもない。しかし、データマイニングが世の中に普及するきっかけとなった技術なので、簡単に説明しておこう。 POS データは図2に示すような、誰がどんなアイテ  ムを買ったかを記述したトランザクションデータである 図3.頻出アイテム集合の生成(データ数は6) 相関ルール Association Rule)[2]、 。相関ルール 相関ルール(( Rule)[13]とは 2)信頼度の高いルールの発見。 信頼度の高いルールの発見。全ての頻出アイテム集 信頼度の高いルールの発見。     R: X→Y 合 Y 対して、全ての X⊂Y(X≠∅)に対して、信頼度がの形で表されるルールである。これは「顧客が X を買 一定以上のルール:X→Y−X を生成する。図4はアえば Y を買う」と読む。X、Y は単一のアイテムであっ イテム集合を X=ACE としたときに6つのルールが生ても、アイテムの集合であっても良い。 成出来ることを示している。ここでの計算時間は O(f・ 2l)である。ここに、f は頻出アイテム集合の要素数、l は前出と同じである。   A→CE (4/4) C→AE (4/6) E→AC (4/5) AC→E (4/4) AE→C (4/4) CE→A (4/5)     図4.ルール生成と信頼度     図2.トランザクションデータ
  • 3. 最近のバスケット分析では、上記アルゴリズムを高速 に木を成長させる Growing と、一旦最後まで成長させ化したり、出現するルールの冗長性を除いたりする研究 た木を刈り込む Pruning とに分けられる。[16]が進められている。また、相関ルールは時系列にお Growing  Growing では、情報利得を最大化するようにノードけるパタン抽出などにも用いられている。 を選んでいく。 解約者のデータを1、非解約者のデー5.分類ルールの学習 タを0で表すとき、データを表す2元系列を D とし、 分類ルールの学習とは、属性とクラスからなる事例デ それがノードの条件を満たすデータとそうでないデータータから、属性とクラスの間の一般的な関係を導き出す 列に分割されたとして、それぞれ、D+、D−とする。そ手法である。 こで、ノードが与えられたときの分割による情報利得 情報利得 例えば、インターネットプロバイダにおける解約者分 を析の例を考えよう。1つのデータが会員のプロファイルデータであるとして、属性は性別、職業、年齢、収入ラ        I(D)−(I(D+)+I(D−))   (1)ンク、趣味などであり、クラスは会員が解約したかどうかを表すものとする。このようなデータが大量に蓄積さ として計算する。上記値が最も大きくなるような属性条れたときに、どのような属性条件が満たされれば、その 件をノードとして選ぶ。これは I(D)はノードによらな人は解約するか?といった一般的関係性を導くのがここ いから I(D+)+I(D−)を最小化することと等価である。での問題である(図5) 。これはクラスといった教師情 ここで、I(x)は系列xのもつコンプレキシティであり、報をもとに学習するので、機械学習の分野では「教師「教師 1と0が半分づつ混じっているときに最大値をとり、全あり学習」と呼ばれている。あり学習」 て1、または全て0の系列に対しては最小値をとる性質 をもつとする。例えば、エントロピーを用いて        I(x)=mH(m1/m) のように計算する場合がある。ここに、H(z)はエントロ ピー関数 H(z)=−zlog2 z−(1−z)log2(1−z)であり、 mは系列xにおけるデータ数、m1はx中での1の出現 数である。また、確率的コンプレキシティ(Stochastic 確率的コンプレキシティ( 確率的コンプレキシティ Complexity) Complexity)[10]と呼ばれる量を用いて        図5.決定木の学習    I(x)=mH(m1/m)+(1/2)log2(mπ/2)    (2) このような関係性の表現としては決定木、 決定リスト、と計算する場合や、拡張型確率的コンプレキシティを用回帰式、ニューラルネットワーク、サポートベクトルマ いて計算する場合[17]がある。確率的コンプレキシティシン等がある。中でも高い Readability(知識の読みやす は符号化するのに必要な符号長として情報理論的に正確 決定木( 決定木 Tree)さ)を実現するのが決定木(Decision Tree)である。 に定義された量であり、有限長のデータ列に対しては、 決定木は図 5 のように親ノードから子ノードへたど エントロピーよりも的確に系列の複雑さを捉えている。って、属性条件を調べることにより、最終的にクラスを判定する。ひとたび決定木が生成されると、この木を用いて新しいユーザに対しても解約する可能性を予測することができる。そのためには未知データに対して高い分類予測精度をもつような決定木を学習しなければならない。 このような決定木を生成する学習アルゴリズムの研究は機械学習の中でも最も盛んな研究の1つである。有名なところでは、Breiman 等による CART[3]や Quinlan   による ID3,C4.5,C5.0 がある[11]。ここではそれらで用    図6.決定木の Growingいられている代表的な決定木生成の方式を述べよう。 Pruning 通常、決定木学習のプロセスは、データを増やすごと  Pruning では、全体として情報量規準に関して最適
  • 4. になるようにノードを刈り込んでいく。ここで、情報 情報 たときの予測値が最も割れるようなデータを選択的にサ量規準とは、決定木が定める統計的モデルの最適な構量規準 ンプリングすることを繰り返す方法をとっている(図造を決定するための規準である。 AIC 例えば、 (Akaike’s 7)。この方法ではリサンプリングの繰り返しに計算時Information Criteria) MDL や (Minimum Description 間がかかるものの、それは高々サンプル数の線形オーダLength)規準などがよく用いられる。例えば、MDL MDL であり、サンプル数の二乗に比例して計算時間がかかる規準[10]では決定木 T を用いたときの全データ列 D の規準 決定木生成部分においてサンプル数を劇的に減らしてい記述長を、 (2)のコンプレキシティを用いて るので、トータルとして高い Scalability を達成するこ とができる。しかも、分類予測精度は全データを用いた   I(D:T)=ΣtI(Dt)+L(T)      (3)ものとほとんど変わらないといった Effectiveness をも っている。で計算し、これを T に関して最小化する。ここにtは決定木の末端のリーフ(葉)を示し、Dt はリーフtに 6.嗜好学習とリコメンデーションたどり着いたデータ列(クラスに関する2元系列)であ 複数のユーザの商品購買履歴データから、ある特定のるとする。また、L(T)は T を符号化するのに必要な ユーザの嗜好を推定することを考える。例えば、図8の最短ビット数である。一般に式(2)の右辺の第1項と ように、縦軸にユーザを、横軸に CD のアーティスト第2項はトレードオフの関係にある。MDL 規準では、 名を表すとき、表の中にはどのユーザがどの CD を買そのようなトレードオフのもとで最適な決定木が選ばれ って、どれだけ気に入ったか?という数字が与えられてる。このような決定木の選択によって、未知のデータに いる。数字が高いほど満足度合いが高いとする。このよ対する分類予測誤差を小さく抑えることができることが うな表は与えられたデータに対して、埋まっている部分理論的に明らかになっている。 は通常少ない。そこで、埋まっていない部分(例えば、 決定木の学習で重要なのは Scalability の問題である。梅子はユニット F の CD を気に入るかどうか?)を予C4.5、C5.0 などの標準アルゴリズムを用いた場合は、 測し、これに基づいて商品推薦を行うのが嗜好学習によmをデータ数として、O(m2)の計算量を必要とする。 るリコメンデーションである。したがって、データ数が膨大であるときは大変時間がか ここでは、特定のユーザの嗜好を推定するのに他人のかってしまう。実際にはmが百万件規模のときにはもは データを用いて嗜好パタンを推定する方式を考える。こやメモリに載らなくなることさえある。 れは協調フィルタリング(Collaborative Filtering)[9] 協調フィルタリング( 協調フィルタリング Filtering) そこで、決定木の学習において Scalability を獲得す と呼ばれている。るための方法として近年、 「選択的サンプリング」とよ 「選択的サンプリング」ばれる手法が提案されている[1]。これは全てのデータを学習に用いるのではなく、選択的にデータをサンプリングし、メモリに載せて学習を行うというものである。       図8. 相関係数法 協調フィルタリングの方法の代表的手法として相関相関 係数法[9]と呼ばれるものがあげられる。これは図8の 係数法 横軸の相関性に基づくものである。すなわち、梅子の嗜 好を他人の嗜好の線形和で予測し、その係数としてユー 図7.選択的サンプリング ザ間の相関係数を採用するのが相関係数法である。例え ば、太郎と梅子の嗜好パタンが似ていれば、梅子の嗜好 例えば、文献[1]では、既に選ばれたデータを複数回 を予測するのには太郎の嗜好が強く反映される。数学的リサンプリングして、そこで得られたデータセットから には i 番目の人がxという商品に対する嗜好の度合いを複数の決定木を生成し、これらを用いてクラスを予測し Mix とかくとき次式で計算される。
  • 5. Mix=Mi+ΣjCij(Mjx−Mj)/ Σj|Cij |ここに、全ての和は欠損値以外でとられるとし、Mi はMix のxに関する平均、Cij は i 行j行の相関係数を表し、以下で計算される。 Cij =Σx(Mix−Mi) (Mjx−Mj) ×1/ (Σx(Mix−Mi)2Σx(Mjx−Mj)2)1/2      図9.SmartSifter の原理 近年では、相関係数法に代わる様々な協調フィルタリングの方法が生まれている。[7]では、逐次的二項関係 SmartSifter の原理は以下の通りである。学習法と呼ばれるものが提案されている。そこでは、ユ 1)ユーザのパタンを統計的モデルを用いて表現する。ーザ間の相関だけでなく、商品間の相関性も考慮した二 統計モデルとしては離散値変数 x に関してはヒス項関係をオンライン的に学習する手法を取り入れて、相 トグラム密度を用い、連続値変数 y に関しては次関係数法を遥かに凌駕する嗜好学習性能を達成している。 式で与えられるガウス混合分布を用いるとする: 協調フィルタリングの特徴は、顧客の購買履歴データ   p(y)=Σi c i p(y|µi Σi)のみを用いているという点である。つまり、嗜好予測に商品に関するコンテンツの情報は必要としない。 一方で、 ここで、c i はΣi c i=1なる正数、p(y|µi Σi)は平均コンテンツ情報を用いて嗜好学習を行う方法や(これを がµi 分散行列がΣi のガウス分布を表す。コンテンツフィルタリングと呼ぶ)コンテンツフィルタリング 、 協調フィルタリ 2)データを取り込むごとに上記統計的モデルのパラングとコンテンツフィルタリングを結合する様々な方法 メータを、忘却型 EM アルゴリズム 忘却型 アルゴリズムによって学習も提案されている。 する。これは過去のデータほどその効果を徐々に 少なくすることによって、データのパタンや異常7.外れ値検出と不正検出 値のパタンの変化に適応するというものである。 通常、データマイニングでは、データの全体的な傾向 3)学習前後の統計的モデルの変化を統計的距離で計を把握することが主に研究されている。しかしながら、 算し、その値をスコアとする。すなわち、統計的全体的な傾向から逸れた外れ値を検出することも重要な モデルをより大きく動かすようなデータほど外れデータマイニングのテーマの1つである。なぜなら、異 値度合いが大きいと見なされる。常値の中には単純にノイズといえるものばかりでなく、 SmartSifter を KDDCup99 とよばれるデータセット異常行動につながるデータや、新しいトレンドを示す重 [18]に対して適用した。このデータセットは侵入とそう要なデータが含まれているからである。このような異常 でないネットワークアクセスログからなり、元来教師あ値を検出する技術を「外れ値検出」 「外れ値検出」とよんでいる。 「外れ値検出」 り学習による不正検出のためのベンチマークデータとし 外れ値検出の応用分野の1つに不正検出(Fraud て与えられたが、ここでは教師情報(どれが不正侵入で 不正検出( 不正検出Detection)Detection)がある。応用対象としては、 あるかといった情報)は用いていない。侵入の混合率は ・ネットワークの不正侵入検出 0.35%であった。その結果、SmartSifter には以下 ・携帯電話の成りすまし利用の検出 の特徴を確認することができた。 ・クレジットカードの不正利用の検出 1)高い不正侵入検出力 高い不正侵入検出力(Effectiveness) 高い不正侵入検出力 。スコアの上 ・医療や保険業界おける不正請求検出 位5%のデータの中に全体の侵入の85%が含まれなどがあげられる。 ていた。この結果は、同様な機能をもつ競合アルゴ 本節では、統計的外れ値検出エンジン SmartSifter リズムと比較しても圧倒的に優れている。について説明する[11]。これはデータを入力する毎に、 2)高速性 高速性(Scalability) 高速性 。Service の形態、接続時間、データのスコアを計算する。スコアの値が高いほど、そ 送信バイト数、受信バイト数などといった4つの属の外れ値度合いが高いと見なされる。一定数のデータに 性を用いたときには、データ数50万件に対して対してスコアリングを行ったならば、スコアの降順にこ 140 秒で処理できた。れをソートし、上位のデータを調査すれば、高い確率で 4)高い適応性 高い適応性。データのパタンが変化しても忘却型不正データを検出することができると期待できる。 学習アルゴリズムによって適応的に外れ値を検出。
  • 6.  文献[11]では、不正医療サービスデータから不審な医療サービスデータを検出できた事例が示されている。 SmartSifter には、外れ値が何故例外的かを説明する機能がなく、Readability が不十分であったが、最近では、SmartSifter が検出した外れ値の一群をルールで説明する研究が進められている[12]。 外れ値検出技術の応用は不正検出に限らない。将来は意外なトピックの検出や新しい傾向の発見などに応用できるものと期待されている。         図11.テキスト分類8.テキスト分類と自由記述アンケート分析8.1.テキストマイニング このようなテキスト分類は、自然言語の形態素解析と 5 テキストマイニング テキストマイニングは、自然言語処理とデータマイ テキストマイニング 節で触れた教師あり学習技術を組み合わせることで実現ニング技法を結合した技術である。テキストマイニング できる。これを以下、やや詳しく述べよう。の要素技術には、テキストクラスタリング、テキスト分 形態素解析とは、文章を意味のなす単語の単位に分 形態素解析類、相関性解析、情報抽出、などがあり、それらの応用 解することである。例えば、 「意味のなす単語の単位に分野としては自由記述アンケート分析、コールセンター 分解する」という文章は「意味/の/なす/単語/の/単位/に/におけるメールの自動分類、営業レポートの分析など多 分解する」と区切られる。そうして得られる単語の中か岐に渡っている。要素後術と応用領域の対応関係をまと ら特に分類にとって重要である単語をなんらかの基準のめたのが図 10 である。 下で抽出する(これを属性選択 属性選択とよぶ) 属性選択 。そこで、テキ ストを属性選択された単語がそれぞれ含まれているか否 かを1、0で表現することにより、バイナリベクトルで 表現する。次に、バイナリベクトルとカテゴリの一般的 な対応関係について事例データから教師あり学習を行う。 テキスト分類の主な目的は、カテゴリが未知のテキス トに対してそのカテゴリを出来るだけ正しく予測するこ とである。その場合には、今のところサポートベクトル マシンを用いた場合が最も分類予測制度が高いことが検 証されている[4]。ところが、それは非ルール形式であ り、対応関係が複雑な数式で表されるためにReadability がない。知識発見の立場からは Readability が重要なの 図 10.テキストマイニングの要素技術と応用領域 で、ルール形式の表現形が有利である。ルール形式の最 もわかりやすい例が決定リスト 決定リストである。決定リストは 決定リスト8.2.テキスト分類 テキスト分類はテキストマイニングの中でも最も重 “If テキストが単語 A を含む then カテゴリ=X テキスト分類要な要素技術の1つである。これはテキストを複数のカ else if テキストが単語 B を含む then カテゴリ=Xテゴリに振り分けるための技術である[15](図 11) 。例 ……”えば、ニュース記事を、そのコンテンツに基づいて政治、といった If−then – else 形式でかける。ここで、条件経済、スポーツなどのカテゴリに自動的に振り分けるの 文には複数の単語の同時出現条件が入ってもよい。このに用いられる。また、WEB 上を流れるテキストを有害 ような決定リストを 5 節で述べたような情報量規準に文書(ポルノ、薬物、等)と無害文書のカテゴリに振り 基づいて学習するアルゴリズムが提案されている[6]。分けて、有害文書をフィルタリングすることにも用いられる。そのためにはテキストをカテゴリへの振り分ける 8.3.自由記述アンケート分析分類ルールをデータから学習しなければならない。 テキスト分類は自由記述アンケート分析に応用するこ とができる[6]。通常、アンケートデータはカテゴリカ ルデータと自由記述文からなっている。例えば、自動車 のブランドイメージ調査では、図12のように一人のユ
  • 7. ーザが回答したデータには、ブランド名(車種)、顧客 域を拡大している。しかし、一貫してマイニング技術の満足度、年代などといったカテゴリカルデータと、ブラ 目指すところは「知識発見」であり、特に専門家をも驚ンドイメージに関する自由記述回答部分が含まれている。かせるような新しい知識を大量データの中から発見する ことが最大の課題である。そのためにもマイニング技術 は大規模計算技術、並列計算技術、可視化技術などと緊 密に結びついて発展していくと期待されている。 参考文献 [1]N. Abe and H. Mamitsuka: Query Learning Strategies Using Boosting and Bagging, Proc .of the 15th   図 12. 自由記述アンケートデータの構造 Int. Conf.. on Machine Learning (ICML98), pp:1-9(1998) [2]R. Agarwal, H. Mannila ,R. Srikant,H.Toivonen,and そこで、カテゴリカルデータの中から特定のカテゴリ A.I.Verkamo: Fast Discovery of Association Rules.を指定し(例えば、ブランド) 、自由記述回答部分をテ U.Fayyadet.al. editors, Advances in Knowlesge Discoveryキストとして、テキスト分類を行うことを考える。この and Data Mining, pp:307-328, AAAI Press (1996).ときアンケートデータから分類ルールを決定リストの形 [3] L.Breiman, J.H.Friedman, R.A.Olshen, andで学習したとき、条件文の中に、そのカテゴリに特徴的 C.J.Stone: Classification and Regression Trees.な言葉が現れる。 例えば A 車というブランドに注目 Belmnt,CA:Wadsworth. (1984).して [4]T.Joachims: Text Categorization with Support Vector If 安全 & 心地良い then ブランド=A車 Machines: Learning with Many Irrelevant Features. Else if アウトドア向き then ブランド=A 車 Proc. European Conf. on Machine Learning (ECML’98 ) Else if ….. pp:137-142 , (1998)    図 13. 自由記述アンケート分析 [5]H.Li and K.Yamanishi: Text Classification Using ESC-というルールが得られたとする。このとき、A車の特徴 based Stochastic Decision Lists. Proc. of 8th Int. Conf.が、「安全 & 心地良い」 「アウトドア向き」といった on Information and Knowledge Management  (ACM-言葉で表されるというわけである。このような言葉は情 CIKM’99), pp: 122—130, (2000).報利得の高い順に選ばれる。 情報利得とは5節の式 (1)[6]H.Li and K.Yamanishi: Mining from Open Answersで示した量であり、言葉が指定されたカテゴリにとって in Questionnaire Data.. To appear in Proc. of  Seventhどれだけ特徴的であるかを示している。以上のようなテ ACM  SIGKDD  Int. Conf.  Knowledge Discovery and on キスト分類に基づく自由記述アンケートは実際にマーケ Data Mining (KDD2001 )(2001)ティングの中で活用されている[6]、[20]。 [7]A. Nakamura and N. Abe.: Collaborative Filtering Using 自由記述アンケートを分析する手法としては、他に、 Weighted Majority Prediction Algorithms. Proc. of 15th Int.テキストクラスタリングや相関分析などがある。 Conf. on Machine Learning (ICML98) , pp.395-403, テキストクラスタリングはプレーンなテキストを教 (1998). テキストクラスタリング師無し学習によって指定された数のクラスタ(群)に分 [8]J.R.Quinlan:C4.5 Programs for Machine Learning, 共起度に基づく相関分析では、 Morgan Kaufmann 1993けるものである。一方、共起度に基づく相関分析 共起度に基づく相関分析単語間の同時出現(共起関係)の情報から主成分分析、 [9]P. Resnick, N. Iacovou, M. Suchak, P. Bergstom and J.数量化三類、などを行い、言葉同士の連関をポジショニ Riedl.: GroupLens: An Open Architechture for Collaborativeングマップと呼ばれる二次元マップ上で表現する。以上 Filtering of Netnews . Pro.c . of ACM Conf. on Computerの技術は[14]、[16]を参考にされたい。 Supported Cooperativ Work (CSCW94 ) pp.175-186, 1994 [10]J.Rissanen: Fisher Information and Stochastic9.おわりに Complexity. IEEE Trans.on Information Theory, 42(1), 以上、データ・テキストマイニング技術を、バスケッ pp:40-47 (1996).ト分析、分類ルールの学習、嗜好学習とリコメンデーシ [11]K. Yamanishi, J. Takeuchi, G. Williams, P. Milne:ョン、外れ値検出、テキスト分類に焦点を絞って解説し On-line Unsupervised Outlier Detection Using Finiteてきた。データ・テキストマイニングの技術は以上にと Mixtures Using Discounting Learning Algorithms.どまらず、今も多くの要素技術を生み出しながら応用領 Proc. of Sixth  ACM  SIGKDD  Int. Conf.  Knowledge on 
  • 8. Discovery and Data Mining (KDD2000), pp:320-324(2000)[12]K. Yamanishi and J. Takeuchi: Discovering OutlierFiltering Rules from Unlabeled Data. To appear in Proc.of Seventh ACM SIGKDD Int. Conf. on KnowledgeDiscovery and Data Mining (KDD2001 ) (2001)[13]M.J.Zaki: Generating Non-redundant AssociationRules. Proc. of Sixth ACM SIGKDD Int. Conf. onKnowledge Discovery and Data Mining (KDD2000),pp:34-43 (2000)[14]人工知能学会誌 Vol.16, No.2 (2001 年 3 月) 特集「テキストマイニング」[15]永田、平田: テキスト分類-学習理論の「見本市」-、情報処理、vol.42(1), pp:32-37 (2001).[16]日経コンピュータ pp:40-46, 2001 年 8 月[17]山西 健司:拡張型確率的コンプレキシティと情報論的学習理論、応用数理、49,pp:71-78 (1998).[18]http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html[19]http:///www.acm.org/sigkdd/[20]http://www.labs.nec.co.jp/DTmining/[21]http://www.wkap.nl/journalhome. htm/1384-5810