ーザが回答したデータには、ブランド名(車種)、顧客 域を拡大している。しかし、一貫してマイニング技術の
満足度、年代などといったカテゴリカルデータと、ブラ 目指すところは「知識発見」であり、特に専門家をも驚
ンドイメージに関する自由記述回答部分が含まれている。かせるような新しい知識を大量データの中から発見する
ことが最大の課題である。そのためにもマイニング技術
は大規模計算技術、並列計算技術、可視化技術などと緊
密に結びついて発展していくと期待されている。
参考文献
[1]N. Abe and H. Mamitsuka: Query Learning
Strategies Using Boosting and Bagging, Proc .of the 15th
図 12. 自由記述アンケートデータの構造 Int. Conf.. on Machine Learning (ICML98), pp:1-9(1998)
[2]R. Agarwal, H. Mannila ,R. Srikant,H.Toivonen,and
そこで、カテゴリカルデータの中から特定のカテゴリ A.I.Verkamo: Fast Discovery of Association Rules.
を指定し(例えば、ブランド) 、自由記述回答部分をテ U.Fayyadet.al. editors, Advances in Knowlesge Discovery
キストとして、テキスト分類を行うことを考える。この and Data Mining, pp:307-328, AAAI Press (1996).
ときアンケートデータから分類ルールを決定リストの形 [3] L.Breiman, J.H.Friedman, R.A.Olshen, and
で学習したとき、条件文の中に、そのカテゴリに特徴的 C.J.Stone: Classification and Regression Trees.
な言葉が現れる。 例えば A 車というブランドに注目 Belmnt,CA:Wadsworth. (1984).
して [4]T.Joachims: Text Categorization with Support Vector
If 安全 & 心地良い then ブランド=A車 Machines: Learning with Many Irrelevant Features.
Else if アウトドア向き then ブランド=A 車 Proc. European Conf. on Machine Learning (ECML’98 )
Else if ….. pp:137-142 , (1998)
図 13. 自由記述アンケート分析 [5]H.Li and K.Yamanishi: Text Classification Using ESC-
というルールが得られたとする。このとき、A車の特徴 based Stochastic Decision Lists. Proc. of 8th Int. Conf.
が、「安全 & 心地良い」 「アウトドア向き」といった on Information and Knowledge Management (ACM-
言葉で表されるというわけである。このような言葉は情 CIKM’99), pp: 122—130, (2000).
報利得の高い順に選ばれる。 情報利得とは5節の式 (1)[6]H.Li and K.Yamanishi: Mining from Open Answers
で示した量であり、言葉が指定されたカテゴリにとって in Questionnaire Data.. To appear in Proc. of Seventh
どれだけ特徴的であるかを示している。以上のようなテ ACM SIGKDD Int. Conf. Knowledge Discovery and
on
キスト分類に基づく自由記述アンケートは実際にマーケ Data Mining (KDD2001 )(2001)
ティングの中で活用されている[6]、[20]。 [7]A. Nakamura and N. Abe.: Collaborative Filtering Using
自由記述アンケートを分析する手法としては、他に、 Weighted Majority Prediction Algorithms. Proc. of 15th Int.
テキストクラスタリングや相関分析などがある。 Conf. on Machine Learning (ICML98) , pp.395-403,
テキストクラスタリングはプレーンなテキストを教 (1998).
テキストクラスタリング
師無し学習によって指定された数のクラスタ(群)に分 [8]J.R.Quinlan:C4.5 Programs for Machine Learning,
共起度に基づく相関分析では、 Morgan Kaufmann 1993
けるものである。一方、共起度に基づく相関分析
共起度に基づく相関分析
単語間の同時出現(共起関係)の情報から主成分分析、 [9]P. Resnick, N. Iacovou, M. Suchak, P. Bergstom and J.
数量化三類、などを行い、言葉同士の連関をポジショニ Riedl.: GroupLens: An Open Architechture for Collaborative
ングマップと呼ばれる二次元マップ上で表現する。以上 Filtering of Netnews . Pro.c . of ACM Conf. on Computer
の技術は[14]、[16]を参考にされたい。 Supported Cooperativ Work (CSCW94 ) pp.175-186, 1994
[10]J.Rissanen: Fisher Information and Stochastic
9.おわりに Complexity. IEEE Trans.on Information Theory, 42(1),
以上、データ・テキストマイニング技術を、バスケッ pp:40-47 (1996).
ト分析、分類ルールの学習、嗜好学習とリコメンデーシ [11]K. Yamanishi, J. Takeuchi, G. Williams, P. Milne:
ョン、外れ値検出、テキスト分類に焦点を絞って解説し On-line Unsupervised Outlier Detection Using Finite
てきた。データ・テキストマイニングの技術は以上にと Mixtures Using Discounting Learning Algorithms.
どまらず、今も多くの要素技術を生み出しながら応用領 Proc. of Sixth ACM SIGKDD Int. Conf. Knowledge
on
8.
Discovery and DataMining (KDD2000), pp:320-324
(2000)
[12]K. Yamanishi and J. Takeuchi: Discovering Outlier
Filtering Rules from Unlabeled Data. To appear in Proc.
of Seventh ACM SIGKDD Int. Conf. on Knowledge
Discovery and Data Mining (KDD2001 ) (2001)
[13]M.J.Zaki: Generating Non-redundant Association
Rules. Proc. of Sixth ACM SIGKDD Int. Conf. on
Knowledge Discovery and Data Mining (KDD2000),
pp:34-43 (2000)
[14]人工知能学会誌 Vol.16, No.2 (2001 年 3 月) 特集「テ
キストマイニング」
[15]永田、平田: テキスト分類-学習理論の「見本市」-、情
報処理、vol.42(1), pp:32-37 (2001).
[16]日経コンピュータ pp:40-46, 2001 年 8 月
[17]山西 健司:拡張型確率的コンプレキシティと情報論的学
習理論、応用数理、49,pp:71-78 (1998).
[18]http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
[19]http:///www.acm.org/sigkdd/
[20]http://www.labs.nec.co.jp/DTmining/
[21]http://www.wkap.nl/journalhome. htm/1384-5810