Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データマイニングとは

889 views

Published on

  • Be the first to comment

  • Be the first to like this

データマイニングとは

  1. 1. 経営情報学科4回生 木田 翔
  2. 2. データマイニング
  3. 3.  英語: Data mining 統計学、パターン認識、人工知能等のデータ解析 の技法を大量のデータに網羅的に適用することで 知識を取り出す技術 DMと略して呼ばれる事もある
  4. 4.  通常のデータの扱い方からは想像が及びにくい、 ヒューリスティク(heuristic、発見的)なデータを 得ることが可能 英語ではknowledge-discovery in databases (データベースからの知識発見)からKDDと呼ばれる
  5. 5. 定義
  6. 6.  「明示されておらず今まで知られていなかったが、役立つ可能性があり、かつ、自明でない情報をデータから抽出すること」 「データの巨大集合やデータベースから有用な情報 を抽出する技術体系」
  7. 7.  通常はデータの解析に関する用語として用いられるが、人工知能という用語などと同様、包括的な用語であり、様々な文脈において多様な意味で用いられる
  8. 8. 歴史
  9. 9.  データマイニングの発展には、大量のデータ蓄積が 可能となったことが直接的に関係 デジタル形式でのデータの収集は、コンピュータを 用いてデータ解析をすることを念頭に置いて1960年代には既に行われつつあった リレーショナルデータベースとその操作用の言語SQLが1980年代に出現し、オンデマンドで動的なデータ解析が可能に
  10. 10.  1990年代に至り、データ量は爆発的に増大 データウェアハウスがデータの蓄積に 用いられ始める データベースにおける大量データを処理するため の手法としてデータマイニングの概念が出現 統計解析の手法や人工知能分野での 検索技術等が応用されるように
  11. 11. リレーショナルデータベース
  12. 12.  関係データベース 英語: relational database 関係モデル(リレーショナルデータモデル) にもとづいて設計、開発されるデータベース
  13. 13.  Oracle Database、Micrsoft SQL Server、 MySQLなどのデータベース管理システム (DBMS) がサポート 関係データベースに含まれないデータベース はNoSQLなど
  14. 14. 関係モデル
  15. 15.  IBMのエドガー・F・コッドによって考案された 現在もっとも広く用いられているデータモデル 複数の関係(リレーション)を基本的なデータ型とする
  16. 16.  データベースの利用者は、クエリ(問い掛け)をデータベースに与え、複数の関係を連結させてデータを検索したり、変更することができる データは表に似た構造で管理され、複数のデータ群が関係(リレーション)と呼ばれる構造で相互連結可能
  17. 17.  関係は組(タプル、表における行に相当する)、属性(アトリビュート、表における列に相当する)、定義域(ドメイン)、候補キー(主キー)、外部キーなどによって構成 SQLなどに代表されるデータベース言語 (問い合わせ言語)を用いて、関係に対して制限・射影・結合・和・差・交わりなどの関係代数演算(集合演算を含む)ないし関係論理演算を行うことで結果を取り出す
  18. 18. 例例えばある食品を扱う会社における顧客管理データベースでは、顧客リストと物品販売リストは別々のデータ群であるが、顧客管理番号や顧客名などで連結して情報を抽出することが可能
  19. 19. SQL
  20. 20.  リレーショナルデータベース管理システム(RDBMS) において、データの操作や定義を行うためのデータベース言語(問い合わせ言語) リレーショナルデータベースの関係モデル(リレーショナルモデル)における演算体系である関係代数と関係論理(関係計算)に基づく
  21. 21.  SQLは何かの略語ではない SQLに対しては、関係代数と関係論理に忠実に準拠していないとして批判する意見がある
  22. 22. 解析手法
  23. 23.  頻出パターン抽出 クラス分類 回帰分析 クラスタリング
  24. 24. 頻出パターン抽出 データ集合の中から高頻度で発生する特徴的な パターンを見つける 相関ルール抽出 データベースに蓄積された大量のデータから、頻繁に 同時に生起する事象同士を相関の強い事象の関係、 すなわち相関ルールとして抽出する技術 POSやEコマースの取引ログに含まれる購買履歴を利用した バスケット解析など
  25. 25.  その他の頻出パターン時系列やグラフを対象としたものもある
  26. 26. クラス分類 クラス分類は与えられたデータに対応する カテゴリを予測 代表的な手法 単純ベイズ分類器, 決定木, サポートベクターマシン 例:薬品の化合物のデータから,その化合物に薬効 がある・ないといったカテゴリを予測
  27. 27. 回帰分析 与えられたデータに対応する実数値を予測する 代表的な手法 線形回帰、ロジスティック回帰、サポートベクトル回帰 例:曜日、降水確率、今日の売上げなどのデータを 元に、明日の売上げという実数値データを予測
  28. 28. クラスタリング(クラスタ解析) データの集合をクラスタと呼ぶグループに分ける。 クラスタとは、同じクラスタのデータならば互いに 似ていて、違うクラスタならば似ていないような データの集まり 教師なしデータ分類手法、つまり与えられたデータ を外的基準なしに自動的に分類する手法 また、そのアルゴリズム 例:Webの閲覧パターンのデータから、類似したものをまとめる ことで、閲覧の傾向が同じ利用者のグループを発見する
  29. 29. 参照 データマイニング http://research.nii.ac.jp/~uno/datamine.htm データマイニング http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%9E%E3%82%A4% E3%83%8B%E3%83%B3%E3%82%B0 データマイニングの宝箱 http://www.datamining.sakura.ne.jp/11haikei.html 関係データベース http://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%AC%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%8A%E3%83%AB%E3%8 3%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9 SQL http://ja.wikipedi.org/wiki/SQL データ・クラスタリング http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%BB%E3%82%AF%E3%83%A9%E3%82%B9%E3%82 %BF%E3%83%AA%E3%83%B3%E3%82%B0 決定木 http://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E6%9C%A8 サポートベクターマシン http://ja.wikipedia.org/wiki/%E3%82%B5%E3%83%9D%E3%83%BC%E3%83%88%E3%83%99%E3% 82%AF%E3%82%BF%E3%83%BC%E3%83%9E%E3%82%B7%E3%83%B3

×