SlideShare a Scribd company logo
1 of 29
Download to read offline
経営情報学科4回生 木田 翔
データマイニング
 英語: Data mining


 統計学、パターン認識、人工知能等のデータ解析
 の技法を大量のデータに網羅的に適用することで
 知識を取り出す技術

 DMと略して呼ばれる事もある
 通常のデータの扱い方からは想像が及びにくい、
  ヒューリスティク(heuristic、発見的)なデータを
 得ることが可能

 英語ではknowledge-discovery in databases
 (データベースからの知識発見)からKDDと呼ばれる
定義
 「明示されておらず今まで知られていなかったが、
役立つ可能性があり、かつ、自明でない情報を
データから抽出すること」

 「データの巨大集合やデータベースから有用な情報
  を抽出する技術体系」
 通常はデータの解析に関する用語として用いられる
が、人工知能という用語などと同様、包括的な用語
であり、様々な文脈において多様な意味で用いられる
歴史
 データマイニングの発展には、大量のデータ蓄積が
  可能となったことが直接的に関係

 デジタル形式でのデータの収集は、コンピュータを
  用いてデータ解析をすることを念頭に置いて1960年
代には既に行われつつあった

 リレーショナルデータベースとその操作用の
言語SQLが1980年代に出現し、オンデマンド
で動的なデータ解析が可能に
 1990年代に至り、データ量は爆発的に増大

 データウェアハウスがデータの蓄積に
  用いられ始める

 データベースにおける大量データを処理するため
  の手法としてデータマイニングの概念が出現

 統計解析の手法や人工知能分野での
  検索技術等が応用されるように
リレーショナルデータベース
 関係データベース


 英語: relational database


 関係モデル(リレーショナルデータモデル)
 にもとづいて設計、開発されるデータベース
 Oracle Database、Micrsoft SQL Server、
 MySQLなどのデータベース管理システム
 (DBMS) がサポート

 関係データベースに含まれないデータベース
 はNoSQLなど
関係モデル
 IBMのエドガー・F・コッドによって考案された

 現在もっとも広く用いられているデータモデル


 複数の関係(リレーション)を基本的なデータ型とする
 データベースの利用者は、クエリ(問い掛け)を
データベースに与え、複数の関係を連結させて
データを検索したり、変更することができる

 データは表に似た構造で管理され、複数の
データ群が関係(リレーション)と呼ばれる構造
で相互連結可能
 関係は組(タプル、表における行に相当する)、
属性(アトリビュート、表における列に相当する)、
定義域(ドメイン)、候補キー(主キー)、外部キー
などによって構成

 SQLなどに代表されるデータベース言語
  (問い合わせ言語)を用いて、関係に対して制限
・射影・結合・和・差・交わりなどの関係代数演算
(集合演算を含む)ないし関係論理演算を行う
ことで結果を取り出す
例


例えばある食品を扱う会社における顧客管理データ
ベースでは、顧客リストと物品販売リストは別々の
データ群であるが、顧客管理番号や顧客名などで
連結して情報を抽出することが可能
SQL
 リレーショナルデータベース管理システム
(RDBMS) において、データの操作や定義
を行うためのデータベース言語(問い合わせ言語)

 リレーショナルデータベースの関係モデル
(リレーショナルモデル)における演算体系である
関係代数と関係論理(関係計算)に基づく
 SQLは何かの略語ではない


 SQLに対しては、関係代数と関係論理に忠実に
準拠していないとして批判する意見がある
解析手法
 頻出パターン抽出


 クラス分類


 回帰分析


 クラスタリング
頻出パターン抽出

 データ集合の中から高頻度で発生する特徴的な
 パターンを見つける

 相関ルール抽出
 データベースに蓄積された大量のデータから、頻繁に
 同時に生起する事象同士を相関の強い事象の関係、
 すなわち相関ルールとして抽出する技術

 POSやEコマースの取引ログに含まれる購買履歴を利用した
 バスケット解析など
 その他の頻出パターン時系列やグラフを対象
としたものもある
クラス分類

 クラス分類は与えられたデータに対応する
 カテゴリを予測

 代表的な手法
 単純ベイズ分類器, 決定木, サポートベクターマシン

 例:薬品の化合物のデータから,その化合物に薬効
   がある・ないといったカテゴリを予測
回帰分析

 与えられたデータに対応する実数値を予測する


 代表的な手法
 線形回帰、ロジスティック回帰、サポートベクトル回帰

 例:曜日、降水確率、今日の売上げなどのデータを
   元に、明日の売上げという実数値データを予測
クラスタリング(クラスタ解析)

 データの集合をクラスタと呼ぶグループに分ける。
 クラスタとは、同じクラスタのデータならば互いに
 似ていて、違うクラスタならば似ていないような
 データの集まり

 教師なしデータ分類手法、つまり与えられたデータ
 を外的基準なしに自動的に分類する手法
 また、そのアルゴリズム

 例:Webの閲覧パターンのデータから、類似したものをまとめる
   ことで、閲覧の傾向が同じ利用者のグループを発見する
参照
    データマイニング
     http://research.nii.ac.jp/~uno/datamine.htm

    データマイニング
    http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%9E%E3%82%A4%
    E3%83%8B%E3%83%B3%E3%82%B0

    データマイニングの宝箱
    http://www.datamining.sakura.ne.jp/11haikei.html

    関係データベース
     http://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%AC%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%8A%E3%83%AB%E3%8
     3%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9

    SQL
    http://ja.wikipedi.org/wiki/SQL

    データ・クラスタリング
     http://ja.wikipedia.org/wiki/%E3%83%87%E3%83%BC%E3%82%BF%E3%83%BB%E3%82%AF%E3%83%A9%E3%82%B9%E3%82
     %BF%E3%83%AA%E3%83%B3%E3%82%B0

    決定木
    http://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E6%9C%A8

    サポートベクターマシン
     http://ja.wikipedia.org/wiki/%E3%82%B5%E3%83%9D%E3%83%BC%E3%83%88%E3%83%99%E3%
     82%AF%E3%82%BF%E3%83%BC%E3%83%9E%E3%82%B7%E3%83%B3

More Related Content

Viewers also liked

Cloud Computing(クラウド・コンピューティング)
Cloud Computing(クラウド・コンピューティング)Cloud Computing(クラウド・コンピューティング)
Cloud Computing(クラウド・コンピューティング)ripper0217
 
スマートフォンOSが創り出す近未来
スマートフォンOSが創り出す近未来スマートフォンOSが創り出す近未来
スマートフォンOSが創り出す近未来ripper0217
 
インターン研修 自己紹介スライド
インターン研修 自己紹介スライドインターン研修 自己紹介スライド
インターン研修 自己紹介スライドripper0217
 
相関マイニング(バスケット分析)
相関マイニング(バスケット分析)相関マイニング(バスケット分析)
相関マイニング(バスケット分析)Katsuhiro Takata
 
Hello deeplearning!
Hello deeplearning!Hello deeplearning!
Hello deeplearning!T2C_
 
データマイニング勉強会3
データマイニング勉強会3データマイニング勉強会3
データマイニング勉強会3Yohei Sato
 
進学報告会専攻科
進学報告会専攻科進学報告会専攻科
進学報告会専攻科ShotaSatuma
 
自己紹介20160501 share ver
自己紹介20160501 share ver自己紹介20160501 share ver
自己紹介20160501 share verShotaSatuma
 
自己紹介 (kosen10sLT #03)
自己紹介 (kosen10sLT #03)自己紹介 (kosen10sLT #03)
自己紹介 (kosen10sLT #03)ShotaSatuma
 
第3回 熊本プレゼンサークル_スライド
第3回 熊本プレゼンサークル_スライド第3回 熊本プレゼンサークル_スライド
第3回 熊本プレゼンサークル_スライドEimi Otani
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)sleepy_yoshi
 
Deep learningの軽い紹介
Deep learningの軽い紹介Deep learningの軽い紹介
Deep learningの軽い紹介Yoshihisa Maruya
 
電光掲示板のコード C#で画像処理
電光掲示板のコード C#で画像処理電光掲示板のコード C#で画像処理
電光掲示板のコード C#で画像処理Takuya Negishi
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksEiichi Matsumoto
 
Kosen10s#03 自己紹介スライド
Kosen10s#03 自己紹介スライドKosen10s#03 自己紹介スライド
Kosen10s#03 自己紹介スライドTakuya Negishi
 
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~Yasutomo Kawanishi
 

Viewers also liked (20)

Cloud Computing(クラウド・コンピューティング)
Cloud Computing(クラウド・コンピューティング)Cloud Computing(クラウド・コンピューティング)
Cloud Computing(クラウド・コンピューティング)
 
スマートフォンOSが創り出す近未来
スマートフォンOSが創り出す近未来スマートフォンOSが創り出す近未来
スマートフォンOSが創り出す近未来
 
インターン研修 自己紹介スライド
インターン研修 自己紹介スライドインターン研修 自己紹介スライド
インターン研修 自己紹介スライド
 
Markov chain JP
Markov chain JPMarkov chain JP
Markov chain JP
 
相関マイニング(バスケット分析)
相関マイニング(バスケット分析)相関マイニング(バスケット分析)
相関マイニング(バスケット分析)
 
Hello deeplearning!
Hello deeplearning!Hello deeplearning!
Hello deeplearning!
 
データマイニング勉強会3
データマイニング勉強会3データマイニング勉強会3
データマイニング勉強会3
 
Frequency Pattern Mining
Frequency Pattern MiningFrequency Pattern Mining
Frequency Pattern Mining
 
SVM
SVMSVM
SVM
 
進学報告会専攻科
進学報告会専攻科進学報告会専攻科
進学報告会専攻科
 
自己紹介20160501 share ver
自己紹介20160501 share ver自己紹介20160501 share ver
自己紹介20160501 share ver
 
自己紹介 (kosen10sLT #03)
自己紹介 (kosen10sLT #03)自己紹介 (kosen10sLT #03)
自己紹介 (kosen10sLT #03)
 
Random forest の解説
Random forest の解説Random forest の解説
Random forest の解説
 
第3回 熊本プレゼンサークル_スライド
第3回 熊本プレゼンサークル_スライド第3回 熊本プレゼンサークル_スライド
第3回 熊本プレゼンサークル_スライド
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
Deep learningの軽い紹介
Deep learningの軽い紹介Deep learningの軽い紹介
Deep learningの軽い紹介
 
電光掲示板のコード C#で画像処理
電光掲示板のコード C#で画像処理電光掲示板のコード C#で画像処理
電光掲示板のコード C#で画像処理
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
 
Kosen10s#03 自己紹介スライド
Kosen10s#03 自己紹介スライドKosen10s#03 自己紹介スライド
Kosen10s#03 自己紹介スライド
 
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
 

Similar to データマイニングとは

共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜National Institute of Informatics (NII)
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニングHiroshi Ono
 
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会KAMURA
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題kurikiyo
 
いかにしてデータを手に入れるか
いかにしてデータを手に入れるかいかにしてデータを手に入れるか
いかにしてデータを手に入れるかAkihiro Kameda
 
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -National Institute of Informatics
 
Linked Open Dataの基礎と これからの情報活用
Linked Open Dataの基礎と これからの情報活用Linked Open Dataの基礎と これからの情報活用
Linked Open Dataの基礎と これからの情報活用KAMURA
 
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみようYasushi Hara
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシーYasushi Hara
 
データベース09 - データベース設計
データベース09 - データベース設計データベース09 - データベース設計
データベース09 - データベース設計Kenta Oku
 
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けてMasahito Nose
 

Similar to データマイニングとは (20)

共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニング
 
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
「Linked dataとLinked Open Data」アート・ドキュメンテーション学会
 
Azure Datalake 大全
Azure Datalake 大全Azure Datalake 大全
Azure Datalake 大全
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
いかにしてデータを手に入れるか
いかにしてデータを手に入れるかいかにしてデータを手に入れるか
いかにしてデータを手に入れるか
 
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
 
Linked Open Dataの基礎と これからの情報活用
Linked Open Dataの基礎と これからの情報活用Linked Open Dataの基礎と これからの情報活用
Linked Open Dataの基礎と これからの情報活用
 
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
 
データベース09 - データベース設計
データベース09 - データベース設計データベース09 - データベース設計
データベース09 - データベース設計
 
050830 openforum
050830 openforum050830 openforum
050830 openforum
 
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
 
20190320_data journal
20190320_data journal20190320_data journal
20190320_data journal
 
第7回 Linked Data 勉強会 @yayamamo
第7回 Linked Data 勉強会 @yayamamo第7回 Linked Data 勉強会 @yayamamo
第7回 Linked Data 勉強会 @yayamamo
 
研究オープンデータにおける大学と研究者の役割
研究オープンデータにおける大学と研究者の役割研究オープンデータにおける大学と研究者の役割
研究オープンデータにおける大学と研究者の役割
 
RとCDISC
RとCDISCRとCDISC
RとCDISC
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 

More from ripper0217

インターンシップ面接 プレゼン資料
インターンシップ面接 プレゼン資料インターンシップ面接 プレゼン資料
インターンシップ面接 プレゼン資料ripper0217
 
The プレゼン
The プレゼンThe プレゼン
The プレゼンripper0217
 
男前豆腐店株式会社
男前豆腐店株式会社男前豆腐店株式会社
男前豆腐店株式会社ripper0217
 
The be into(はまりもの)
The be into(はまりもの)The be into(はまりもの)
The be into(はまりもの)ripper0217
 
嫌いなものをなくそうプレゼン
嫌いなものをなくそうプレゼン嫌いなものをなくそうプレゼン
嫌いなものをなくそうプレゼンripper0217
 
生番組企画
生番組企画生番組企画
生番組企画ripper0217
 
第1時産業再活性化案
第1時産業再活性化案第1時産業再活性化案
第1時産業再活性化案ripper0217
 
楽しくおしゃれなエコ生活
楽しくおしゃれなエコ生活楽しくおしゃれなエコ生活
楽しくおしゃれなエコ生活ripper0217
 
そでコン3部署連携企画案
そでコン3部署連携企画案そでコン3部署連携企画案
そでコン3部署連携企画案ripper0217
 
新たな社会貢献のカタチ
新たな社会貢献のカタチ新たな社会貢献のカタチ
新たな社会貢献のカタチripper0217
 

More from ripper0217 (13)

インターンシップ面接 プレゼン資料
インターンシップ面接 プレゼン資料インターンシップ面接 プレゼン資料
インターンシップ面接 プレゼン資料
 
The プレゼン
The プレゼンThe プレゼン
The プレゼン
 
男前豆腐店株式会社
男前豆腐店株式会社男前豆腐店株式会社
男前豆腐店株式会社
 
The be into(はまりもの)
The be into(はまりもの)The be into(はまりもの)
The be into(はまりもの)
 
嫌いなものをなくそうプレゼン
嫌いなものをなくそうプレゼン嫌いなものをなくそうプレゼン
嫌いなものをなくそうプレゼン
 
Web戦略
Web戦略Web戦略
Web戦略
 
信息技術
信息技術信息技術
信息技術
 
生番組企画
生番組企画生番組企画
生番組企画
 
第1時産業再活性化案
第1時産業再活性化案第1時産業再活性化案
第1時産業再活性化案
 
楽しくおしゃれなエコ生活
楽しくおしゃれなエコ生活楽しくおしゃれなエコ生活
楽しくおしゃれなエコ生活
 
そでコン3部署連携企画案
そでコン3部署連携企画案そでコン3部署連携企画案
そでコン3部署連携企画案
 
新たな社会貢献のカタチ
新たな社会貢献のカタチ新たな社会貢献のカタチ
新たな社会貢献のカタチ
 
Soft Bank
Soft BankSoft Bank
Soft Bank
 

データマイニングとは