Submit Search
Upload
20151010 ビッグデータとデータサイエンス
•
Download as PPTX, PDF
•
0 likes
•
380 views
Toshikazu Inoue
Follow
ビッグデータとデータサイエンスについて、上智大学理工学部同窓会において講演を行った時の資料です。(2015/10/10)
Read less
Read more
Internet
Report
Share
Report
Share
1 of 59
Download now
Recommended
機械学習工学への期待〜機械学習が工学となるために〜
機械学習工学への期待〜機械学習が工学となるために〜
MLSE
2015年度 コンピュータリテラシ (1)
2015年度 コンピュータリテラシ (1)
Tokyo Tech (Tokyo Institute of Technology)
Code for KOSENの紹介とお誘い
Code for KOSENの紹介とお誘い
Ismail Arai
Jista kansai121031
Jista kansai121031
Issei Abe
2015年度 コンピュータリテラシ (2)
2015年度 コンピュータリテラシ (2)
Tokyo Tech (Tokyo Institute of Technology)
ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析
TOSHI STATS Co.,Ltd.
Resume of David M. Herman
Resume of David M. Herman
David Herman
20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司
20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司
Insight Technology, Inc.
Recommended
機械学習工学への期待〜機械学習が工学となるために〜
機械学習工学への期待〜機械学習が工学となるために〜
MLSE
2015年度 コンピュータリテラシ (1)
2015年度 コンピュータリテラシ (1)
Tokyo Tech (Tokyo Institute of Technology)
Code for KOSENの紹介とお誘い
Code for KOSENの紹介とお誘い
Ismail Arai
Jista kansai121031
Jista kansai121031
Issei Abe
2015年度 コンピュータリテラシ (2)
2015年度 コンピュータリテラシ (2)
Tokyo Tech (Tokyo Institute of Technology)
ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析
TOSHI STATS Co.,Ltd.
Resume of David M. Herman
Resume of David M. Herman
David Herman
20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司
20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司
Insight Technology, Inc.
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
Akihiko Uchino
Melcar drilling ppt
Melcar drilling ppt
aidancarolan
Wired Community @ Collingwood Final Report
Wired Community @ Collingwood Final Report
Infoxchange
20120609 ローカリゼーションマップ
20120609 ローカリゼーションマップ
Toshikazu Inoue
Human Resource-Payroll Manager - 07-25-14
Human Resource-Payroll Manager - 07-25-14
Diana McClenahan
How to Be a Successful Bossypants
How to Be a Successful Bossypants
Corey Alderdice
Connecting Through Social Media (NCSSSMST 2011)
Connecting Through Social Media (NCSSSMST 2011)
Corey Alderdice
Rubrecht & ishikawa cue 2011 conference
Rubrecht & ishikawa cue 2011 conference
Brian Rubrecht
20141107 図書館総合展 ユニバーサルナレッジ_講演資料
20141107 図書館総合展 ユニバーサルナレッジ_講演資料
Toshikazu Inoue
先端技術 データサイエンティスト
先端技術 データサイエンティスト
聡 中川
アジャイル開発を可能にするEA
アジャイル開発を可能にするEA
Kent Ishizawa
dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料
s. kaijima
データサイエンスとデータエンジニア
データサイエンスとデータエンジニア
nagix
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
20120316 アジャイルジャパン東京サテライト
20120316 アジャイルジャパン東京サテライト
Toshikazu Inoue
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
KSK Analytics Inc.
Teaching Dispositions
Teaching Dispositions
KimKimdesidesi
マルチビッグデータの活用を支える DWHの作り方
マルチビッグデータの活用を支える DWHの作り方
Yahoo!デベロッパーネットワーク
LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
National Institute of Informatics (NII)
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Yahoo!デベロッパーネットワーク
OrbisBrain
OrbisBrain
Shigeki Hayahara
MaaSを捉えなおそう・熊本の交通を見直そう
MaaSを捉えなおそう・熊本の交通を見直そう
Masaki Ito
More Related Content
Viewers also liked
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
Akihiko Uchino
Melcar drilling ppt
Melcar drilling ppt
aidancarolan
Wired Community @ Collingwood Final Report
Wired Community @ Collingwood Final Report
Infoxchange
20120609 ローカリゼーションマップ
20120609 ローカリゼーションマップ
Toshikazu Inoue
Human Resource-Payroll Manager - 07-25-14
Human Resource-Payroll Manager - 07-25-14
Diana McClenahan
How to Be a Successful Bossypants
How to Be a Successful Bossypants
Corey Alderdice
Connecting Through Social Media (NCSSSMST 2011)
Connecting Through Social Media (NCSSSMST 2011)
Corey Alderdice
Rubrecht & ishikawa cue 2011 conference
Rubrecht & ishikawa cue 2011 conference
Brian Rubrecht
20141107 図書館総合展 ユニバーサルナレッジ_講演資料
20141107 図書館総合展 ユニバーサルナレッジ_講演資料
Toshikazu Inoue
先端技術 データサイエンティスト
先端技術 データサイエンティスト
聡 中川
アジャイル開発を可能にするEA
アジャイル開発を可能にするEA
Kent Ishizawa
dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料
s. kaijima
データサイエンスとデータエンジニア
データサイエンスとデータエンジニア
nagix
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
20120316 アジャイルジャパン東京サテライト
20120316 アジャイルジャパン東京サテライト
Toshikazu Inoue
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
KSK Analytics Inc.
Teaching Dispositions
Teaching Dispositions
KimKimdesidesi
マルチビッグデータの活用を支える DWHの作り方
マルチビッグデータの活用を支える DWHの作り方
Yahoo!デベロッパーネットワーク
LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
National Institute of Informatics (NII)
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Yahoo!デベロッパーネットワーク
Viewers also liked
(20)
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
『ビッグデータ時代を勝ち抜くデータマネジメント』 セミナー資料
Melcar drilling ppt
Melcar drilling ppt
Wired Community @ Collingwood Final Report
Wired Community @ Collingwood Final Report
20120609 ローカリゼーションマップ
20120609 ローカリゼーションマップ
Human Resource-Payroll Manager - 07-25-14
Human Resource-Payroll Manager - 07-25-14
How to Be a Successful Bossypants
How to Be a Successful Bossypants
Connecting Through Social Media (NCSSSMST 2011)
Connecting Through Social Media (NCSSSMST 2011)
Rubrecht & ishikawa cue 2011 conference
Rubrecht & ishikawa cue 2011 conference
20141107 図書館総合展 ユニバーサルナレッジ_講演資料
20141107 図書館総合展 ユニバーサルナレッジ_講演資料
先端技術 データサイエンティスト
先端技術 データサイエンティスト
アジャイル開発を可能にするEA
アジャイル開発を可能にするEA
dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料
データサイエンスとデータエンジニア
データサイエンスとデータエンジニア
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
20120316 アジャイルジャパン東京サテライト
20120316 アジャイルジャパン東京サテライト
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
Teaching Dispositions
Teaching Dispositions
マルチビッグデータの活用を支える DWHの作り方
マルチビッグデータの活用を支える DWHの作り方
LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Similar to 20151010 ビッグデータとデータサイエンス
OrbisBrain
OrbisBrain
Shigeki Hayahara
MaaSを捉えなおそう・熊本の交通を見直そう
MaaSを捉えなおそう・熊本の交通を見直そう
Masaki Ito
人工知能に任せないと難しい時代、何をどうやるべきか~楽天のAI技術活用から人材育成まで~
人工知能に任せないと難しい時代、何をどうやるべきか~楽天のAI技術活用から人材育成まで~
Rakuten Group, Inc.
AI も IoT も Digital Twins も、すべてはデータモデルから
AI も IoT も Digital Twins も、すべてはデータモデルから
Knowledge & Experience
[Track2-1] ディープラーニングのロボット応用事例 ーデータからエクスペリエンスへー
[Track2-1] ディープラーニングのロボット応用事例 ーデータからエクスペリエンスへー
Deep Learning Lab(ディープラーニング・ラボ)
20180308 LWUG in osaka_kyotec_sogo
20180308 LWUG in osaka_kyotec_sogo
Gentaro Sogo
OrbisBrainAcc
OrbisBrainAcc
Shigeki Hayahara
研究室紹介
研究室紹介
Yuriko Sawatani
株式会社エナーバンク_会社紹介資料_エネオクを使った無料の電力コスト削減について.pdf
株式会社エナーバンク_会社紹介資料_エネオクを使った無料の電力コスト削減について.pdf
koitaku3775
20181030 fun
20181030 fun
Hiroshi Maruyama
サービスデザイン:デジタルとフィジカルの融合
サービスデザイン:デジタルとフィジカルの融合
Yuriko Sawatani
先駆的研究テーマ mruby/c
先駆的研究テーマ mruby/c
shimane-itoc
Miu紹介最新版20130711
Miu紹介最新版20130711
Jun Imai
20230326 FA-LT.pdf
20230326 FA-LT.pdf
ShigekiInatama
ものづくりに活かす数学 (2024 年 1 月 26 日 N/S 高等学校での数学の授業)
ものづくりに活かす数学 (2024 年 1 月 26 日 N/S 高等学校での数学の授業)
Kensuke Otsuki
IoT/M2Mが切り拓く未来と課題 NTTコミュニケーションズ IoT・エバンジェリスト 境野 哲
IoT/M2Mが切り拓く未来と課題 NTTコミュニケーションズ IoT・エバンジェリスト 境野 哲
akira sakaino
人が乗れる自動運転電気自動車作成中その4, -version up その1-
人が乗れる自動運転電気自動車作成中その4, -version up その1-
Takashi Yamanoue
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Yasuharu Nishi
kosenconf 005kyushu
kosenconf 005kyushu
a_suenami
4.5G/5G環境でのECサイトの高速化 ― 変わるモバイル購買体験
4.5G/5G環境でのECサイトの高速化 ― 変わるモバイル購買体験
Yoichiro Takehora
Similar to 20151010 ビッグデータとデータサイエンス
(20)
OrbisBrain
OrbisBrain
MaaSを捉えなおそう・熊本の交通を見直そう
MaaSを捉えなおそう・熊本の交通を見直そう
人工知能に任せないと難しい時代、何をどうやるべきか~楽天のAI技術活用から人材育成まで~
人工知能に任せないと難しい時代、何をどうやるべきか~楽天のAI技術活用から人材育成まで~
AI も IoT も Digital Twins も、すべてはデータモデルから
AI も IoT も Digital Twins も、すべてはデータモデルから
[Track2-1] ディープラーニングのロボット応用事例 ーデータからエクスペリエンスへー
[Track2-1] ディープラーニングのロボット応用事例 ーデータからエクスペリエンスへー
20180308 LWUG in osaka_kyotec_sogo
20180308 LWUG in osaka_kyotec_sogo
OrbisBrainAcc
OrbisBrainAcc
研究室紹介
研究室紹介
株式会社エナーバンク_会社紹介資料_エネオクを使った無料の電力コスト削減について.pdf
株式会社エナーバンク_会社紹介資料_エネオクを使った無料の電力コスト削減について.pdf
20181030 fun
20181030 fun
サービスデザイン:デジタルとフィジカルの融合
サービスデザイン:デジタルとフィジカルの融合
先駆的研究テーマ mruby/c
先駆的研究テーマ mruby/c
Miu紹介最新版20130711
Miu紹介最新版20130711
20230326 FA-LT.pdf
20230326 FA-LT.pdf
ものづくりに活かす数学 (2024 年 1 月 26 日 N/S 高等学校での数学の授業)
ものづくりに活かす数学 (2024 年 1 月 26 日 N/S 高等学校での数学の授業)
IoT/M2Mが切り拓く未来と課題 NTTコミュニケーションズ IoT・エバンジェリスト 境野 哲
IoT/M2Mが切り拓く未来と課題 NTTコミュニケーションズ IoT・エバンジェリスト 境野 哲
人が乗れる自動運転電気自動車作成中その4, -version up その1-
人が乗れる自動運転電気自動車作成中その4, -version up その1-
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
kosenconf 005kyushu
kosenconf 005kyushu
4.5G/5G環境でのECサイトの高速化 ― 変わるモバイル購買体験
4.5G/5G環境でのECサイトの高速化 ― 変わるモバイル購買体験
20151010 ビッグデータとデータサイエンス
1.
ビッグデータの活用とデータサイエンス 〜ウェブ検索における実例〜 ユニバーサルナレッジ株式会社 代表取締役 井上俊一 2015/10/10 2015/10/10 ユニバーサルナレッジー禁無断転載
2.
• 1993年 上智大学
理工学部 電気電子工学科卒業 • 1995年 東京工業大学 総合理工学研究科 精密機械システム専攻修了 • 1995-1998年 セコム株式会社 IS研究所 画像情報処理研究室 • 1998-2004年 エキサイト株式会社 CTO • 2004-2008年 ヤフー株式会社 検索事業部長 • 2008-2010年 バイドゥ株式会社 代表取締役社長 • 2011年-現在 ユニバーサルナレッジ株式会社 代表取締役 2015/10/10 ユニバーサルナレッジー禁無断転載 2
3.
• 1993年 上智大学
理工学部 電気電子工学科卒業 • 1995年 東京工業大学 総合理工学研究科 精密機械システム専攻修了 • 1995-1998年 セコム株式会社 IS研究所 画像情報処理研究室 • 1998-2004年 エキサイト株式会社 CTO • 2004-2008年 ヤフー株式会社 検索事業部長 • 2008-2010年 バイドゥ株式会社 代表取締役社長 • 2011年-現在 ユニバーサルナレッジ株式会社 代表取締役 17年間、検索エンジンを作っています。 2015/10/10 ユニバーサルナレッジー禁無断転載 3
4.
ビッグデータ • 「Big」は相対的 – 絶対値があるわけではない •
1つの計算機におさまらないものが「Big Data」 2015/10/10 ユニバーサルナレッジー禁無断転載 4
5.
データサイエンス • データなの? サイエンスなの? •
企業にはデータサイエンティストがいるが、学 術界にはデータサイエンスの教授はいない? 2015/10/10 ユニバーサルナレッジー禁無断転載 5
6.
データサイエンス • 計算機科学 • 数学 •
統計学 • 機械学習 • 特定分野の専門知識 • コミュニケーションスキル • データ可視化 データサイエンス 2015/10/10 ユニバーサルナレッジー禁無断転載 6
7.
データの重要性が増している • データ製品(本日のポイント) – 大規模なフィードバックループ –
行動がデータ製品を変化させ、データ製品が行 動を変化させる。 2015/10/10 ユニバーサルナレッジー禁無断転載 7
8.
2015/10/10 ユニバーサルナレッジー禁無断転載 8
9.
2015/10/10 ユニバーサルナレッジー禁無断転載 9
10.
2015/10/10 ユニバーサルナレッジー禁無断転載 10
11.
2015/10/10 ユニバーサルナレッジー禁無断転載 11
12.
オーガニック 検索 関連検索 ワード ナレッジグラフ
13.
検索連動型広告 (North) 検索連動型広告 (East) 商品リスト広告
14.
地域情報 2015/10/10 ユニバーサルナレッジー禁無断転載 14
15.
地図 2015/10/10 ユニバーサルナレッジー禁無断転載 15
16.
ニュース 2015/10/10 ユニバーサルナレッジー禁無断転載 16
17.
動画 画像
18.
天気 2015/10/10 ユニバーサルナレッジー禁無断転載 18
19.
クエリーサジェスト 2015/10/10 ユニバーサルナレッジー禁無断転載 19
20.
良い検索ってなんだろう? 2015/10/10 ユニバーサルナレッジー禁無断転載 20
21.
Coverage (網羅性) Freshness (即時性) Relevance (関連性) 2015/10/10 ユニバーサルナレッジー禁無断転載 21
22.
“大量の情報からいかに関連性の高 いものを上位に表示するか” 2015/10/10 ユニバーサルナレッジー禁無断転載 22
23.
検索のしくみ 前処理 クロール インデクス作成 実行時 インデクスを引き当てて 並び替える 2015/10/10 ユニバーサルナレッジー禁無断転載 23
24.
検索のしくみ 前処理 クロール インデクス作成 実行時 マッチング ランキング 2015/10/10 ユニバーサルナレッジー禁無断転載 24
25.
26.
• インデクスを引き当てて • 並び替える =
マッチング = ランキング 検索のしくみ 2015/10/10 ユニバーサルナレッジー禁無断転載 26
27.
ランキング 1. 241 2. 300 3.
116 マッチング
28.
マッチングスコア • テキストの一致度をスコア化する • タイトル、説明文、フレーズ、AND、頻度、etc. •
「ランキング=マッチングスコア」としてしまっ た – Google以前の原始的な検索 – AltaVista、Infoseek、Excite、Lycos 2015/10/10 ユニバーサルナレッジー禁無断転載 28
29.
Page Rank • Googleのランキング方式 •
大量のリンクを解析してページの重要性を計 算する。 • 重要性の高いページを上位に表示する。 • 非連続的に検索の精度が上がった。 2015/10/10 ユニバーサルナレッジー禁無断転載 29
30.
2015/10/10 ユニバーサルナレッジー禁無断転載 30
31.
作成者の意図を反映する • 大量のリンクを解析とは? • ページ作成者の意図を反映させること。 日本で一番大きなインターネットの会社は <a
href=“http://www.yahoo.co.jp/”>ヤフー</a> です。 URL アンカーテキスト 2015/10/10 ユニバーサルナレッジー禁無断転載 31
32.
マッチングスコアは何が悪いのか? • テキストとの一致度だけではページ作成者の 意図は反映できない。 2015/10/10 ユニバーサルナレッジー禁無断転載
32
33.
利用者の意図を反映する • 相関性テスト • バケットテスト 2015/10/10
ユニバーサルナレッジー禁無断転載 33
34.
5 3 4 5: Perfect 4: Excellent 3:
Good 2: Fair 1: Bad 4 3 2 4 • 教育を受けたエディターが評価 • DCGで数値化 • メジャークエリー • ランダムクエリー 相関性テスト
35.
相関性テスト • 相関性テストによって検索結果の数値化が可 能になる。 – 例)ver1は3.6だが、ver2は3.8になった。 –
例)Googleは4.2だが、ヤフーは4.1だ。 2015/10/10 ユニバーサルナレッジー禁無断転載 35
36.
バケットテスト • 相関性評価では本当のユーザーの行動は分 からない。 • 一部のユーザーに別の検索結果を見せる。 –
例)5%のユーザーに新しいアルゴリズムの検索 結果を見せる。 • 主な指標に有意差が出るか検定する。 2015/10/10 ユニバーサルナレッジー禁無断転載 36
37.
バケットテスト • ページビュー • インプレッション •
CTR(クリックスルーレート) • バッドクリック • アバンダンレート etc. 2015/10/10 ユニバーサルナレッジー禁無断転載 37
38.
ECサイトにおけるデータ活用 ウェブ検索 • インプレッション • クリック ECサイト •
インプレッション • クリック • コンバージョン(購買) 2015/10/10 ユニバーサルナレッジー禁無断転載 38
39.
購買者の意図を反映する • 「買うか買わないか」は非常に大きな決断で ある。 – 購買>クリック •
大量の購買行動データを利用することにより 検索結果を飛躍的に改善できる。 2015/10/10 ユニバーサルナレッジー禁無断転載 39
40.
EC検索の実際 • 遅れているEC検索の世界 – テキストマッチが主流 •
Amazonが優れているのはデータが多いから 2015/10/10 ユニバーサルナレッジー禁無断転載 40
41.
42.
43.
44.
45.
46.
47.
検索結果で売上が変わる 2015/10/10 ユニバーサルナレッジー禁無断転載 47
48.
ECで利用しているデータ • 全ての導線でログを取る 2015/10/10 ユニバーサルナレッジー禁無断転載
48
49.
50.
51.
52.
53.
54.
データ利用の問題点 • 実際にはデータがつかない商品が大半 – 人目につかない商品 –
新発売の商品 – コールドスタート問題 • リアルの購買データも利用する • 商品を目立たせる工夫が必要 2015/10/10 ユニバーサルナレッジー禁無断転載 54
55.
ユニナレについて • 月間利用者数:3,400万人 – ヨドバシカメラ –
ベルメゾン – DeNAショッピング+auショッピングモール – GDO – 大手ネットスーパー – その他(書籍、ファッション、チケットなど) • APIリクエスト数:7億6,700万/月 2015/10/10 ユニバーサルナレッジー禁無断転載 55
56.
Big Dataの領域 • IT •
金融 • 医療 • 医薬 • 生物 • 教育 • 小売 2015/10/10 ユニバーサルナレッジー禁無断転載 56
57.
Big Dataの種類 • テキスト •
ユーザーログ • 位置情報 • ネットワーク(つながり) • センサー • 画像 2015/10/10 ユニバーサルナレッジー禁無断転載 57
58.
「Data Science Network」の立ち上げ •
上智大学出身者で企業内および学術界の Data Scienceの実例を共有する。 • Facebookグループ – Sophia Data Science Network 2015/10/10 ユニバーサルナレッジー禁無断転載 58
59.
http://www.slideshare.net/toshiinoue 2015/10/10 ユニバーサルナレッジー禁無断転載 59
Download now