Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
Hisao Soyama
Jubatusが目指すインテリジェンス基盤
Shohei Hido
協調フィルタリング with Mahout
Katsuhiro Takata
機械学習
Hikaru Takemura
データサイエンティストのつくり方
Shohei Hido
ディープラーニングで株価予測をやってみた
卓也 安東
統計学勉強会#2
Hidehisa Arai
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
1
of
69
Top clipped slide
機械学習CROSS 前半資料
Jan. 16, 2014
•
0 likes
59 likes
×
Be the first to like this
Show More
•
18,734 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Technology
エンジニアサポートCROSS2014 機械学習CROSSセッション前半資料です
Shohei Hido
Follow
Chief Research Officer at Preferred Networks America, Inc.
Advertisement
Advertisement
Advertisement
Recommended
機械学習CROSS 後半資料
Shohei Hido
7.2K views
•
11 slides
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
Shohei Hido
8.6K views
•
18 slides
ICML2013読み会 開会宣言
Shohei Hido
6.1K views
•
16 slides
今年のKDDベストペーパーを実装・公開しました
Shohei Hido
6.2K views
•
30 slides
Randomforestで高次元の変数重要度を見る #japanr LT
Akifumi Eguchi
12.3K views
•
17 slides
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
734.1K views
•
41 slides
More Related Content
Slideshows for you
(20)
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
Hisao Soyama
•
5.7K views
Jubatusが目指すインテリジェンス基盤
Shohei Hido
•
5.9K views
協調フィルタリング with Mahout
Katsuhiro Takata
•
6.4K views
機械学習
Hikaru Takemura
•
8.3K views
データサイエンティストのつくり方
Shohei Hido
•
32.8K views
ディープラーニングで株価予測をやってみた
卓也 安東
•
35.1K views
統計学勉強会#2
Hidehisa Arai
•
5.6K views
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
•
30.4K views
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
•
9.7K views
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks
•
7.4K views
深層学習フレームワークChainerの特徴
Yuya Unno
•
59.4K views
Jubatusにおける機械学習のテスト@MLCT
Yuya Unno
•
17.9K views
rcast_20140411
Preferred Networks
•
20.1K views
さらば!データサイエンティスト
Shohei Hido
•
45.8K views
大規模データ時代に求められる自然言語処理
Preferred Networks
•
27.1K views
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
•
9.5K views
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
•
18.6K views
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
•
4.7K views
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Yuya Unno
•
13.6K views
情報抽出入門 〜非構造化データを構造化させる技術〜
Yuya Unno
•
37.7K views
Viewers also liked
(20)
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
Shohei Hido
•
17.1K views
あなたの業務に機械学習を活用する5つのポイント
Shohei Hido
•
50.6K views
機械学習によるデータ分析まわりのお話
Ryota Kamoshida
•
567.3K views
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
•
35.2K views
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
Shohei Hido
•
4.5K views
機械学習の理論と実践
Preferred Networks
•
211.3K views
PFIセミナー "「失敗の本質」を読む"発表資料
Shohei Hido
•
11.2K views
ビッグデータはどこまで効率化できるか?
Shohei Hido
•
9.1K views
プロダクトマネージャのお仕事
Shohei Hido
•
31.7K views
Chainer GTC 2016
Shohei Hido
•
15.9K views
NIPS2015概要資料
Shohei Hido
•
6.8K views
素人がDeep Learningと他の機械学習の性能を比較してみた
Toru Imai
•
26.3K views
How AI revolutionizes robotics and automotive industries
Shohei Hido
•
1.8K views
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Shohei Hido
•
106.8K views
バンディットアルゴリズム入門と実践
智之 村上
•
170.2K views
決定木学習
Mitsuo Shimohata
•
180.7K views
今日から使える! みんなのクラスタリング超入門
toilet_lunch
•
170.1K views
機会学習ハッカソン:ランダムフォレスト
Teppei Baba
•
156.2K views
ロジスティック回帰の考え方・使い方 - TokyoR #33
horihorio
•
281.2K views
一般向けのDeep Learning
Preferred Networks
•
484.6K views
Advertisement
Similar to 機械学習CROSS 前半資料
(20)
mlabforum2012_okanohara
Preferred Networks
•
2.7K views
tut_pfi_2012
Preferred Networks
•
3.7K views
確率統計-機械学習その前に
Hidekatsu Izuno
•
8.2K views
深層学習よもやま話
Hiroshi Maruyama
•
2K views
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
tetsuro ito
•
3.6K views
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
•
200 views
ワークショップ「ゲーム開発チームにおけるパトレット」
Masaru Nagaku
•
1.2K views
データマイニングCROSS 第2部-機械学習・大規模分散処理
Koichi Hamada
•
8.4K views
aiconf2017okanohara
Preferred Networks
•
18K views
FastAPIを使って 機械学習モデルをapi化してみた
Sho Tanaka
•
1.1K views
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Yuya Unno
•
5.5K views
PoCで終わらせない!データ分析・AI活用
__john_smith__
•
9.8K views
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
Hajime Fujita
•
974 views
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
The Japan DataScientist Society
•
8.9K views
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
Shunsuke Nakamura
•
358 views
世界初elastic認定アナリストが送る~誰でもできるデータ分析~
aslead
•
184 views
NeurIPS2021読み会 Fairness in Ranking under Uncertainty
Tatsuya Shirakawa
•
122 views
DeNAにおける機械学習・深層学習活用
Kazuki Fujikawa
•
21.5K views
Overview and Roadmap
JubatusOfficial
•
2.3K views
人間の思考、機械の思考
maruyama097
•
4.3K views
More from Shohei Hido
(10)
CuPy: A NumPy-compatible Library for GPU
Shohei Hido
•
7.6K views
Deep Learning Lab 異常検知入門
Shohei Hido
•
43.5K views
NIPS2017概要
Shohei Hido
•
4.3K views
ディープラーニングの産業応用とそれを支える技術
Shohei Hido
•
8.1K views
Travis E. Oliphant, "NumPy and SciPy: History and Ideas for the Future"
Shohei Hido
•
6.1K views
111015 tokyo scipy2_ディスカッション
Shohei Hido
•
1.4K views
111015 tokyo scipy2_additionaldemo_pandas
Shohei Hido
•
26.9K views
111015 tokyo scipy2_discussionquestionaire_i_python
Shohei Hido
•
648 views
110828 tokyo scipy1_hido_dist
Shohei Hido
•
1.2K views
110901 tokyo scipy1_アンケート結果
Shohei Hido
•
1.3K views
Advertisement
Recently uploaded
(20)
モバイル・クラウド・コンピューティング-データを如何に格納し、組み合わせ、情報として引き出すか
Masahiko Funaki
•
2 views
GraalVMでのFlight Recorderを使ったパフォーマンス解析(JJUG CCC 2023 Spring)
NTT DATA Technology & Innovation
•
0 views
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
•
93 views
DrupalをDockerで起動してみる
iPride Co., Ltd.
•
22 views
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
•
5 views
20230601_Visual_IoTLT_vol14_kitazaki_v1.pdf
Ayachika Kitazaki
•
71 views
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
•
56 views
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Deep Learning JP
•
73 views
統計学の攻略_統計的仮説検定の9パターン.pdf
akipii Oga
•
237 views
Kubernetes超入門
Takashi Suzuki
•
5 views
ペンタエリスリトール市場.pdf
HinaMiyazu
•
3 views
JSONEncoderで詰まった話
とん とんぼ
•
144 views
JSTQB_テストプロセスの概念モデル.pdf
akipii Oga
•
242 views
JSAI2023_企画セッション(仕掛学)資料
Matsushita Laboratory
•
17 views
Oracle Cloud Infrastructure:2023年5月度サービス・アップデート
オラクルエンジニア通信
•
32 views
通信プロトコルについて
iPride Co., Ltd.
•
7 views
20230523_IoTLT_vol99_kitazaki_v1.pdf
Ayachika Kitazaki
•
112 views
ネットワークパケットブローカー市場.pdf
HinaMiyazu
•
7 views
HTTPの仕組みについて
iPride Co., Ltd.
•
9 views
社内ソフトスキルを考える
infinite_loop
•
87 views
機械学習CROSS 前半資料
機械学習CROSS ー前編ー エンジニアサポートCROSS 2013/01/17
Agenda l 機械学習セッション概要 l パネリスト⾃自⼰己紹介 l 機械学習「超」⼊入⾨門 l パネリスト活⽤用事例例紹介 l 後半に向けて
機械学習CROSSの⽬目的、の前に… NGワード データサイエンティスト 3
なんで? l もう、いいよね l l l 昨年年のデータサイエンティストCROSSの素晴らしさ 飽和したデータサイエンティスト論論 「まずは、ヒトと組織でしょう」 l l それが⼤大事、だけど現場とビジネス理理解がもっと⼤大事 l l データサイエンティストに必要なスキルやリテラシー 最終的にデータ活⽤用するための組織と意思決定プロセスがあるか 「分析技術の話は、そのあとでしょう」 l l それを意思決定にどう役⽴立立てられるかが最優先課題 l l 仮説⽴立立ててデータ取って集計して可視化するのが第⼀一歩 分析⼿手法はまずシンプルなもの、⾼高度度なものに拘るのは筋悪 → 「だから、機械学習とかまだいいでしょう」 4
本当に? l l l NIPS2013:機械学習で最⾼高峰の国際学会 今年年のスポンサー:Google/Amazon/Facebook/Yahoo/Microsoft FacebookはCEOマーク・ザッカーバーグまで来場 5
2013年年:機械学習、特に ディープラーニングを巡る動き 6
機械学習は(Web業界でも)さらに応⽤用が広がる! l l l l データ活⽤用の技術/組織インフラはどんどん整っていく そこが各社横並びになった世界で差別化になるものは何か? 伝説のデータサイエンティスト? それとも⾼高度度に進化した機械学習アルゴリズム? 7 今のうちに押さえましょう!
Agenda l 機械学習セッション概要 l パネリスト⾃自⼰己紹介 l 機械学習「超」⼊入⾨門 l パネリスト活⽤用事例例紹介 l 後半に向けて
⾃自⼰己紹介 l l l l ⽐比⼾戸将平(HIDO Shohei) Twitter: @sla 専⾨門:データマイニング、機械学習 経歴: l 2002:
IPA未踏ユース第⼀一期 l 2006: 京都⼤大学情報学研究科修⼠士修了了 l l 2006-2012: IBM東京基礎研究所データ解析グループ 2012-: 株式会社プリファードインフラストラクチャー l l Jubatusチーム共同リーダー 2013-: PFIアメリカ取締役 & Chief Research Officer 9
Yahoo!JAPAN研究所 田島 玲(あきら) 研究員・コンサルタントと動きつつ、データをいかに現 場で実際に役立てていくか、をテーマとしてます 現在は、研究所としてヤフーの様々なサービスでの データ活用を部門横断で支援中 2011年- ヤフー(株)。膨大なデータの利活用をミッションとしている 2012年7月より
Yahoo! JAPAN研究所 所長 2005年-2010年 日本アイ・ビー・エム(株)東京基礎研究所 数理科学チームのリード 2002-2005年 A.T.カーニー(戦略系コンサルティングファーム) コンサルタント 1992-2002年 日本アイ・ビー・エム(株)東京基礎研究所 研究員 2000年3月 東京大学大学院理学系研究科情報科学専攻 博士(理学) P10
平手 勇宇(ひらて ゆう) •
楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム • 専門分野:データマイニング,Webマイニング 50以上の様々なサービスを提供 11
平手 勇宇(ひらて ゆう) •
楽天株式会社 楽天技術研究所 インテリジェンスドメインチーム • 専門分野:データマイニング,Webマイニング 海外展開を推進 12
株式会社 ALBERT -
⼩小宮 篤史 @komiya_atsushi 分析⼒力力をコアとする マーケティングソリューションカンパニー エンジニア(Web / AWS / 機械学習) サービス・ソリューションの開発と運⽤用
FFRI,Inc. 村上純一 (@junichi_m) • 株式会社FFRI –
執行役員 事業推進本部長(兼新技開発部長) • 専門領域 – マルウェア解析、脆弱性分析、セキュリティ脅威分析 • 機械学習は2013年4月から – マルウェア検知(分類)・クラスタリング等 14
自己紹介 – 油井誠
@myui • 奈良先端科学技術大学院大学(NAIST) 情報科学研究科 博士課程修了、博士(工学) 2009年3月 • 産業技術総合研究所 情報技術研究部門 研究員 2010月4月~現在 • 専門はデータ工学、データベース学 大規模データを高速に扱うアルゴリズムの研究に一貫して従事(Data Geek) • XMLデータベースの研究開発 • Many-‐core(64コア)プロセッサを利用したノンブロッキング(Lock-‐free)アルゴリズ ムの研究開発 • データベースの並列処理の研究開発 • オランダ国立情報学数学研究所で主記憶データベース(MonetDB)の並列処理機構 を開発 • 大規模機械学習の研究開発 • Apache Hive上で動くオープンソース機械学習ライブラリを開発 hFps://github.com/myui/hivemall • 企業との共同研究でインターネット広告のコンバージョン率(CVR)予測を行っており、 テラバイト級のデータの機械学習にHivemallを利用 • 平成14年度 IPA未踏ユーススーパークリエイタ • 未踏ユースの第一期生で比戸さん(PFI)と同期
Gunosy紹介 Gunosyとは ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事 を推薦するサービス 自己紹介 名前:
福島良典 年齢:25歳 役職:CEO 仕事: 社長業(意思決定とリクルーティング) / アドサーバーの開発 を半々くらい 今の興味 -‐> 新しいアルゴリズムをどう試すかのテストに関して 機械学習の応用事例 ほぼ全てに 具体的には、推薦部分やアドに (ex) 記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する かetc ©Gunosy Inc.
Agenda l 機械学習セッション概要 l パネリスト⾃自⼰己紹介 l 機械学習「超」⼊入⾨門 l パネリスト活⽤用事例例紹介 l 後半に向けて
機械学習ってぶっちゃけ何? 問1. 機械学習の説明で最も適切切なものを選んでください。 a) ⼈人間のような知能をもったロボッ トを実現するための計算機システム c)
どんな未来も100%予測可能な ルールベースシステム及び その構築⼿手法 b) 与えられたデータから傾向や法則 を導き予測や分析に活⽤用できる アルゴリズム群 d) 質問⽂文を⼊入⼒力力すると求める回答が 瞬時に得られる質問応答を 可能にする技術 18
機械学習とは l 経験(データ)によって賢くなるアルゴリズムの集合 l l l l データから知識識・ルールを⾃自動獲得する データの適切切な表現⽅方法も獲得する ⼈人⼯工知能の中で、⼈人が知識識やルールを 明⽰示的に与える⽅方法の限界から⽣生まれてきた タスクはいろいろある 学習データ 19 分類モデル
機械学習タスク1:レコメンド l ヒト x アイテムの関係の中でオススメを探す l l l ヒト←アイテム:似たアイテムを⾒見見たヒトが⾒見見たアイテム アイテム←アイテム:似たヒト集団が⾒見見たアイテム Web業界でのアプリケーション l l 各ユーザーの履履歴に基いておすすめ商品(記事)を表⽰示 l
例例:ダイ・ハード⾒見見たヒト←ターミネーターをレコメンド 各商品(記事)に関連する商品(記事)を表⽰示 l 例例:カメラを⾒見見た⼈人に予備バッテリーをレコメンド ヒト←アイテム ヒトの閲覧ログ 推薦アイテム アイテム←アイテム 現在のアイテム 関連アイテム 20
機械学習タスク2:クラス分類 l ⼊入⼒力力データxに対するクラスyを予測するモデルを構築 l l l Web業界でのアプリケーション l l l 訓練時:既知の⼊入⼒力力xとクラスyのペアを⼤大量量に投⼊入 予測時:y未知の⼊入⼒力力xに対する予測出⼒力力y’を計算 スパムメール分類:x=メール本⽂文、y={普通, スパム} 不不正ユーザー検出:x=⾏行行動履履歴、y={⼀一般, 不不正} yが連続値なら回帰になる、クラスタリングとは異異なる 予測 訓練 データx データx 正解y 予測y’ 21 21
機械学習タスク3:異異常検知 l ⼤大多数のデータとは異異なる性質を持ったものを検出 l l l 訓練時:正常時の挙動についてモデル化 予測時:現在の挙動に対して異異常スコアを計算 Web業界でのアプリケーション l l サーバー故障予兆検知 l クエリ数に⽐比べてレスポンスが遅くI/Oエラー率率率が⾼高い 不不正アクセス・ネットワーク攻撃検知 l ⾼高頻度度なログイン失敗、不不⾃自然なコマンド列列を検知 予測 訓練 直近ログx 正常時ログx 22 異異常スコアy’ 22
様々な分野に適⽤用可能 l l l データから有⽤用な規則、ルール、知識識、判断基準を抽出 データがあるところならば、どこでも使える 様々な分野の問題に利利⽤用可能 Web業界での適用分野 レコメン デーション 分類、識識別 ユーザー ⾏行行動予測 ユーザー 属性推定 情報抽出 評判分析 ⾃自動応答 負荷予測 画像認識識 検索索ランク 攻撃検知 故障診断 23
あれ、けど機械学習じゃなくてもできるんじゃ? たとえば⼈人⼿手とかルールとか l l l はい、そうです、タスク⾃自体抽象化してるので 極端に⾔言えば機械学習にしかできないタスクは無い ⼈人⼿手と⽐比べたメリット l l l l ルールに⽐比べたメリット l l l l l ⼤大規模データ・⾼高次元データ・可視化できないデータが扱える 応答速度度が早い 作業コストが低い 変化する状況への対応が得意 更更新やチューニングが容易易 複雑な条件を扱うのが得意 (⼀一般に)精度度が⾼高い これらが決定的な差別化になる勝負を選ぶ必要性はある 24
タスク毎のざっくりとした短所・⻑⾧長所 ⼈人⼿手 ⻑⾧長所 ルールベース 短所 ⻑⾧長所 短所 機械学習 ⻑⾧長所 短所 どんなユーザー 経験と勘を 数多く存在す 履履歴に基づいて
チューニン レコ システム化で がどういうもの 抽象化して るマイナーな マイナーなケー グが悪いと メン きずスケール を好むか、経験 スケールさ ケースに対応 スも対応できる、 意味不不明な ド しない と勘を活かせる せられる できない スケールする 結果が出る ⽂文章分類は読め 全て⼈人間がや クラ ば分かる(主⼈人 るのはコスト ス分 がオオアリクイ が掛かり過ぎ 類 に…=スパム) る 正解付き ⼈人間の感覚 例例外ケースが 正解付きデータ データ集め を単純化し 無数に存在す を集められれば は⼈人⼿手や てスケール ると精度度が上 精度度の⾼高い予測 ルールに依 させられる がらない が可能 存する 数万種類の計 閾値を超え 測値を24時間 複雑な異異常、 検知はでき たらアラー おおよその異異常 複雑・未知な異異 365⽇日モニター 未知の異異常を ても原因が 異異常 ト、などは は何らかの計測 常も捉えられる を監視するわ ルール化する 解釈不不能な 検知 ⾃自動化でき 値に現れている 可能性がある けにもいかな のは困難 場合がある る い 25
「機械にやらせるなら、ルールを書けばいいんじゃ ないの?」 「ゴルフ」 à スポーツ 「インテル」
à コンピュータ 「選挙」 à 政治 l l 俗にルールベースと呼ばれる⽅方法 最初は精度度が悪いが頑張れば意外とどこまでも良良くなる 26
ルールに基づく判断の限界 「ゴルフ」and「VW」 à ⾞車車 「インテル」and「⻑⾧長友」
à サッカー 「選挙」and「AKB」 à 芸能 l ⼈人⼿手で書いたルールはすぐ複雑、膨⼤大になる l l l l 1万⾏行行のperlスクリプト どこを変えたらいいかわからない 条件を追加したら何が起こるか・・・ 複雑化したルールは引き継げなくなる 27
機械学習が失敗するパターン l できない精度度を求める l l l ⼈人にとって簡単なタスクをやろうとする l l l サイコロの次の⽬目を当てることはできない 同じように、精度度の限界がある 少ない情報から推論論するのは⼈人間が得意 逆に⼤大量量の情報から判断する必要がある時は機械が得意 ボトルネックが別にある l l アクションを取るのが⼈人だったり、⼈人が途中に介在する 量量と速度度のメリットをいかに活かすか 28
機械学習をどう実装・システム導⼊入するか 専⽤用スクリプト⾔言語/ツール R, Weka, Matlab,
SPSS 汎⽤用⾔言語⽤用ライブラリ SciPy, Shogun クラウドベース機械学習ツール bigML, Bazil ビッグデータ向けプラットホーム Mahout, Jubatus, Oryx, hivemall 29
Agenda l 機械学習セッション概要 l パネリスト⾃自⼰己紹介 l 機械学習「超」⼊入⾨門 l パネリスト活⽤用事例例紹介 l 後半に向けて
P31
事例:コンテンツ連動型広告(YDN) P32
パフォーマンス制約を満たすため、2段階の 構成が一般的です 課題 • 膨大なユーザー数、リクエスト数 • 様々なコンテンツ、広告 • レイテンシー制約 • 引き当てロジックの複雑化 ページリクエスト ユーザー情報 広告DB
マッチング(情報検索アプローチ) Query 転置 インデックス リランキング(機械学習アプローチ) Short List Long List 機械学習 モデル Short List P33
CTR(Click-Through-Rate)を予測 → 分類ではなく、回帰です P34 • 4本の候補から2本を選んで配信する場合の例 •
入札額×CTR=期待収益 広告 入札額 CTR 期待収益 A 20 0.25 5.0 B 15 0.20 3.0 C 30 0.15 4.5 D 100 0.01 1.0 期待収益の高いAとCを 配信すれば良さそう!
素性と予測モデル P35 ユーザーと広告の 類似度 広告自身の 情報 ユーザー 広告 ページ (環境) ページと広告の 過去の 関連度 配信実績情報 ページp、ユーザーu、広告aが 与えられた時のCTR データから学習される モデルのパラメータ 素性ベクトル
(参考)学会発表もしてます hFp://dl.acm.org/cita]on.cfm?id=2501978 P36
37
商品情報整備のための機械学習の活用 1億 膨大な数の商品数 多くが非構造データ 1. 商品情報に特化した形態素解析器の構築 2. 商品情報の構造化 3.
よい画像の自動選択 38
1.商品情報に特化した形態素解析器の構築 サードパーティ製 解析器 シャ ンパンドゥヴィノージュ (未知語) うっ とろ
りん と する ) by RIT シャンパン | ドゥ | ヴィノージュ うっとろりん | と | する 検索 (新語) 蕾丝百搭吊带背心 (中国語) 蕾丝 | 百搭 | 吊带 | 背心 楽天商品データに対する 単語分割精度 情報抽出 テキストマイニング etc. 39
2.商品データの構造化 • 構造化されていないテキストから商品情報を自動抽 出するシステムの開発 テキスト (非構造化データ) 構造化データ 属性 属性値 色 赤 生産地 イタリア, トスカーナ ブドウ品種 メルロー, カベルネソービニヨン, プティヴェルド, カベルネブラン 年代 2010 容量 750ml 40
2.商品データの構造化 1. HTMLのテーブルを参照し,属性値DBを生成 2. 属性値DBを利用して,属性値抽出ルールを自動生成 (2) Table
data Generation Chateau d’Issan 1994 Database : <Region, Margaux> <Color, White> : This is a wine from Margaux. ... Annotation Rule wine from x => x is a Region This is a wine from Lafite Rothschild New Region! (1) 41
3.よい商品画像の選択 • 店舗様がアップロードした画像セットから, 商品カタログへの掲載に適切な画像を選択 店舗様名が含まれている画像 「準備中」の画像 42
3.よい商品画像の選択 • テキストが含まれている領域か否かを判定 送料無料
text non-text Classify text/non-text 43
About ALBERT 分析⼒力力をコアとする マーケティングソリューションカンパニー ※エンジニアなど募集中です! http://bit.ly/alb_recruit © 2013
ALBERT Inc.
引⽤用 http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
Display Adver:sing Data Management
PlaAorm CRM&Marke:ng Automa:on 引⽤用 http://chiefmartec.com/2014/01/marketing-technology-landscape-supergraphic-2014/
マーケティング分野における機械学習の活⽤用状況 • 機械学習の活⽤用・⼆二つの観点 – マーケティング・オートメーションを実現する⼿手段としての 「機械学習」 –
オーディエンスデータ・蓄積データをアドホックに分析する ⼿手段としての「機械学習」 • 主な活⽤用シーン(例例) – レコメンデーション • アソシエーション・ルール・マイニング • 協調フィルタリング – 顧客のクラスタリング/分類 • ⾮非階層クラスタリング(k-means) • クラス分類(k-近傍探索索) – クリエイティブ最適化 • 重回帰分析
ALBERT のマーケティングソリューション © 2013
ALBERT Inc.
事例例:顧客のクラスタリング/分類 購買ログやアクセス履履歴を元に、顧客をクラスタリングします ファッションは⼩小物重視派 ファッション⼩小物、雑貨などを中⼼心に購⼊入 オフィスカジュアル派 主に仕事⽤用の服としてサイトを活⽤用。 ビジネス向けアイテムを中⼼心に購⼊入 ⽉月1回配信:ファッション⼩小物特集メルマガ ⽉月2回配信:オフィスで使えるアイテム特集 クラスタリング結果を、情報・タイミングを最適化したメール配信の実現に利利⽤用します © 2013 ALBERT
Inc.
事例例:クリエイティブ最適化 バナー広告などで使われているクリエイティブ画像を、構成要素に分解します 重回帰分析を⽤用いて、実 CTR から各構成要素の偏回帰係数を算出することで、クリエイティブ ごとの予測
CTR や、最適なクリエイティブの推定を実現します © 2013 ALBERT Inc.
機械学習の利用事例@産総研 広告データのコンバージョン率推定 [共同研究] • ユーザ属性群、広告属性群からなるセッションに対して最 CVR(Conversion
Rate)が良い広告をユーザに提示する • CVR = #CV / #CLICKS • CVとは広告クリックのあった媒体で、ユーザが実際に(資料が請求した|実 際に商品が購入した)等のイベント • Terabytes以上の訓練データセット、月60-‐100GB程度で増加中 • 1000クライアント以上の広告主 • RDB→TSV形式にして定期的にデータをHDFSに投入 • 翌月のCVありなしを広告カテゴリにもよるが平均0.95程度のAUC で予測できている • 1年以上前からのデータを訓練に利用 • 訓練事例の蓄積が不十分なカテゴリのAUCは低い • Hivemallにより32ノードで5-‐10分程度で学習 • 最大1000程度のmapタスクが立ち上がる (#map slotに応じた学習時間) • 学習というよりも特徴エンジニアリングに一番時間を要する • 複数テーブルの結合処理、学習用の訓練例(特徴表現)の作成 • Hive+UDFが最も有難く感じる瞬間 • Columnar (ORC) フォーマットによる圧縮がよく効く • テラバイトデータの特徴エンジニアリング ((('A`))) 広告のCLICK率は精々0.2%なのでCTR = #CLICKS / # Impressionまで計測す ると500倍のストレージ要件
大規模データの特徴エンジニアリング(前処理) Hadoop/Hiveを利用したELT(Extract-‐Load-‐Transform)処理が特徴エンジニア リングに有用 •
HDFSに取りあえずロードさせてHadoop/Hiveで整形するのが 勝ちパターン(?) • 結合処理はHiveで並列ハッシュ結合により行う • 共同研究で行っているCVR推定では3つのview定義と3つの一時table、 数個のUDFを訓練例の作成に利用している Label 1 2 3 練 例 Web service 7 1 transform Hadoop /Hive 訓 9 -1 Logs B 1 Join A extract load OLTP DBs 8 データソース の結合処理 ユーザID等の質的変数を 二値素性に変換 Transform script Label A:2 A:3 B:7 B:8 B:9 1 1 0 0 0 1 0 -1 KDDCup 2012のデータセット A:1 0 1 0 0 0 1 1 0 0 1 1 0 0 • 特徴エンジニアリング(ETL処理)を効率的に扱える機械学習フレームワークが必要 • 大規模データになるとプログラミングするのは大変(外部マージソートが必須) • ETLツールにはUDF相当やHiveのTransform相当(任意のスクリプト実行)の拡張性が必要 • 予め用意されている関数などでは不十分なことが多い
運用上得られた課題(1) – 学習アルゴリズム データ量が増えても難なく動作する学習アルゴリズム
• 学習率をパラメタに必要とするアルゴリズムの適用は難しい(e.g., 確率的勾配降 下法(SGD)) • SGDの学習率の自動設定手法はまだ研究段階 • モデルの確信度により学習モデルの更新を制御するアルゴリズム(CW/AROW/ SCW)は収束は早いが… • データ量が増すと単純なPassive Aggressiveに劣ることもある • 急激な変化(concept drip)への対処 • 訓練例とテストデータの乖離した場合にどうするか • 過去の膨大なデータ(ビックデータ)を学習に用いることが仇となるケースがある アベノミクスによる レジームシフト • 多用な切り口で学習モデルを作って 多椀バンディット等でモデルを選択する? • 学習器への予測結果のLazyなフィード バック機構? 去年の10月ごろから金融業の広告の コンバージョン率が跳ね上がる
運用上得られた課題(2) – 学習フレームワーク •
リアルタイムの学習は実際に必要だけど…逐次学 習/ストリーム学習の設定は現実的(?) • データの入力順に学習モデルが左右される • ストリーム設定だと学習器への入力のshuffleができない • CW/AROWに最初に負の事例ばかり学習させたら..? • 訓練例を複数回数(イテレーション)、順不同に学習器に与える必 要がある • CW/AROW/SCWでも経験的に3イテレーションぐらいはさせた方が良い バッチ学習と逐次学習のハイブリッドに向かうのではないか Hadoop cluster Postgres Training data OLTP transactions node Incremental learning ・・・ Prediction model Cloudera Oryx node node DB-‐Hadoop Hybrid machine learning Batch learning
FFRI,Inc. 57
FFRI,Inc. 情報セキュリティ業界の現状 環境の変化 マルウェア・各種データの増加 ネットワークの高速化、etc. 古き良き時代 ブラックリスト ホワイトリスト データ増大 未知データ 「外部脅威」の出現 ハッカー、マルウェア、 脆弱性攻撃、etc. レピュテーション ヒューリスティッ ク サンドボックス 機械学習 58
FFRI,Inc. (一例)マルウェアの急増 2006 2013 出典:http://www.av-test.org/en/statistics/malware/ 59
FFRI,Inc. マルウェア検知(分類) • 近年のマルウェアの多くは亜種 or
ツールによる 自動生成 → コード面、機能面での差分は比較的少ない • 正常ソフトとマルウェアを線形分離できないか? – 実行時に呼び出されたAPIのn-gramを特徴に利用 NtCreateFile_NtWriteFile_NtCloseHandle • パラメーター次第だが、TPR:90%超、FPR:1∼5% → FPR:1%以上はNG(セキュリティ業界の悩み) 60
FFRI,Inc. マルウェアクラスタリング • モチベーション – 目的に沿った意味のあるデータを選択したい •
取り組み例 – 社内のマルウェアDBから1000件無作為抽出 – APIのn-gramを特徴としてウォード法を適用 – 大きく3系統に分離 (部分的に手動検証) 61
©Gunosy Inc.
Gunosy紹介 Gunosyとは ユーザーの行動を解析して(SNSやGunosy内)その人の興味にあった記事 を推薦するサービス 自己紹介 名前:
福島良典 年齢:25歳 役職:CEO 仕事: 社長業(意思決定とリクルーティング) / アドサーバーの開発 を半々くらい 今の興味 -‐> 新しいアルゴリズムをどう試すかのテストに関して 機械学習の応用事例 ほぼ全てに 具体的には、推薦部分やアドに (ex) 記事やユーザーの特徴付け、似た記事を探す、似たユーザーを探す ユーザーのクラスタリング、ユーザーの男女判別、どのアルゴリズムを選択する かetc ©Gunosy Inc.
64
Preferred Infrastructure (PFI) 最先端の技術を最短路路で実⽤用化 l l l 東⼤大発ソフトウェア開発ベンチャー 創業:2006年年3⽉月 主な製品 l Sedue:
検索索&レコメンドエンジン l Bazil: 使いやすい機械学習解析サービス l Jubatus: ⼤大規模オンライン分散機械学習 代表取締役 ⻄西川徹 情報検索索(IR) 分散システム ⾃自然⾔言語処理理 機械学習 65 取締役副社⻑⾧長 岡野原⼤大輔
Jubatus: Hadoopの先を⾏行行く⼤大規模データ解析基盤 l 従来の⼤大規模データ解析:集計やルール処理理が主な⼿手段 l l HadoopやCEP(Complex Event
Processing)が中⼼心的役割 これからの⼤大規模データ解析:リアルタイム性や深い解析も重要 l Jubatus: 世界初の⼤大規模分散オンライン機械学習基盤 l NTT SICと共同開発&オープンソース公開 → http://jubat.us/ 1. ⼤大規模化 2. リアルタイム/オンライン 3. 深い解析 l 分散オンライン化したアルゴリズムを実装済みの処理理機能 l 分類/回帰/近傍探索索/レコメンド/異異常検知/クラスタリング 66
Bazil: クラウドベース機械学習分析向けツール l テキスト、ログ、履履歴等もそのまま⼊入⼒力力・モデル構築・予測 l l 機械学習モデルによる予測の要因を⾒見見える化 l l 扱いづらい⾮非構造データに隠れた情報の価値もフル活⽤用 「なぜその予測になったか?」を知ることでPDCAサイクルを加速 ブラウザから使えるASPサービスとしてクラウドで提供 l インストール不不要でOSやマシンを選ばずに利利⽤用可能 テキスト ログ
数値 分析者 Web GUI 要因分析 精度度評価 クラウド
Agenda l 機械学習セッション概要 l パネリスト⾃自⼰己紹介 l 機械学習「超」⼊入⾨門 l パネリスト活⽤用事例例紹介 l 後半に向けて
セッション後半の流流れ l 前半振り返り l 機械学習導⼊入の展望:どこから導⼊入が進むのか l 機械学習は精度度で⼈人間に勝てるのか l 役⽴立立つケースとそうでないケースの違うは何か
l それを⽀支える技術やツールとしては何が有望か l どのように導⼊入を進めていけば良良いのか l まとめ 69
Advertisement