Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
協調フィルタリング with Mahout
Report
Katsuhiro Takata
Follow
Kauli
Jun. 19, 2010
•
0 likes
18 likes
×
Be the first to like this
Show More
•
6,414 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Check these out next
機械学習 入門
Hayato Maki
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
ディープラーニングで株価予測をやってみた
卓也 安東
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Yuya Unno
TensorFlowとは? ディープラーニング (深層学習) とは?
KSK Analytics Inc.
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Yuya Unno
Jubatusにおける機械学習のテスト@MLCT
Yuya Unno
Pythonとdeep learningで手書き文字認識
Ken Morishita
1
of
22
Top clipped slide
協調フィルタリング with Mahout
Jun. 19, 2010
•
0 likes
18 likes
×
Be the first to like this
Show More
•
6,414 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Technology
Self Improvement
協調フィルタ
Katsuhiro Takata
Follow
Kauli
Advertisement
Advertisement
Advertisement
Recommended
機械学習
Hikaru Takemura
8.3K views
•
25 slides
Randomforestで高次元の変数重要度を見る #japanr LT
Akifumi Eguchi
12.3K views
•
17 slides
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
733.9K views
•
41 slides
Pythonによる機械学習
Kimikazu Kato
14K views
•
30 slides
統計学勉強会#2
Hidehisa Arai
5.6K views
•
15 slides
機械学習によるデータ分析まわりのお話
Ryota Kamoshida
567.2K views
•
75 slides
More Related Content
Slideshows for you
(20)
機械学習 入門
Hayato Maki
•
18.1K views
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
•
9.7K views
ディープラーニングで株価予測をやってみた
卓也 安東
•
35.1K views
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Yuya Unno
•
5.5K views
TensorFlowとは? ディープラーニング (深層学習) とは?
KSK Analytics Inc.
•
25.9K views
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Yuya Unno
•
5.3K views
Jubatusにおける機械学習のテスト@MLCT
Yuya Unno
•
17.9K views
Pythonとdeep learningで手書き文字認識
Ken Morishita
•
196K views
人工知能の概論の概論とセキュリティへの応用(的な~(改)
Typhon 666
•
10.5K views
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
•
14.4K views
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Yuya Unno
•
13.6K views
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
•
95.8K views
TokyoR42_around_chaining
TokorosawaYoshio
•
18.9K views
機械学習CROSS 前半資料
Shohei Hido
•
18.7K views
Jubatusが目指すインテリジェンス基盤
Shohei Hido
•
5.9K views
(道具としての)データサイエンティストのつかい方
Shohei Hido
•
8.3K views
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Hisao Soyama
•
30.4K views
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
Hajime Sasaki
•
10K views
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Takashi J OZAKI
•
16.1K views
いまさら聞けない機械学習の評価指標
圭輔 大曽根
•
105K views
Viewers also liked
(20)
machine learning & apache mahout
あしたのオープンソース研究所
•
6.1K views
Introduction to Mahout Clustering - #TokyoWebmining #6
Koichi Hamada
•
9.2K views
Frequency Pattern Mining
Katsuhiro Takata
•
4K views
"Mahout Recommendation" - #TokyoWebmining 14th
Koichi Hamada
•
5.5K views
協調フィルタリングを利用した推薦システム構築
Masayuki Ota
•
25.7K views
Apache Mahout お手軽レコメンド
Yoshiyuki MIYAGI
•
4.2K views
Mahoutにパッチを送ってみた
issaymk2
•
5.4K views
ComplementaryNaiveBayesClassifier
Naoki Yanai
•
5.7K views
Hadoop/Mahout/HBaseで テキスト分類器を作ったよ
Naoki Yanai
•
6.4K views
ソーシャルウェブ と レコメンデーション -第4回データマイニング+WEB勉強会@東京
Koichi Hamada
•
9.4K views
Introduction to fuzzy kmeans on mahout
takaya imai
•
4.9K views
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
Kow Kuroda
•
573 views
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
Teruo Kawasaki
•
6.5K views
Mahout
Edureka!
•
2.4K views
Apache Mahout - Random Forests - #TokyoWebmining #8
Koichi Hamada
•
4.7K views
Mahout Canopy Clustering - #TokyoWebmining 9
Koichi Hamada
•
10.5K views
RでGARCHモデル - TokyoR #21
horihorio
•
15.6K views
Azure Machine Learning getting started
Masayuki Ota
•
12.3K views
Data Mining: Concepts and Techniques chapter 07 : Advanced Frequent Pattern M...
Salah Amean
•
10.6K views
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
MapR Technologies Japan
•
14.7K views
Advertisement
Similar to 協調フィルタリング with Mahout
(20)
レコメンデーション(協調フィルタリング)の基礎
Katsuhiro Takata
•
5.3K views
Big data解析ビジネス
Mie Mori
•
3.5K views
アニメレコメンドシステムを作ってみた
in0o0o0
•
1.3K views
マイニング探検会#09 情報レコメンデーションとは
Yoji Kiyota
•
636 views
Hadoop conference Japan 2011
Takahiko Ito
•
1.9K views
機械学習でお小遣いを稼ぐ! - 本推薦 Twitter bot の紹介 -
Masakazu Ishihata
•
14.7K views
Elasticsearchと機械学習を実際に連携させる
nobu_k
•
30K views
100622 学術情報セミナー
Shuhei Otani
•
506 views
20120822_dstn技術交流会_DataSpider接続先技術動向
dstn
•
876 views
JAWS DAYS 2022
陽平 山口
•
62 views
全文検索入門
antibayesian 俺がS式だ
•
3.9K views
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
Sho Nakamura
•
122 views
OSSとクラウドによるコンピューティングモデルの変化
Nobuyori Takahashi
•
2.6K views
ユーザーストーリーワークショップ
You&I
•
1.3K views
Python 機械学習プログラミング データ分析演習編
Etsuji Nakai
•
20.8K views
jubatus pressrelease
JubatusOfficial
•
8.8K views
Intalio japan special cloud workshop
Daisuke Sugai
•
720 views
Movable type seminar 20120703
Six Apart
•
1.6K views
WWW2018 論文読み会 Web Search and Mining
cyberagent
•
1.4K views
tokyo_webmining_no51
Shu (shoe116)
•
9.9K views
Recently uploaded
(20)
20230516 @Mix Leap Hirohiko_Suwa
Masashi Nakagawa
•
82 views
統計学の攻略_統計的仮説検定の9パターン.pdf
akipii Oga
•
0 views
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
•
1K views
①【威斯康星大学麦迪逊分校毕业证文凭学位证书|工艺完美复刻】
C25lokh12
•
3 views
JSTQB_テストプロセスの概念モデル.pdf
akipii Oga
•
0 views
☀️【麦吉尔大学毕业证成绩单留学生首选】
15sad
•
3 views
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
•
10 views
第2回Matlantis User Conference_20230421_畠山歓先生
Matlantis
•
356 views
初学者のためのプロンプトエンジニアリング実践.pptx
Akifumi Niida
•
196 views
留信网认证可查【皇家霍洛威学院文凭证书毕业证购买】
32lkhng
•
2 views
Apache EventMesh を使ってみた
Yoshiyasu SAEKI
•
39 views
突如登場したAzure Developer CLIでなにができるのか?検証してみる
Kazumi IWANAGA
•
27 views
第2回Matlantis User Conference_20230421_久間薫先生
Matlantis
•
280 views
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
•
643 views
①【麦吉尔大学毕业证文凭学位证书|工艺完美复刻】
love445ds
•
2 views
☀️【杜兰大学毕业证成绩单留学生首选】
2125nuh
•
2 views
SoftwareControl.pdf
ssusercd9928
•
15 views
①【阳光海岸大学毕业证文凭学位证书|工艺完美复刻】
vgh215w
•
2 views
《杨百翰大学毕业证|学位证书校内仿真版本》
d520dasw12
•
2 views
ネットワークパケットブローカー市場.pdf
HinaMiyazu
•
3 views
Advertisement
協調フィルタリング with Mahout
Mahout の協調フィルタで遊ぼ
Karubi Namuru June 20th, 2010
自己紹介 ●
Karubi Namuru ● 博士(理学),情報科学 ● Kauli, inc. http://kau.li ● Twitter: @karubi ● Facebook: http://facebook.com/karubi ● 出身:広島 , 居住:東京 , Seongnam
学生時代の話
● 在学中の研究 ● 統計的手法による日常行動分析 – 実世界:ライフログ – ウェブ:閲覧, clicks 200 200 180 180 160 160 140 140 120 120 100 100 80 80 60 60 40 40 20 20 0 0
現在使っている知識 ●
膨大な情報の処理 ● 疎な分散処理 ● 時系列情報を参照する情報推薦 ● コンテクスト抽出 ● 状況変化型の情報推薦 – いつも一緒ではない,時間は刻々と進む
会社 ●
広告の会社,情報推薦を応用した配信最適化 ● Mahout を利用した商用システムも稼働中 ● 2009 年 09 月から,(自称)世界初の商用利用 ● 規模 ● 2010 年 02 月 2200 万 UBs (ユニークブラウザ) ● 2010 年 03 月 2840 万 UBs ● 2010 月 04 月 3208 万 UBs ● 2010 月 05 月 3816 万 UBs
今日の内容 ●
ネット上の資源で遊ぶ ● 前回のおさらい ● ネット上の情報源 – 映画の推薦情報 ● ネット上のライブラリ – Mahout ● 動かしてみる – 本日はアイテムベース ● 検証
推薦(レコメンデーション) ●
概要 ● 潜在的な顧客にその人が欲しい商品を勧める ● ウェブ閲覧者のサイト閲覧履歴やクリック履歴など をもとにユーザの嗜好パターンを学習する ● アプローチ ● コンテンツベース ● ルールベース ● 協調フィルタリング
協調フィルタリング ●
似た人が与えた評価を利用して,アイテムの評 価を予測する ● 多くの利用者の嗜好情報を蓄積すること ● ある人と嗜好の類似する他の人の情報 ● クチコミの原理と例えられる – 趣味の似た人からの意見を参考にする
考え方 ●
ユーザ A がアイテム X を好む ● アイテム X を好む別のユーザ B が好むアイテム Y が存在する ● ユーザ A もアイテム Y を好むのではないか ● 実装で利用するのはユーザ同士の類似度 – たとえば,同じアイテムにつけた評価の相関係数
対象する情報 ●
明示的な情報源 ● ユーザの評価がついているもの – レビュー ● 明示的に選択したもの – 評価ポイント ● 暗示的な情報源 ● システムの操作履歴 – ブラウザの閲覧履歴
明示的な情報の具体例 ●
評価の内容 ● 例えば映画の場合 – この映画は面白かった,つまらなかった – ◯◯ 点 や ☆の数 – 評価を与えた映画の組み合わせ ● レビューリスト
ネット上の情報源 ●
公開されている明示的な情報源(一部) ● The Netflix prize datasets – Netflix :アメリカのオンライン DVD レンタルサービス – 1 億レコード以上 – 480,189 人が 17,770 タイトルについて評価 ● Grouplens Research – ミネソタ大の研究チーム, MovieLens プロジェクト – 10 万, 100 万, 1000 万レコードの 3 つのデータ – 71,567 人が 10,681 タイトルについて評価( 1000 万)
無料のライブラリで作ってみる ●
STEP 1. Java の開発環境の設定をします ● 今回は JRE 6 と Eclipse を使います ● 実際にやってみたいという方は,以下のページでも 見てやってみてください ● Javaの道,Eclipse -1.インストール – この記事はわかりやすいのですが,ソフトウェアのバー ジョンが古いままです.最新版をダウンロードしても多 分大丈夫だと思います.
動作環境を整える ●
STEP 2. Mahout ライブラリをダウンロード ● Apache Mahout - Downloads and Releases – 最新版は 0.3 ( 2010 年 6 月現在) ● 解凍する
動作環境を整える ●
STEP 3. 開発環境に登録する ● ライブラリを Eclipse に登録する – Mahout-**-0.3.jar を使う – Javaの道, Eclipse-3.便利な機能(環境設定) – 「クラスパスの設定」の「4」参照 ● 依存するライブラリも登録しておく – 「 lib 」から, commons-logging-1.1.1.jar , slf4j-api- 1.5.8.jar , slf4j-jcl-1.5.8.jar , commons-cli-2.0- mahout.jar , uncommons-maths-1.2.jar – 「 lib 」全部登録しておいて問題ない
データダウンロード ●
Step 4. 情報源をダウンロードする http://www.grouplens.org/node/73 ● 今回は 100 万レコードのデータを使う
データの中身 ●
映画情報 ● 1270::Back to the Future (1985):: Comedy|Sci-Fi ● MovieID::Title::Genres ● それぞれ 1 本づつ ● 評価情報 ● 1::1270::5::978300055 ● UserID::MovieID::Rating::Timestamp ● 一人あたり 20 本分の評価
データを整形する(1) ●
Step 5. Mahout で扱えるように整形 ● 解凍する ● 評価情報のみ切り抜く – テキストエディタなどでもなんとかできる量なので,切 り取っちゃう – タイトル情報を出力したいときは,タイトル情報やユー ザ情報部分も切り取る
データを整形する(2) ●
Mahout 用に整形 – Mahout で使うデータ形式は「 UserId, MovieId, Rating 」 – Perl や Python や Excel などで「,」と TimeStamp の列を消す.
プログラミング ●
Step 6. アイテムベース推薦のプログラム ● 説明します
実行 ●
Step 7. 推薦を動かす ● UserID: 1 について 5 タイトルが出力できた 557::Mamma Roma (1962)::Drama 53::Lamerica (1994)::Drama 1149::JLG/JLG - autoportrait de d 馗 embre (1994)::Documentary|Drama 1039::Synthetic Pleasures (1995)::Documentary 572::Foreign Student (1994)::Drama ● 自分のデータを登録しても推薦できる – 「 java.lang.OutOfMemoryError: Java heap space Exception in thread "main" 」が出た場合は以下のリンク. ● 以下のプログラムで出るエラーの意味がわかりません
まとめ ●
手軽に本格的なアイテムベースの推薦機能がつ くれた ● ネット上のリソースを使ってみた ● 無料のライブラリを使ってみた ● おもしろさを味わってみ ● ご質問ございましたらメールください gogokarubi@gmail.com まで
Advertisement