SlideShare a Scribd company logo
Submit Search
Upload
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
Report
Takeshi Arabiki
Follow
•
33 likes
•
10,881 views
1
of
31
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
•
33 likes
•
10,881 views
Download Now
Download to read offline
Report
Engineering
第 10 回 YANS シンポジウムの発表資料です
Read more
Takeshi Arabiki
Follow
Recommended
データベース設計徹底指南
Mikiya Okuno
114.4K views
•
132 slides
Oss貢献超入門
Michihito Shigemura
29K views
•
145 slides
社内ドキュメント検索システム構築のノウハウ
Shinsuke Sugaya
11.6K views
•
27 slides
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
Takuto Wada
70.6K views
•
89 slides
データモデリング・テクニック
Hidekatsu Izuno
17.5K views
•
30 slides
SQLアンチパターン~スパゲッティクエリ
Itabashi Masayuki
7.2K views
•
69 slides
More Related Content
What's hot
シリコンバレーの「何が」凄いのか
Atsushi Nakada
183.9K views
•
77 slides
なかったらINSERTしたいし、あるならロック取りたいやん?
ichirin2501
41.7K views
•
19 slides
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Takahiko Ito
1.4K views
•
27 slides
イミュータブルデータモデルの極意
Yoshitaka Kawashima
23.8K views
•
28 slides
テスト駆動開発のはじめ方
Shuji Watanabe
27.3K views
•
44 slides
BigQuery Query Optimization クエリ高速化編
sutepoi
2.2K views
•
41 slides
What's hot
(20)
シリコンバレーの「何が」凄いのか
Atsushi Nakada
•
183.9K views
なかったらINSERTしたいし、あるならロック取りたいやん?
ichirin2501
•
41.7K views
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Takahiko Ito
•
1.4K views
イミュータブルデータモデルの極意
Yoshitaka Kawashima
•
23.8K views
テスト駆動開発のはじめ方
Shuji Watanabe
•
27.3K views
BigQuery Query Optimization クエリ高速化編
sutepoi
•
2.2K views
Amazon AthenaでSageMakerを使った推論
西岡 賢一郎
•
345 views
PostgreSQLアンチパターン
Soudai Sone
•
48.3K views
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
•
887 views
リクルートライフスタイル流!分析基盤との賢い付き合い方
Recruit Lifestyle Co., Ltd.
•
7.4K views
MLOps入門
Hiro Mura
•
2.1K views
マッチングサービスにおけるKPIの話
cyberagent
•
70.9K views
データサイエンティストのつくり方
Shohei Hido
•
33K views
データ活用を加速するAWS分析サービスのご紹介
Amazon Web Services Japan
•
1.7K views
まじめに!できる!LT
Akabane Hiroyuki
•
16.9K views
設計と実装で 抑えておきたい サービスクラスと例外
Takuya Sato
•
31.7K views
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
•
31.7K views
第15回 Solr勉強会 #SolrJP Amazon CloudSearch Deep Dive
Amazon Web Services Japan
•
17.3K views
解説!30分で分かるLEAN ANALYTICS
しくみ製作所
•
7.2K views
落合流先生流の論文要旨フォーマット
森 哲也
•
35.1K views
More from Takeshi Arabiki
開発の心得
Takeshi Arabiki
5K views
•
18 slides
Introduction to Japanese Morphological Analysis
Takeshi Arabiki
16.8K views
•
25 slides
R による文書分類入門
Takeshi Arabiki
30.7K views
•
59 slides
Rのデータ構造とメモリ管理
Takeshi Arabiki
15.2K views
•
22 slides
HTML5 Canvas で学ぶアフィン変換
Takeshi Arabiki
8.9K views
•
29 slides
Introduction to Favmemo for Immature Engineers
Takeshi Arabiki
2.9K views
•
21 slides
More from Takeshi Arabiki
(17)
開発の心得
Takeshi Arabiki
•
5K views
Introduction to Japanese Morphological Analysis
Takeshi Arabiki
•
16.8K views
R による文書分類入門
Takeshi Arabiki
•
30.7K views
Rのデータ構造とメモリ管理
Takeshi Arabiki
•
15.2K views
HTML5 Canvas で学ぶアフィン変換
Takeshi Arabiki
•
8.9K views
Introduction to Favmemo for Immature Engineers
Takeshi Arabiki
•
2.9K views
Rのスコープとフレームと環境と
Takeshi Arabiki
•
3.2K views
twitteRで快適Rライフ!
Takeshi Arabiki
•
8.4K views
RではじめるTwitter解析
Takeshi Arabiki
•
23.6K views
R版Getopt::Longを作ってみた
Takeshi Arabiki
•
3K views
Rデータフレーム自由自在
Takeshi Arabiki
•
24.3K views
HMM, MEMM, CRF メモ
Takeshi Arabiki
•
12K views
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
Takeshi Arabiki
•
9.5K views
Rデバッグあれこれ
Takeshi Arabiki
•
8K views
はじめてのまっぷりでゅ〜す
Takeshi Arabiki
•
2.3K views
TwitterのデータをRであれこれ
Takeshi Arabiki
•
13.5K views
Twitterのデータを取得する準備
Takeshi Arabiki
•
2.8K views
Recently uploaded
AIで始めるRustプログラミング #SolDevHub
K Kinzal
19 views
•
25 slides
how query cost affects search behavior translated in JP
Tobioka Ken
9 views
•
16 slides
【NSP】人材紹介事業_会社紹介資料.pptx
sotozumi
148 views
•
10 slides
3Dプリンタでロボット作るよ#1_黎明編
Yoshihiro Shibata
17 views
•
7 slides
知能工学実験 last report.pdf
2120072gotou
7 views
•
15 slides
robotics42.pptx
Natsutani Minoru
149 views
•
18 slides
Recently uploaded
(8)
AIで始めるRustプログラミング #SolDevHub
K Kinzal
•
19 views
how query cost affects search behavior translated in JP
Tobioka Ken
•
9 views
【NSP】人材紹介事業_会社紹介資料.pptx
sotozumi
•
148 views
3Dプリンタでロボット作るよ#1_黎明編
Yoshihiro Shibata
•
17 views
知能工学実験 last report.pdf
2120072gotou
•
7 views
robotics42.pptx
Natsutani Minoru
•
149 views
図解で理解するvetKD
ryoo toku
•
81 views
lt.pptx
tomochamarika
•
33 views
クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
1.
クックパッド特売情報 における自然言語処理 ∼固有表現抽出を利用した検索システム∼ YANS 第 10
回シンポジウム (2015/09/05 ) クックパッド株式会社 買物情報事業部 Takeshi Arabiki (@a_bicky)
2.
お話しすること •ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと
3.
お話しすること •ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと
4.
クックパッド特売情報
6.
•いわゆるチラシサービスの一種 •店舗さんが商品情報を投稿 クックパッド特売情報
7.
商品検索の使いどころ
8.
商品検索の使いどころ
9.
•各ユーザに限定すると商品数が少ない ‣ e.g. 登録している店舗の商品 ‣
1件しかヒットしないことがよくある •ユーザが意図的に検索するわけではない ‣ より適合率(精度)が求められる 特殊な検索事情
10.
商品検索の 初期の課題
11.
投稿された商品名 キーワード たまねぎドレッシング フルーツゼリー みかん たまねぎ ドレッシング フルーツ ゼリー みかん 形態素単位のインデキシング
12.
投稿された商品名 キーワード たまねぎドレッシング フルーツゼリー みかん たまねぎ ドレッシング フルーツ ゼリー みかん 形態素単位のインデキシング形態素単位のインデキシング 「たまねぎ」を使ったレシピに掲出 「みかん」を使ったレシピに掲出
13.
固有表現抽出を利用した 検索システム
14.
投稿された商品名 キーワード 固有表現単位のインデキシング たまねぎドレッシング 商品名 フルーツゼリー みかん 味商品名 たまねぎドレッシング フルーツゼリー みかん:TASTE
15.
固有表現抽出を使うメリット •適合率が上がる •正規表現と違って文字列全体を考慮できる •似たパターンの未知データにも対応可能
16.
固有表現抽出の方法 •MeCab+IPAdic による形態素解析と正規化 ‣ コストを商品名に最適化 ‣
辞書に代表表記の情報も登録 •CRFsuite による固有表現抽出 ‣ 形態素解析した結果を素性に利用 ‣ タグとして商品名、味、産地 etc.
17.
% mecab -d
dic 薄切り 薄切り 名詞,サ変接続,*,*,*,*,薄切り,ウスギリ,ウスギリ EOS 薄切 薄切 名詞,サ変接続,*,*,*,*,薄切,ウスギリ,ウスギリ,薄切り,薄切り,ウスギリ EOS 形態素解析結果と代表表記
18.
学習データの作成
19.
商品検索の 現在の課題
20.
商品名の形態素解析の難しさ •かつおたたき •ロース肉薄切り •名詞の間にある接頭詞・名詞接尾 ‣ e.g.「徳用焼き餃子」「生姜焼き徳用」
21.
商品名の形態素解析の難しさ •かつおたたき → かつ/お/たたき •ロース肉薄切り → ロース/肉薄/切り •名詞の間にある接頭詞・名詞接尾 ‣ e.g.「徳用焼き餃子」「生姜焼き徳用」
22.
知識ベースの構築 •同義語 ‣ 「パクチー」と「コリアンダー」 •一般名と品種・商品名 ‣ 「じゃがいも」と「メークイン」 •原料 ‣
「卵黄」と「卵」
23.
商品検索クエリの最適化 •材料は「豚肉」だけど「豚肉薄切り」かも ‣ 「豚肉ブロック」は掲出させたくない •材料名のクレンジング ‣ 材料名の括弧の中身は必要かどうか ‣
e.g.(薄切り)、(あれば)
24.
課題は たくさん
25.
最も深刻 な問題
26.
人手不足
27.
ブレークスルー
28.
http://www.nii.ac.jp/dsc/idr/cookpad/cookpad.html
29.
お話しすること •ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと
30.
•ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと
31.
自然言語処理で 世界中の食卓に 笑顔を!