SlideShare a Scribd company logo
2019/09/20
MLPP #4 & ML@Loft #6
@kaeru_nantoka
社内で XX に詳しい人を知りたい
Self Introduction
MLエンジニア@Stockmark 株式会社
2017年 証券会社に営業職として新卒入社
2018年 金融系の中小受託会社で PG・SE
2019年 4月~ 現職
2
@kaeru_nantoka
@kaerururu
Yuya Osujo
❌ 株とか証券とか関係ありません。(※ NLP やっている会社です。)
⭕️ toB 向けに ニュース及びナレッジ共有プラットフォーム など
3プロダクトを提供しています。
⭕️ BERT や ELMo の日本語モデルの配布などもやっています。
Company Introduction
3
Product Introduction ( Anews )
・ビジネスニュースの配信
・チームの人が読んだ/関心がある記事
も読める
・記事に関するチームメンバーのコメ
ントも読める
→ チームの共通知のアップデート
4
Today’s Summary
Stockmark 社の自社サービス 「 Anews 」刷新にあたり、
「 特定のキーワード 」や 「 ニュース 」で検索した時に
その分野に詳しい社内人物を推薦するエンジンを
( ほぼ ) 0 → 1 で実装したお話です。
5
解決したいビジネス課題
6
解決したいビジネス課題
「 Who Knows What ? の可視化 」
7
・ 社員数がとにかく多い
・ 誰が何に詳しいか体系化されていない
・ わからないことがあっても誰に聞けば良い
のかわからない
大企業
8
・ 社員数がとにかく多い
・ 誰が何に詳しいか体系化されていない
・ わからないことがあっても誰に聞けば
良いのかわからない
ここをスムーズに
大企業
9
Today’s Contents
・Anews で利用できるデータ
・推薦アルゴリズム
・機械学習インフラ
・課題
10
Today’s Contents
・Anews で利用できるデータ
・推薦アルゴリズム
・機械学習インフラ
・課題
11
Anews で利用できるデータ ( Raw )
・ 記事の本文データ
・ 記事のタイトル文データ
・ 記事の URL データ
・ 記事のメタデータ
・ ユーザー情報データ
・ ユーザーアクションのログデータ
Text
Table
12
Anews で利用できるデータ ( Preprocessed )
・ 記事ベクトルデータ ( fastText )
・ ユーザーベクトルデータ
Data
13
Today’s Contents
・Anews で利用できるデータ
・推薦アルゴリズム
・機械学習インフラ
・課題
14
推薦アルゴリズム
・ 協調フィルタリング
・ ユーザー集団のアイテムに対する評価を元にレコメンド ( Amazon や Netflix など )
・ コンテンツベース
・ アイテムの特徴ベクトルで類似度計算をしてレコメンドに使用
15
推薦アルゴリズム
・ 協調フィルタリング
❌ コンテンツの推薦ではなくユーザーの推薦なので、今回有効ではなかった
・ コンテンツベース
⭕️ 別用途で使用していたユーザーベクトルを保持していた
→ ユーザーベクトルと記事ベクトルの cos類似度ベースのスコアを使用
16
ユーザーベクトル
・ 過去 N 日間に読んだ記事を
・球面 k-means でクラスタリングして
・記事数が最も多いクラスタの
・セントロイドをユーザーベクトルと定義
・ オフライン処理 → DynamoDB に格納
17
記事ベクトル
・ 各記事のタイトルと最初の導入の名詞数単語を
・ ビジネスニュースで学習したストックマーク社独自の fastText でベクト
ル化 (100次元)
・ オフライン処理 → Elasticsearch DB に格納
18
Today’s Contents
・Anews で利用できるデータ
・推薦アルゴリズム
・機械学習インフラ
・課題
19
Today’s Contents
・Anews で利用できるデータ
・推薦アルゴリズム
・機械学習インフラ
・バッチ処理
・オンライン処理
・課題
20
Amazon
Elasticsearch
Service
Amazon
DynamoDB
Amazon RDSWeb App
機械学習API
機械学習バッチ
アプリケーション
オンライン処理
バッチ処理
Amazon ECS
AWS Elastic
Beanstalk
21
Amazon
Elasticsearch
Service
Amazon
DynamoDB
Amazon RDSWeb App
機械学習API
機械学習バッチ
アプリケーション
オンライン処理
バッチ処理
Amazon ECS
AWS Elastic
Beanstalk
キーワード
22
Today’s Contents
・Anews で利用できるデータ
・推薦アルゴリズム
・機械学習インフラ
・課題
23
課題
・ユーザーベクトルの定義
→ 初版は記事配信に使用していたものを流用
→ ある程度はワークするも・・
・記事を読んでいないユーザーは?
・他にも取れるデータで有効なものは?
・評価指標の定義
A / B テストやオンラインテストなど検討中
24
課題
・ユーザーベクトルの定義
→ 初版は記事配信に使用していたものを流用
→ ある程度はワークするも・・
・記事を読んでいないユーザーは?
・他にも取れるデータで有効なものは?
・評価指標の定義
A / B テストやオンラインテストなど検討中
・ディスカッションの時間や懇親会などで色々お聞きしたいです!
25
Thank you for Listening !
26

More Related Content

Similar to Mlpp #4 & mlloft #6

Webst3 ashisto
Webst3 ashistoWebst3 ashisto
Webst3 ashisto
loftwork
 
The Research of Incubation Center in Silicon Valley
The Research of Incubation Center in Silicon ValleyThe Research of Incubation Center in Silicon Valley
The Research of Incubation Center in Silicon Valley
Naoya Muto
 
Innovation egg ハンズラボ_青木由佳_マーケター1年生_yuka_jyotei
Innovation egg ハンズラボ_青木由佳_マーケター1年生_yuka_jyoteiInnovation egg ハンズラボ_青木由佳_マーケター1年生_yuka_jyotei
Innovation egg ハンズラボ_青木由佳_マーケター1年生_yuka_jyotei
由佳 青木
 

Similar to Mlpp #4 & mlloft #6 (20)

VISIONARYJAPAN_engineer_Recruitbook202404
VISIONARYJAPAN_engineer_Recruitbook202404VISIONARYJAPAN_engineer_Recruitbook202404
VISIONARYJAPAN_engineer_Recruitbook202404
 
20181206 わかものプログラミング体験オンライン講座 - 職業人講話
20181206 わかものプログラミング体験オンライン講座 - 職業人講話20181206 わかものプログラミング体験オンライン講座 - 職業人講話
20181206 わかものプログラミング体験オンライン講座 - 職業人講話
 
大企業 vs ベンチャー
大企業 vs ベンチャー大企業 vs ベンチャー
大企業 vs ベンチャー
 
20120922 svs6用梅木講演資料
20120922 svs6用梅木講演資料20120922 svs6用梅木講演資料
20120922 svs6用梅木講演資料
 
Webst3 ashisto
Webst3 ashistoWebst3 ashisto
Webst3 ashisto
 
Forcas abm case study20190116
Forcas abm case study20190116Forcas abm case study20190116
Forcas abm case study20190116
 
セミナー「パルス型消費」について
セミナー「パルス型消費」についてセミナー「パルス型消費」について
セミナー「パルス型消費」について
 
SORACOM Conference Discovery 2017 | F2. F4. IoTビジネス活用事例30選〜さまざまなお客様事例とSORACOM活用〜
SORACOM Conference Discovery 2017 | F2. F4. IoTビジネス活用事例30選〜さまざまなお客様事例とSORACOM活用〜SORACOM Conference Discovery 2017 | F2. F4. IoTビジネス活用事例30選〜さまざまなお客様事例とSORACOM活用〜
SORACOM Conference Discovery 2017 | F2. F4. IoTビジネス活用事例30選〜さまざまなお客様事例とSORACOM活用〜
 
[Agile Japan 2019]DXを実現するためにユーザ企業とSI企業が 今すぐとるべき3つのステップ
[Agile Japan 2019]DXを実現するためにユーザ企業とSI企業が 今すぐとるべき3つのステップ[Agile Japan 2019]DXを実現するためにユーザ企業とSI企業が 今すぐとるべき3つのステップ
[Agile Japan 2019]DXを実現するためにユーザ企業とSI企業が 今すぐとるべき3つのステップ
 
20161007 hr meetup tokyo vol.3_ishiguro
20161007 hr meetup tokyo vol.3_ishiguro20161007 hr meetup tokyo vol.3_ishiguro
20161007 hr meetup tokyo vol.3_ishiguro
 
Wing arc nest_20180510
Wing arc nest_20180510Wing arc nest_20180510
Wing arc nest_20180510
 
【Ltech#7】Pardotによるマーケティングオートメーション
【Ltech#7】Pardotによるマーケティングオートメーション【Ltech#7】Pardotによるマーケティングオートメーション
【Ltech#7】Pardotによるマーケティングオートメーション
 
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
 
はたらくTOBIRA Internship Program
はたらくTOBIRA Internship ProgramはたらくTOBIRA Internship Program
はたらくTOBIRA Internship Program
 
Global Azure Bootcamp 2019@Tokyo資料【ExpressRoute構築でハメられた】
Global Azure Bootcamp 2019@Tokyo資料【ExpressRoute構築でハメられた】Global Azure Bootcamp 2019@Tokyo資料【ExpressRoute構築でハメられた】
Global Azure Bootcamp 2019@Tokyo資料【ExpressRoute構築でハメられた】
 
PKSHAcomm_OKBIZ
PKSHAcomm_OKBIZPKSHAcomm_OKBIZ
PKSHAcomm_OKBIZ
 
Sales materials
Sales materialsSales materials
Sales materials
 
The Research of Incubation Center in Silicon Valley
The Research of Incubation Center in Silicon ValleyThe Research of Incubation Center in Silicon Valley
The Research of Incubation Center in Silicon Valley
 
2016-10-25 product manager conference 資料
2016-10-25 product manager conference 資料2016-10-25 product manager conference 資料
2016-10-25 product manager conference 資料
 
Innovation egg ハンズラボ_青木由佳_マーケター1年生_yuka_jyotei
Innovation egg ハンズラボ_青木由佳_マーケター1年生_yuka_jyoteiInnovation egg ハンズラボ_青木由佳_マーケター1年生_yuka_jyotei
Innovation egg ハンズラボ_青木由佳_マーケター1年生_yuka_jyotei
 

Recently uploaded

2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
ssuserbefd24
 

Recently uploaded (10)

2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 

Mlpp #4 & mlloft #6