Matrix Factorization と
Text CNN による
Cold Start Problem への取り組み
エムスリー AI・機械学習チーム 西場正浩(@m_nishiba)
今日の発表:Cold Start問題への取り組み
● 自己紹介
● 問題設定
● アルゴリズム
● 結果
● AIチームのミッション
自己紹介: 医療に貢献したい!!!
● 西場正浩(@m_nishiba)
○ フォローしてください!!
● 東工大 Ph.D (数理ファイナンス、測度論とか)
⇒ メガバンのクオンツ
⇒ エムスリー 機械学習エンジニア(2017/3)
⇒ 主の自然言語処理
● AI・機械学習チームのチームリーダー
○ 仕事楽しい!!!
記事【ピロリ除菌で異時性胃癌リスクが低下】と関連度の高い記事を見つける。
● 胃癌治療GLの改訂ポイントをご解説
● 胃癌のESNとHybrid-NOTES、長期転帰良好
● 胃癌治療Update 〜内視鏡治療と化学療法の最新の話題〜
● 外科医の腹腔鏡手術スキル、患者転帰と関連
制約
● 関連度は「テキスト的に似ている」 & 「同じ層のユーザーが興味がある」
● 学習はユーザーのアクセスログが使えるが、
予測時には使えない(Cold Start問題)。
問題設定:新しい記事に関連記事を表示する!
問題設定:ユーザー行動 × テキストの類似度
問題
● 新しいアイテムと似たアイテムを探したい。
● アイテム ・・・ テキストがメインのニュース記事など。
データ
● 訓練時
○ アイテムのテキストデータ
○ ユーザーのアクセスログ
● 予測時
○ アイテムのテキストデータ
アルゴリズム:MFの結果をCNNに学習させる!
ユーザー行動からアイテム間の類似度を計算
● アクセスログ ⇒ matrix factorization ⇒ latent factors ⇒ アイテム間の類似度
類似度をテキストから予測
● テキスト ⇒ Text CNN ⇒ アイテム間の類似度
アルゴリズム:Text CNNの構造
(Yoon Kim, 2014)より転載
最後にCos類似度を使って類似度を計算
記事【抗VEGF薬によるVEGF濃度低下、全身性影響認めず 】
● OCT angiographyを用いた糖尿病黄斑浮腫の抗VEGF薬治療
● SSRIやCa拮抗薬などの薬剤と 緑内障リスクの関連を検討
利点
● 診療科や専門性の観点で関連・重要キーワードを学習する。
● MFの潜在ファクターを組み合わせ、リコメンドもできる。
結果:関連する記事
My Mission!!
● 医師が必要な情報に低コストでアクセスできるようにする!
○ 医師にとって必要な情報を収集する。
○ 医師が簡単に情報を検索できるようにする。
○ 医師に適切な情報をリコメンドする。
かなり大きな新プロジェクトを立ち上げました!!
● 必要な技術
○ エンジニアリング、検索、推薦システム、翻訳、要約
○ サービス企画、行動分析、マーケティング
● 機械学習エンジニア(AIチーム)
● 機械学習エンジニア(AIラボ )
● ソフトウェアエンジニア(AIチーム)
● ソフトウェアエンジニア(AIラボ )
● ソフトウェアエンジニア(AIラボ 、オペレーションシステム担当)
興味がある方は @m_nishibaまでDMください!
機械学習のイベントを毎月開催予定!!
connpassにメンバー登録お願いします!!!
仲間募集!!
補足:AIラボとAIチームの違い
AIラボのミッション
● 臨床現場で使われる AIをいち早く届けて、臨床課題の解決に貢献する。
AIチームのミッション
● 医師向けプラットフォームに AI技術を活用したサービスを導入にし、医師への情報伝達を効率化すること
により医療の質の向上を実現する。
※ 目下のところエンジニアは全員 AIチーム所属です。AIチームのエンジニアとして AIラボの開発を行っていま
す。

Matrix Factorization と Text CNN による Cold Start Problem への取り組み