Submit Search
Upload
はてなブックマークの新機能における自然言語処理の活用
•
31 likes
•
17,188 views
Shunsuke Kozawa
Follow
Hatena Engineer Seminar #4で発表した「はてなブックマークの新機能における自然言語処理の活用~はてなブックマークのトピックページの裏側」の資料
Read less
Read more
Technology
Report
Share
Report
Share
1 of 45
Download now
Download to read offline
Recommended
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
Shunsuke Kozawa
Elasticsearchを用いたはてなブックマークのトピック生成
Elasticsearchを用いたはてなブックマークのトピック生成
Shunsuke Kozawa
『BrandSafe はてな』のアドベリフィケーションのしくみ
『BrandSafe はてな』のアドベリフィケーションのしくみ
Lintaro Ina
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
Takeshi Sakaki
なぜRustか?
なぜRustか?
emakryo
IT技術者でも1から学べるビジネスモデルキャンバス入門
IT技術者でも1から学べるビジネスモデルキャンバス入門
陽一 滝川
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
Toshinori Sato
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
Kensuke Mitsuzawa
Recommended
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
Shunsuke Kozawa
Elasticsearchを用いたはてなブックマークのトピック生成
Elasticsearchを用いたはてなブックマークのトピック生成
Shunsuke Kozawa
『BrandSafe はてな』のアドベリフィケーションのしくみ
『BrandSafe はてな』のアドベリフィケーションのしくみ
Lintaro Ina
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
Takeshi Sakaki
なぜRustか?
なぜRustか?
emakryo
IT技術者でも1から学べるビジネスモデルキャンバス入門
IT技術者でも1から学べるビジネスモデルキャンバス入門
陽一 滝川
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
Toshinori Sato
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
Kensuke Mitsuzawa
Grand Strategy For Presentation
Grand Strategy For Presentation
bash0C7
20180601 OWASP Top 10 2017の読み方
20180601 OWASP Top 10 2017の読み方
OWASP Nagoya
concrete5 テーマ作成ハンズオン (Ver5.6 まで)
concrete5 テーマ作成ハンズオン (Ver5.6 まで)
Katz Ueno
実録 情熱と苦悩のテーマ・プラグインビジネス
実録 情熱と苦悩のテーマ・プラグインビジネス
Hidekazu Ishikawa
4つの自作自然言語処理ツール
4つの自作自然言語処理ツール
genroku
WordPressをこれから始める人のためのテーマ講座
WordPressをこれから始める人のためのテーマ講座
Takami Kazuya
RStudioでRをはじめよう(R for Beginner using RStudio)
RStudioでRをはじめよう(R for Beginner using RStudio)
Takashi Minoda
Ruby会議08 倉貫発表資料
Ruby会議08 倉貫発表資料
Yoshihito Kuranuki
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演
cvpaper. challenge
Gunosyにおけるパーソナライズシステム
Gunosyにおけるパーソナライズシステム
Shunsuke Kozawa
Gunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテスト
Shunsuke Kozawa
Elasticsearch in hatena bookmark
Elasticsearch in hatena bookmark
Shunsuke Kozawa
はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発
Shunsuke Kozawa
Heady news headline abstraction through event pattern clustering
Heady news headline abstraction through event pattern clustering
Shunsuke Kozawa
Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...
Shunsuke Kozawa
Joint inference of named entity recognition and normalization for tweets
Joint inference of named entity recognition and normalization for tweets
Shunsuke Kozawa
Topical keyphrase extraction from twitter
Topical keyphrase extraction from twitter
Shunsuke Kozawa
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
More Related Content
Similar to はてなブックマークの新機能における自然言語処理の活用
Grand Strategy For Presentation
Grand Strategy For Presentation
bash0C7
20180601 OWASP Top 10 2017の読み方
20180601 OWASP Top 10 2017の読み方
OWASP Nagoya
concrete5 テーマ作成ハンズオン (Ver5.6 まで)
concrete5 テーマ作成ハンズオン (Ver5.6 まで)
Katz Ueno
実録 情熱と苦悩のテーマ・プラグインビジネス
実録 情熱と苦悩のテーマ・プラグインビジネス
Hidekazu Ishikawa
4つの自作自然言語処理ツール
4つの自作自然言語処理ツール
genroku
WordPressをこれから始める人のためのテーマ講座
WordPressをこれから始める人のためのテーマ講座
Takami Kazuya
RStudioでRをはじめよう(R for Beginner using RStudio)
RStudioでRをはじめよう(R for Beginner using RStudio)
Takashi Minoda
Ruby会議08 倉貫発表資料
Ruby会議08 倉貫発表資料
Yoshihito Kuranuki
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演
cvpaper. challenge
Similar to はてなブックマークの新機能における自然言語処理の活用
(9)
Grand Strategy For Presentation
Grand Strategy For Presentation
20180601 OWASP Top 10 2017の読み方
20180601 OWASP Top 10 2017の読み方
concrete5 テーマ作成ハンズオン (Ver5.6 まで)
concrete5 テーマ作成ハンズオン (Ver5.6 まで)
実録 情熱と苦悩のテーマ・プラグインビジネス
実録 情熱と苦悩のテーマ・プラグインビジネス
4つの自作自然言語処理ツール
4つの自作自然言語処理ツール
WordPressをこれから始める人のためのテーマ講座
WordPressをこれから始める人のためのテーマ講座
RStudioでRをはじめよう(R for Beginner using RStudio)
RStudioでRをはじめよう(R for Beginner using RStudio)
Ruby会議08 倉貫発表資料
Ruby会議08 倉貫発表資料
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演
More from Shunsuke Kozawa
Gunosyにおけるパーソナライズシステム
Gunosyにおけるパーソナライズシステム
Shunsuke Kozawa
Gunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテスト
Shunsuke Kozawa
Elasticsearch in hatena bookmark
Elasticsearch in hatena bookmark
Shunsuke Kozawa
はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発
Shunsuke Kozawa
Heady news headline abstraction through event pattern clustering
Heady news headline abstraction through event pattern clustering
Shunsuke Kozawa
Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...
Shunsuke Kozawa
Joint inference of named entity recognition and normalization for tweets
Joint inference of named entity recognition and normalization for tweets
Shunsuke Kozawa
Topical keyphrase extraction from twitter
Topical keyphrase extraction from twitter
Shunsuke Kozawa
More from Shunsuke Kozawa
(8)
Gunosyにおけるパーソナライズシステム
Gunosyにおけるパーソナライズシステム
Gunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテスト
Elasticsearch in hatena bookmark
Elasticsearch in hatena bookmark
はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発
Heady news headline abstraction through event pattern clustering
Heady news headline abstraction through event pattern clustering
Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...
Joint inference of named entity recognition and normalization for tweets
Joint inference of named entity recognition and normalization for tweets
Topical keyphrase extraction from twitter
Topical keyphrase extraction from twitter
Recently uploaded
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
Recently uploaded
(12)
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
はてなブックマークの新機能における自然言語処理の活用
1.
id:skozawa Hatena Enginner Seminar
#4 はてなブックマークの新機能における 自然言語処理の活用 ~はてなブックマークのトピックページの裏側~
2.
自己紹介 id:skozawa skozawa.info 2007-2012 大学院で自然言語処理の研究に従事 2012 株式会社はてな入社 アプリケーションエンジニア ・ブックマークチーム ・プラットフォームチーム(アドテク) 2
3.
はてなブックマーク 3
4.
はてなブックマーク 4 βリリースから10年 トピックページを2月5日にリリース
5.
トピックページ ● 関連性の高い話題の記事をまとめたページ ● ブックマークに蓄積された過去10年の記事を対象 に適用 http://bookmark.hatenastaff.com/entry/2015/02/05/190331 5
6.
トピックリストページ (http://b.hatena.ne.jp/topiclist) 6
7.
トピックページ 7
8.
開発の経緯 ● トピック機能の要望は前々からあった ○ インターネットで盛り上がってる話題を知りたい ○
ホットエントリでの同じ話題のエントリ重複を避けたい 8 この機能は、これまでも多くのエンジニアが挑戦しながら、さまざま な要因により実現できていませんでした。 ref. http://bookmark.hatenastaff.com/entry/2015/02/05/190331
9.
実現できなかった要因 ● トピック生成 ○ クラスタリング精度が低い ●
トピックのタイトル ○ トピックを表すちゃんとしたタイトル生成が困難 9
10.
実現できなかった要因 ● トピック生成 ○ クラスタリング精度が低い 重要語抽出ベースのアプローチへの変更 検索技術(Elasticsearch)の導入 ref.
タイトル未定 by id:yanbe @第8回Elasticsearch勉強会 (2/13) ● トピックのタイトル ○ トピックを表すちゃんとしたタイトル生成が困難 自然言語処理技術の導入 10
11.
トピック生成の流れ 1. トピック生成 1. トピックを作る 2.
トピックに属するエントリを収集 3. トピックのマージ 2. トピックタイトル生成 1. 重要語抽出 2. 重要文抽出 3. 文圧縮 11
12.
トピック生成
13.
トピックとは トピック キーワードの集合から形成 トピックモデル PLSI (Probabilistic Latent
Semantic Indexing) LDA (Latent Dirichlet Allocation) *今回は使ってない 盛り上がっている話題を捉えるものではない テレ朝、アイドル、ヘリウム、搬送、救急 ヨルダン、リシャウィ、死刑、執行、報復 13
14.
Elasticsearchによるトピック生成 Elasticsearch 全文検索システム Significant Terms Aggreagtion 重要語を取得できる機能 期間を区切って記事のタイトルや本文を対象に実行 An
aggregation that returns interesting or unusual occurrences of terms in a set. 14 ≒ 盛り上がっている話題
15.
Significant Terms Aggregation "aggregations":
{ "sample": { "buckets": [ { "key": "ようじ", "doc_count": 16, "score": 11.906, "bg_count": 114 }, { "key": "スイスフラン", "doc_count": 3, "score": 7.955, "bg_count": 6 }, { "key": "origa", "doc_count": 24, "score": 6.005, "bg_count": 508 }, … ] } } { “aggs”: { “sample”: { “significant_terms” : { “field”: “title”, “size”: 10 } } } } 15 Request Response
16.
Elasticsearchは何を計算してる? ● スコア計算方法は現在4種類 ○ jlh
score ○ mutual information ○ chi square ■ 1.4.0.Beta1 ~ ○ google normalized distance ■ 1.4.0.Beta1 ~ 16
17.
JLH 全体の出現割合と最近の出現割合を利用 JLH = 絶対割合変化
× 相対割合変化 絶対割合変化 = 最近の出現割合 - 全体の出現割合 相対割合変化 = 最近の出現割合 / 全体の出現割合 例:1年(全体)で30,000文書、直近1日(最近)で100文書の文書集合利用 「ようじ」という単語が全体で100回、最近は10回出現した場合 絶対割合変化 = 10/100 - 100/30000 = 29/300 相対割合変化 = 10/100 / 100/30000 = 30 JLH = 29/300 * 30 = 2.9 17
18.
JLH 全体の出現割合と最近の出現割合を利用 JLH = 絶対割合変化
× 相対割合変化 絶対割合変化 = 最近の出現割合 - 全体の出現割合 相対割合変化 = 最近の出現割合 / 全体の出現割合 18 最近よく現れる単語のスコアが高くなる
19.
"aggregations": { "sample":
{ "buckets": [ { "key": "ようじ", "score": 11.906, "sample2": { "buckets": [ { "key": "ようじ", "score": 245898.78 }, { "key": "つま", "score": 74554.22 }, { "key": "混入", "score": 74554.22 }, ... ]} }, { "key": "スイスフラン", "score": 7.955, "sample2": { "buckets": [ { "key": "スイスフラン", "score": 1905242.33 }, { "key": "急騰", "score": 156594.34 }, { "key": "打撃", "score": 156594.34 }, … ] } }, … { “aggs”: { “sample”: { “significant_terms” : { “field”: “title”, “size”: 10 }, “aggs”: { “sample2”: { “significant_terms”: { “field”: “title”, “size”: 5, } } } } } } 19 Request Response トピック
20.
トピックの例 20 57577、短歌、偶然、bot ようじ、つま、混入、取調べ、身柄 origa、攻殻、主題歌、主題、機動 スイスフラン、急騰、打撃、業者、損失 クソリプ、パクツイ、国語、試験、センタ
21.
トピックに属するエントリ トピックのキーワードのどれかが含まれる? 単に含まれるだけだと関係ないエントリも取得してしまう 重要なキーワードが含まれることが大切 キーワードのスコアを利用 キーワードのスコアの合計8割以上と なるエントリを取得 21 スイスフラン、急騰、打撃、業者、損失 "buckets": [ { "key":
"スイスフラン", "score": 1905242.33 }, { "key": "急騰", "score": 156594.34 }, { "key": "打撃", "score": 156594.34 }, … ] }
22.
トピックのマージ 既に同じ内容のトピックがある場合は新しく作るので はなくマージしたい 以下を考慮してトピックを統合 トピックのキーワードのスコア重複率 トピックのエントリの重複率 22
23.
23
24.
トピックタイトル生成
25.
タイトル生成とは 自然言語処理におけるタイトル生成 要約技術の一種 実際には人間でも、複数記事のタイトルと 本文からトピックタイトルを作ることは難しい 要約に重要な部分とは? 記事のタイトルと本文1文目 25
26.
トピックタイトルの生成 26 ● スイス中銀、スイスフラン高抑制の無制限介入終了 :主要金融ニュース :マーケッ ト
:日本経済新聞 ● スイスフラン、対ユーロで一時30%上昇 フラン上限廃止で | マネーニュース | 株式 市場 | Reuters ● スイスフラン突然の大暴騰!取引が成立しない状況に - Togetterまとめ ● スイスフラン騒動で大儲けした人と大損した人の阿鼻叫喚の叫びまとめ #fx - NAVER まとめ ● スイス中銀がフラン上限撤廃・中銀預金金利一段のマイナス:識者はこうみる | Reuters ● スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が批判 :日本経済新聞 ● スイスフランショックで大儲けした人と大損した人。ファイナンススタジアムより抜粋。 - マネー報道 MoneyReport ● スイスフラン急騰、FX業者の経営に打撃 :日本経済新聞 ● 投資家に巨額の損失 スイスフラン急騰の打撃 日本のFX業者らにも (産経新 聞) - Yahoo!ニュース ● スイスフランの介入停止問題に関するまとめ - 株式、FXのまとめ解説ブログ
27.
トピックタイトルの生成 27 ● スイス中銀、スイスフラン高抑制の無制限介入終了 :主要金融ニュース :マーケッ ト
:日本経済新聞 ● スイスフラン、対ユーロで一時30%上昇 フラン上限廃止で | マネーニュース | 株式 市場 | Reuters ● スイスフラン突然の大暴騰!取引が成立しない状況に - Togetterまとめ ● スイスフラン騒動で大儲けした人と大損した人の阿鼻叫喚の叫びまとめ #fx - NAVER まとめ ● スイス中銀がフラン上限撤廃・中銀預金金利一段のマイナス:識者はこうみる | Reuters ● スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が批判 :日本経済新聞 ● スイスフランショックで大儲けした人と大損した人。ファイナンススタジアムより抜粋。 - マネー報道 MoneyReport ● スイスフラン急騰、FX業者の経営に打撃 :日本経済新聞 ● 投資家に巨額の損失 スイスフラン急騰の打撃 日本のFX業者らにも (産経新 聞) - Yahoo!ニュース ● スイスフランの介入停止問題に関するまとめ - 株式、FXのまとめ解説ブログ
28.
トピックタイトルどうやって作る? タイトルはキーワードの羅列でいい? キーワードをいい感じに並び替え? 並び替え考えるのも意外と大変 28 フラン、撤廃、上限、急騰、スイス
29.
トピックタイトルどうやって作る? 前提 ・ トピックに含まれる記事は同じ話題 ・ 各記事のタイトルはある程度しっかりしている ・
いずれかの記事を使うとうまくいく可能性が高い 29 ● スイス中銀、スイスフラン高抑制の無制限介入終了 :主要金融ニュース :マーケッ ト :日本経済新聞 ● スイスフラン突然の大暴騰!取引が成立しない状況に - Togetterまとめ ● スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が批判 :日本経済新聞 ● スイス中銀がフラン上限撤廃・中銀預金金利一段のマイナス:識者はこうみる | Reuters ● スイスフラン急騰、FX業者の経営に打撃 :日本経済新聞 ● スイスフランショックで大儲けした人と大損した人。ファイナンススタジアムより抜粋。 - マネー報道 MoneyReport
30.
トピックタイトルどうやって作る? 前提 ・ トピックに含まれる記事は同じ話題 ・ 各記事のタイトルはある程度しっかりしている ・
いずれかの記事を使うとうまくいく可能性が高い 30 ● スイス中銀、スイスフラン高抑制の無制限介入終了 :主要金融ニュース :マーケッ ト :日本経済新聞 ● スイスフラン突然の大暴騰!取引が成立しない状況に - Togetterまとめ ● スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が批判 :日本経済新聞 ● スイス中銀がフラン上限撤廃・中銀預金金利一段のマイナス:識者はこうみる | Reuters ● スイスフラン急騰、FX業者の経営に打撃 :日本経済新聞 ● スイスフランショックで大儲けした人と大損した人。ファイナンススタジアムより抜粋。 - マネー報道 MoneyReport 重要文(タイトル)を利用
31.
トピックタイトルどうやって作る? 問題点 ・ 媒体名などの不要な部分は省きたい 媒体名の辞書作るのはコストが高い 31 ● スイス中銀、スイスフラン高抑制の無制限介入終了 :主要金融ニュース
:マーケッ ト :日本経済新聞 ● スイスフラン突然の大暴騰!取引が成立しない状況に - Togetterまとめ ● スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が批判 :日本経済新聞 ● スイス中銀がフラン上限撤廃・中銀預金金利一段のマイナス:識者はこうみる | Reuters ● スイスフラン急騰、FX業者の経営に打撃 :日本経済新聞 ● スイスフランショックで大儲けした人と大損した人。ファイナンススタジアムより抜粋。 - マネー報道 MoneyReport
32.
トピックタイトルどうやって作る? 問題点 ・ 媒体名などの不要な部分は省きたい 媒体名の辞書作るのはコストが高い 32 ● スイス中銀、スイスフラン高抑制の無制限介入終了 :主要金融ニュース
:マーケッ ト :日本経済新聞 ● スイスフラン突然の大暴騰!取引が成立しない状況に - Togetterまとめ ● スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が批判 :日本経済新聞 ● スイス中銀がフラン上限撤廃・中銀預金金利一段のマイナス:識者はこうみる | Reuters ● スイスフラン急騰、FX業者の経営に打撃 :日本経済新聞 ● スイスフランショックで大儲けした人と大損した人。ファイナンススタジアムより抜粋。 - マネー報道 MoneyReport 重要な部分だけ取り出せば自然と媒体名はなくなる
33.
トピックタイトル生成の流れ 1. 重要語を抽出 2. 重要文を選択 3.
文圧縮によるタイトル生成 *実際には2種類のタイトル(文字数制限あり、なし)を生成しているが、 今回の発表では文字数制限なしの例 33
34.
重要語抽出 タイトル生成に必要な単語を取得 Elasticsearch Significant Terms
Aggregation トピックに属するエントリのタイトルを対象 TopicSum 重要語抽出時にTopicSumの概念も利用 Exploring content models for multi-document summarization 単語を一般語、トピック固有語、文書固有語に分類する トピックモデル 34
35.
重要語抽出 タイトル生成に必要な単語を取得 Elasticsearch Significant Terms
Aggregation トピックに属するエントリのタイトルを対象 35 ● スイス中銀、スイスフラン高抑制の無制限介入終了 :主要金融ニュース :マー ケット :日本経済新聞 ● スイスフラン突然の大暴騰!取引が成立しない状況に - Togetterまとめ ● スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が批判 :日本経済新 聞 ● スイス中銀がフラン上限撤廃・中銀預金金利一段のマイナス:識者はこうみる | Reuters ● スイスフラン急騰、FX業者の経営に打撃 :日本経済新聞 ● スイスフランショックで大儲けした人と大損した人。ファイナンススタジアムより抜粋。 - マネー報道 MoneyReport スイスフラン、急騰、上限、撤廃
36.
重要文抽出 重要語を利用して重要文を選択 ● 各記事のタイトルのスコアを計算 ○ 含まれる重要語のスコアの合計 ●
スコアが最大の記事のタイトルを取得 ○ スコアが同じ場合は短い方 36 ● スイスフラン突然の大暴騰!取引が成立しない状況に - Togetterまとめ ● スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が批判 :日本経済新 聞 ● スイスフラン急騰、FX業者の経営に打撃 :日本経済新聞
37.
文圧縮 取得したタイトルの必要な部分のみを取得 どうやって? 先頭の単語から末尾の単語まで? 意味的な保証がしづらい 37 スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が 批判 :日本経済新聞 スイスフラン上限撤廃、通貨急騰 スイスフラン上限撤廃、通貨急騰で波紋
38.
係り受け関係に基づく文圧縮 係り受け解析を利用 係り受け関係:文節間の修飾関係 重要語を含む先頭文節から末尾の文節まで 非文を避けるためヒューリスティクなルールを用意 文節末尾が「助詞-格助詞-一般」なら係り先を取得など 38 スイスフラン上限撤廃、 / 通貨急騰で
/ 波紋 時計大手首脳が / 批判 / :日本経済新聞
39.
前処理 記事のタイトルは普通の文章と異なるため、 前処理(タイトルの整形)が必要 39 スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が 批判 :日本経済新聞 媒体名 文境界相当
40.
前処理 記事のタイトルは普通の文章と異なるため、 前処理(タイトルの整形)が必要 前処理しないと 40 スイスフラン上限撤廃、 / 通貨急騰で
/ 波紋 時計大手首脳が / 批判 :日本経済新聞 スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が 批判 :日本経済新聞 媒体名 文境界相当
41.
前処理 記事のタイトルは普通の文章と異なるため、 前処理(タイトルの整形)が必要 「 」や「:」で強制的に文節を区切る 41 スイスフラン上限撤廃、 / 通貨急騰で
/ 波紋 時計大手首脳が / 批判 / :日本経済新聞 スイスフラン上限撤廃、通貨急騰で波紋 時計大手首脳が 批判 :日本経済新聞 媒体名 文境界相当
42.
42
43.
まとめ
44.
まとめ ブックマークに蓄積された過去10年のデータを 用いてトピック機能を実装 検索技術(Elasticsearch)と 自然言語処理技術の導入により実現 44
45.
はてなブログに感想を書いて 「Hatena Engineer Seminar
#4」 トピックを作ろう! 45
Download now