Submit Search
Upload
おとなのテキストマイニング
•
Download as PPT, PDF
•
7 likes
•
3,169 views
Munenori Sugimura
Follow
ようやく動くものが出来たよ!というお話。
Read less
Read more
Technology
Slideshow view
Report
Share
Slideshow view
Report
Share
1 of 52
Download now
Recommended
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
antibayesian 俺がS式だ
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
antibayesian 俺がS式だ
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
悠一 鈴木
nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析
kunihikokaneko1
社内勉強会 2014/10/08
社内勉強会 2014/10/08
Takaki Yoneyama
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
博三 太田
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
Yuta Yamashita
Recommended
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
第三回さくさくテキストマイニング勉強会 入門セッション
第三回さくさくテキストマイニング勉強会 入門セッション
antibayesian 俺がS式だ
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
antibayesian 俺がS式だ
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
悠一 鈴木
nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析
kunihikokaneko1
社内勉強会 2014/10/08
社内勉強会 2014/10/08
Takaki Yoneyama
Python nlp handson_20220225_v5
Python nlp handson_20220225_v5
博三 太田
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
Yuta Yamashita
2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回
博三 太田
次元の呪い
次元の呪い
Kosuke Tsujino
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
Signl213
Signl213
Kei Uchiumi
自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解
Kanji Takahashi
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
Masahiro Yamamoto
6/9 学生LT用資料
6/9 学生LT用資料
Naoaki Yamaguchi
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
tetsuro ito
複数の客観的手法を用いたテキスト含意認識評価セットの構築
複数の客観的手法を用いたテキスト含意認識評価セットの構築
長岡技術科学大学 自然言語処理研究室
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!
Shushi Namba
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Tomoyuki Kajiwara
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
naoto moriyama
Deep forest
Deep forest
naoto moriyama
【Schoo web campus】「相手に伝わる」文章を書く技術
【Schoo web campus】「相手に伝わる」文章を書く技術
schoowebcampus
Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition
長岡技術科学大学 自然言語処理研究室
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
博三 太田
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Yuya Unno
Logics 18th ota_20211201
Logics 18th ota_20211201
博三 太田
自由文と自然言語、どちらがすぐれている?
自由文と自然言語、どちらがすぐれている?
Keisuke NAKAMURA
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
「ふわっと関連検索」のこれまでとこれから
「ふわっと関連検索」のこれまでとこれから
Masao Takaku
More Related Content
What's hot
2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回
博三 太田
次元の呪い
次元の呪い
Kosuke Tsujino
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
Shun Kiyono
Signl213
Signl213
Kei Uchiumi
自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解
Kanji Takahashi
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
Masahiro Yamamoto
6/9 学生LT用資料
6/9 学生LT用資料
Naoaki Yamaguchi
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
tetsuro ito
複数の客観的手法を用いたテキスト含意認識評価セットの構築
複数の客観的手法を用いたテキスト含意認識評価セットの構築
長岡技術科学大学 自然言語処理研究室
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!
Shushi Namba
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Tomoyuki Kajiwara
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
naoto moriyama
Deep forest
Deep forest
naoto moriyama
【Schoo web campus】「相手に伝わる」文章を書く技術
【Schoo web campus】「相手に伝わる」文章を書く技術
schoowebcampus
Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition
長岡技術科学大学 自然言語処理研究室
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
博三 太田
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Yuya Unno
Logics 18th ota_20211201
Logics 18th ota_20211201
博三 太田
自由文と自然言語、どちらがすぐれている?
自由文と自然言語、どちらがすぐれている?
Keisuke NAKAMURA
What's hot
(20)
2021年度 人工知能学会全国大会 第35回
2021年度 人工知能学会全国大会 第35回
次元の呪い
次元の呪い
Dynamic Entity Representations in Neural Language Models
Dynamic Entity Representations in Neural Language Models
Signl213
Signl213
自然言語処理における意味解析と意味理解
自然言語処理における意味解析と意味理解
最先端NLP勉強会 Context Gates for Neural Machine Translation
最先端NLP勉強会 Context Gates for Neural Machine Translation
6/9 学生LT用資料
6/9 学生LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
複数の客観的手法を用いたテキスト含意認識評価セットの構築
複数の客観的手法を用いたテキスト含意認識評価セットの構築
Rはいいぞ!むしろなぜ使わないのか!!
Rはいいぞ!むしろなぜ使わないのか!!
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
Deep forest
Deep forest
【Schoo web campus】「相手に伝わる」文章を書く技術
【Schoo web campus】「相手に伝わる」文章を書く技術
Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition
Jsai2021 winter ppt_ota_20211127
Jsai2021 winter ppt_ota_20211127
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Logics 18th ota_20211201
Logics 18th ota_20211201
自由文と自然言語、どちらがすぐれている?
自由文と自然言語、どちらがすぐれている?
Viewers also liked
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
Koji Sekiguchi
「ふわっと関連検索」のこれまでとこれから
「ふわっと関連検索」のこれまでとこれから
Masao Takaku
ビジネスで使えるオープンデータの技術@ビジネス活用のためのオープンデータセミナー(2016.01.22)
ビジネスで使えるオープンデータの技術@ビジネス活用のためのオープンデータセミナー(2016.01.22)
Ikki Ohmukai
高久研究室の紹介(2016年度)
高久研究室の紹介(2016年度)
Masao Takaku
研究室紹介:高久研究室
研究室紹介:高久研究室
Masao Takaku
Brain Profile Ppt 01 10
Brain Profile Ppt 01 10
IIR
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)
Ikki Ohmukai
Information retrieval model
Information retrieval model
Yuku Takahashi
生命科学・農学研究のための情報検索の基礎
生命科学・農学研究のための情報検索の基礎
Takeru Nakazato
情報検索の基礎(11章)
情報検索の基礎(11章)
Katsuki Tanaka
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
Yahoo!デベロッパーネットワーク
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
Koji Sekiguchi
効果的な文献検索と最新論文の情報を入手する秘訣
効果的な文献検索と最新論文の情報を入手する秘訣
英文校正エディテージ
ElasticSearchでいろいろやってる話
ElasticSearchでいろいろやってる話
Shinya Takara
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
Tomoyuki Kajiwara
JIT のコードを読んでみた
JIT のコードを読んでみた
y-uti
パケットジェネレータipgenから見るnetmap
パケットジェネレータipgenから見るnetmap
furandon_pig
検索のダウンタイム0でバックアップからindexをリストアする方法
検索のダウンタイム0でバックアップからindexをリストアする方法
kbigwheel
はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発
Shunsuke Kozawa
プログラマのための文書推薦入門
プログラマのための文書推薦入門
y-uti
Viewers also liked
(20)
情報検索の基礎からデータの徹底活用まで
情報検索の基礎からデータの徹底活用まで
「ふわっと関連検索」のこれまでとこれから
「ふわっと関連検索」のこれまでとこれから
ビジネスで使えるオープンデータの技術@ビジネス活用のためのオープンデータセミナー(2016.01.22)
ビジネスで使えるオープンデータの技術@ビジネス活用のためのオープンデータセミナー(2016.01.22)
高久研究室の紹介(2016年度)
高久研究室の紹介(2016年度)
研究室紹介:高久研究室
研究室紹介:高久研究室
Brain Profile Ppt 01 10
Brain Profile Ppt 01 10
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)
Information retrieval model
Information retrieval model
生命科学・農学研究のための情報検索の基礎
生命科学・農学研究のための情報検索の基礎
情報検索の基礎(11章)
情報検索の基礎(11章)
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
広告配信のための高速疎ベクトル検索エンジンの開発@WebDBフォーラム2015 #webdbf2015
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
効果的な文献検索と最新論文の情報を入手する秘訣
効果的な文献検索と最新論文の情報を入手する秘訣
ElasticSearchでいろいろやってる話
ElasticSearchでいろいろやってる話
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
JIT のコードを読んでみた
JIT のコードを読んでみた
パケットジェネレータipgenから見るnetmap
パケットジェネレータipgenから見るnetmap
検索のダウンタイム0でバックアップからindexをリストアする方法
検索のダウンタイム0でバックアップからindexをリストアする方法
はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発
プログラマのための文書推薦入門
プログラマのための文書推薦入門
Similar to おとなのテキストマイニング
全文検索入門
全文検索入門
antibayesian 俺がS式だ
Goで言語処理系(の途中まで)を作ろう
Goで言語処理系(の途中まで)を作ろう
Esehara Shigeo
言語資源と付き合う
言語資源と付き合う
Yuya Unno
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
Kosuke Tanabe
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
Kensuke Mitsuzawa
内省するTensorFlow
内省するTensorFlow
Yoshiyuki Kakihara
pg_bigmと類似度検索
pg_bigmと類似度検索
Masahiko Sawada
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
mametter
Perl で自然言語処理
Perl で自然言語処理
Toshinori Sato
5分でわかる静的解析入門
5分でわかる静的解析入門
Kenta USAMI
Pythonの非同期処理を始める前に
Pythonの非同期処理を始める前に
koralle
Pythonで自然言語処理
Pythonで自然言語処理
moai kids
パーフェクト"Elixir情報収集"
パーフェクト"Elixir情報収集"
Keisuke Takahashi
捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)
mosa siru
YAPC::Asia 2014 - 半端なPHPDisでPHPerに陰で笑われないためのPerl Monger向け最新PHP事情
YAPC::Asia 2014 - 半端なPHPDisでPHPerに陰で笑われないためのPerl Monger向け最新PHP事情
Junichi Ishida
つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜
Eric Sartre
2012 09-25-sig-ifat
2012 09-25-sig-ifat
Asahara Masayuki
Machine Learning Seminar (5)
Machine Learning Seminar (5)
Tomoya Nakayama
OSS ソースコードサーチツールの効能、有効活用方法
OSS ソースコードサーチツールの効能、有効活用方法
Open Source Software Association of Japan
Similar to おとなのテキストマイニング
(20)
全文検索入門
全文検索入門
Goで言語処理系(の途中まで)を作ろう
Goで言語処理系(の途中まで)を作ろう
言語資源と付き合う
言語資源と付き合う
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
内省するTensorFlow
内省するTensorFlow
pg_bigmと類似度検索
pg_bigmと類似度検索
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
Perl で自然言語処理
Perl で自然言語処理
5分でわかる静的解析入門
5分でわかる静的解析入門
Pythonの非同期処理を始める前に
Pythonの非同期処理を始める前に
Pythonで自然言語処理
Pythonで自然言語処理
パーフェクト"Elixir情報収集"
パーフェクト"Elixir情報収集"
捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)
YAPC::Asia 2014 - 半端なPHPDisでPHPerに陰で笑われないためのPerl Monger向け最新PHP事情
YAPC::Asia 2014 - 半端なPHPDisでPHPerに陰で笑われないためのPerl Monger向け最新PHP事情
つくっておぼえる!仮想マシン〜直前で実装編〜
つくっておぼえる!仮想マシン〜直前で実装編〜
2012 09-25-sig-ifat
2012 09-25-sig-ifat
Machine Learning Seminar (5)
Machine Learning Seminar (5)
OSS ソースコードサーチツールの効能、有効活用方法
OSS ソースコードサーチツールの効能、有効活用方法
More from Munenori Sugimura
EC-CUBEで宅配伝票の印刷
EC-CUBEで宅配伝票の印刷
Munenori Sugimura
Vimの話
Vimの話
Munenori Sugimura
EC-CUBE on Bootstrap3 - Gunma.web#16
EC-CUBE on Bootstrap3 - Gunma.web#16
Munenori Sugimura
20% - Gunma.web#15
20% - Gunma.web#15
Munenori Sugimura
Perl Beginners #7 おとなのWAF
Perl Beginners #7 おとなのWAF
Munenori Sugimura
Koi::Bana〜恋に落ちたエンジニア〜
Koi::Bana〜恋に落ちたエンジニア〜
Munenori Sugimura
LDDによるWebアプリケーション開発
LDDによるWebアプリケーション開発
Munenori Sugimura
モダンでオサレなwebサイト
モダンでオサレなwebサイト
Munenori Sugimura
More from Munenori Sugimura
(8)
EC-CUBEで宅配伝票の印刷
EC-CUBEで宅配伝票の印刷
Vimの話
Vimの話
EC-CUBE on Bootstrap3 - Gunma.web#16
EC-CUBE on Bootstrap3 - Gunma.web#16
20% - Gunma.web#15
20% - Gunma.web#15
Perl Beginners #7 おとなのWAF
Perl Beginners #7 おとなのWAF
Koi::Bana〜恋に落ちたエンジニア〜
Koi::Bana〜恋に落ちたエンジニア〜
LDDによるWebアプリケーション開発
LDDによるWebアプリケーション開発
モダンでオサレなwebサイト
モダンでオサレなwebサイト
Recently uploaded
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
Recently uploaded
(8)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
おとなのテキストマイニング
1.
おとなのテキストマイニング
@pinktx_jp 2012.11.23 Gunma.web #11
2.
今回の主役
3.
超有名人
4.
5.
6.
ルイージ
7.
テキストマイニング
8.
テキストマイニング テキストマイニング( text mining
)は、テキストを対象と したデータマイニングのことである。通常の文章からなる データを単語や文節で区切り、それらの出現の頻度や共出現 の相関、出現傾向、時系列などを解析することで有用な情報 を取り出す、 テキストデータの分析方法である。 http://ja.wikipedia.org/wiki/テキストマイニング
9.
自然言語処理 自然言語処理(しぜんげんごしょり、英語 : natural language
processing 、略称: NLP )は、人間が日常的に 使っている自然言語をコンピュータに処理させる一連の技術 であり、人工知能と言語学の一分野である。 http://ja.wikipedia.org/wiki/自然言語処理
10.
人間語をコンピュータで扱い
やすい形にする事
11.
形態素解析 対象言語の文法の知識(文法のルールの集まり)や辞書(品 詞等の情報付きの単語リスト)を情報源として用い、自然言 語で書かれた文を形態素( Morpheme, おおまかにいえば、 言語で意味を持つ最小単位)の列に分割し、それぞれの品詞 を判別する作業を指す。
http://ja.wikipedia.org/wiki/形態素解析
12.
文章を単語単位に分けて、品
詞を特定すること
13.
英語の場合 Mankind has
arrived at Jupiter for the first time today.
14.
英語の場合 Mankind has
arrived at Jupiter for the first time today. 日本語の場合 今日人類が初めて木星に着いたよ 。
15.
英語の場合 Mankind has
arrived at Jupiter for the first time today. 日本語の場合 今日人類が初めて木星に着いたよ 。 わかち書きが必要
16.
わかち書き(形態素解析) $ 今日人類が初めて木星に着いたよ
17.
わかち書き(形態素解析) $ 今日人類が初めて木星に着いたよ 今日 名詞 ,
副詞可能 ,*,*,*,*, 今日 , キョウ , キョー 人類 名詞 , 一般 ,*,*,*,*, 人類 , ジンルイ , ジンルイ が 助詞 , 格助詞 , 一般 ,*,*,*, が , ガ , ガ 初めて 副詞 , 一般 ,*,*,*,*, 初めて , ハジメテ , ハジメテ 木星 名詞 , 一般 ,*,*,*,*, 木星 , モクセイ , モクセイ に 助詞 , 格助詞 , 一般 ,*,*,*, に , ニ , ニ 着い 動詞 , 自立 ,*,*, 五段・カ行イ音便 , 連用タ接続 , 着く , ツイ , ツイ た 助動詞 ,*,*,*, 特殊・タ , 基本形 , た , タ , タ よ 助詞 , 終助詞 ,*,*,*,*, よ , ヨ , ヨ
18.
MeCab
19.
MeCab • オープンソースの形態素解析エンジン • Google
日本語入力開発者の一人である 工藤拓氏によって開発 • MacOS や iOS 等にも採用されている http://ja.wikipedia.org/wiki/MeCab
20.
21.
ここから若干おとな向けなお
話が含まれます
22.
おとなのテキストマイニン グに 必要なもの
23.
おとなのテキストマイニン グに 必要なもの • r18-words.dic
- 18 禁ワードに特化した辞書 • pornostar-jp.dic - 日本の AV 女優さんの名前辞書
24.
用途
25.
用途 類似文書の検索
26.
おさらい ちょっとだけ物足りない機能 閲覧中のモノと関連した動画の紹
介
27.
28.
もっと似ているもの щ( ゚ д
゚ щ) プリーズ
29.
類似文書を検索出来れば…
30.
類似文書を検索出来れば… 閲覧中の動画と類似の動画も検索可
能! || 関連動画
31.
デモ
32.
デモ … は危険なので割合させて頂きます(汗
33.
分かりやすい類似検索の例
34.
分かりやすい類似検索の例 • 検索ワード「 JK
」 • 検索ワード「ナー – JK ス」 – 女子高生 – ナース – 女子校生 – 看護婦 – 女子●生 – 看護師 – 白衣の天使 – 看護学生
35.
類似文書の検索 • 精度を出すには超高次元での空間イン
デックスが必要( R-Tress や SR- Tree ) • 高次元にするほど精度が高くなる • 高次元にするほどパフォーマンスが悪 化する(次元の呪い)
36.
類似文書の検索 • LSH(Locality Sensitive
Hashing) に代表 される「近似型」のインデックスを用 いることでパフォーマンスの問題を改 善する事ができる
37.
Luigi
38.
類似
39.
Luigi とは • Perl
で書かれた類似検索エンジン。 • 近似型のインデックスを使っています 。 • そこそこ精度がよく高速に動作します 。 実験的なコードなので CPAN にはアップされていません GitHub: https://github.com/miki/Luigi
40.
最後に 今回の発表内容を実装した サービスの紹介をさせて頂きます
41.
けしからん動画を快適に見よう! morolicious http://morolicio.us/
42.
β 版ですが、稼働しているの
で
43.
息抜きの時にでも 使って頂けたら光栄です
44.
第
八 ヌ 発 注 キ過、
45.
ご清聴ありがとうございまし
た
46.
ちなみにサービス名
47.
mojolicious Wikipedia より
Web アプリケーションフレームワーク Catalyst の作者であるセ バスチャン・リーデルによって書かれたリアルタイム Web アプ リケーションフレームワーク。
48.
サービスの対象者 ” おとな”
49.
おとな + mojolicious
50.
おとな + mojolicious
= morolicious
51.
けしからん動画を快適に見よう! morolicious http://morolicio.us/
@morolicio_us
Editor's Notes
嗜好 = しこう
嗜好 = しこう
説明はしないで 類似検索を実現するために使っているライブラリです。
Download now