Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Wataru ONO
PPTX, PDF
2,476 views
検索と自然言語処理
予備知識のない方にとりあえず現状をざっくり理解いただければよいかと思いましたので、あまり深くはつっこんでいません。
Read more
3
Save
Share
Embed
Embed presentation
Download
Downloaded 12 times
1
/ 16
2
/ 16
3
/ 16
4
/ 16
5
/ 16
6
/ 16
7
/ 16
8
/ 16
9
/ 16
10
/ 16
11
/ 16
12
/ 16
13
/ 16
14
/ 16
15
/ 16
16
/ 16
More Related Content
PPTX
情報アクセス技術のためのテストコレクション作成
by
kt.mako
PPTX
自然言語処理における機械学習による曖昧性解消入門
by
Koji Sekiguchi
PDF
機能シラバスに基づいた英語教育プログラムにおける発話自動採点システム導入可能性の検討
by
早稲田大学
PDF
普通名詞換言辞書の構築
by
長岡技術科学大学 自然言語処理研究室
PDF
110623 mophology 04_slides
by
Tomonari Kuroda
PDF
機械学習を用いたニ格深層格の自動付与の検討
by
長岡技術科学大学 自然言語処理研究室
PDF
大規模常識知識ベース構築のための常識表現の自動獲得
by
長岡技術科学大学 自然言語処理研究室
PPTX
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
by
Tatsuya Coike
情報アクセス技術のためのテストコレクション作成
by
kt.mako
自然言語処理における機械学習による曖昧性解消入門
by
Koji Sekiguchi
機能シラバスに基づいた英語教育プログラムにおける発話自動採点システム導入可能性の検討
by
早稲田大学
普通名詞換言辞書の構築
by
長岡技術科学大学 自然言語処理研究室
110623 mophology 04_slides
by
Tomonari Kuroda
機械学習を用いたニ格深層格の自動付与の検討
by
長岡技術科学大学 自然言語処理研究室
大規模常識知識ベース構築のための常識表現の自動獲得
by
長岡技術科学大学 自然言語処理研究室
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
by
Tatsuya Coike
Viewers also liked
PDF
日本企業における外国人への日本語教育
by
Kei Koike
PDF
Ngữ pháp trong tiếng Nhật 1 - 2
by
Japanese Club
PDF
Ngữ pháp trong tiếng Nhật 8 - 9
by
Japanese Club
PDF
国語辞典を使った放送ニュースの名詞の平易化
by
Kodaira Tomonori
PDF
「やさしい日本語」変換システムの試作
by
長岡技術科学大学 自然言語処理研究室
PPT
Абрамов Н.Н.
by
cpii33
PDF
研究
by
K_Makise
PPTX
Aizu.LT::Tokyo #2
by
Taku Unno
PDF
sigfpai2009_okanohara
by
Hiroshi Ono
PDF
複数の客観的手法を用いたテキスト含意認識評価セットの構築
by
長岡技術科学大学 自然言語処理研究室
PPTX
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
by
Kyoshiro Sugiyama
PPTX
認知科学会サマースクール2015・人工知能と言語機能
by
Naoya Arakawa
PDF
質疑応答
by
武 河野
PPTX
正規表現入門
by
thinca
PPTX
#reco_tech Cloud searchでレコチョク検索の実現に向けて
by
recotech
PDF
Qaシステム解説
by
yayamamo @ DBCLS Kashiwanoha
PPTX
言語処理のための仮説推論エンジン Phillip
by
Kazeto Yamamoto
PPTX
会話型ロボットを作った話
by
Kasai Nobuhiro
PDF
黒い目の大きな女の子:構文から意味へ
by
Hiroshi Nakagawa
PDF
はじめてのAIプログラミング 5章: 知識表現
by
nkazuki
日本企業における外国人への日本語教育
by
Kei Koike
Ngữ pháp trong tiếng Nhật 1 - 2
by
Japanese Club
Ngữ pháp trong tiếng Nhật 8 - 9
by
Japanese Club
国語辞典を使った放送ニュースの名詞の平易化
by
Kodaira Tomonori
「やさしい日本語」変換システムの試作
by
長岡技術科学大学 自然言語処理研究室
Абрамов Н.Н.
by
cpii33
研究
by
K_Makise
Aizu.LT::Tokyo #2
by
Taku Unno
sigfpai2009_okanohara
by
Hiroshi Ono
複数の客観的手法を用いたテキスト含意認識評価セットの構築
by
長岡技術科学大学 自然言語処理研究室
JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響
by
Kyoshiro Sugiyama
認知科学会サマースクール2015・人工知能と言語機能
by
Naoya Arakawa
質疑応答
by
武 河野
正規表現入門
by
thinca
#reco_tech Cloud searchでレコチョク検索の実現に向けて
by
recotech
Qaシステム解説
by
yayamamo @ DBCLS Kashiwanoha
言語処理のための仮説推論エンジン Phillip
by
Kazeto Yamamoto
会話型ロボットを作った話
by
Kasai Nobuhiro
黒い目の大きな女の子:構文から意味へ
by
Hiroshi Nakagawa
はじめてのAIプログラミング 5章: 知識表現
by
nkazuki
More from Wataru ONO
PDF
これからの電子リソース基盤を考える
by
Wataru ONO
PPTX
大学図書館デジタル・アーカイブ課題(小野)
by
Wataru ONO
PPTX
電子リソース共有の課題(小野)
by
Wataru ONO
PPTX
NACSIS-CAT/ILLのない世界
by
Wataru ONO
PPTX
某所で実演したCiNii紹介サンプルスライド
by
Wataru ONO
PPTX
検索のコモディティ化と大学図書館
by
Wataru ONO
PPTX
ディスカバリー・ツールとは?
by
Wataru ONO
PPTX
リンクリゾルバの仕組み
by
Wataru ONO
PPTX
電子リソース、一橋で何を買う
by
Wataru ONO
PDF
電子リソースキーワードマップ
by
Wataru ONO
PPT
DiscoverService/ERMS/ILL概念図
by
Wataru ONO
PPT
Hito lib
by
Wataru ONO
PDF
学術情報の再構築課題
by
Wataru ONO
PPT
マジカ!で業務分析
by
Wataru ONO
PPT
マジカ貸出
by
Wataru ONO
PPT
マジカ予約
by
Wataru ONO
PPT
要求分析20080824t
by
Wataru ONO
これからの電子リソース基盤を考える
by
Wataru ONO
大学図書館デジタル・アーカイブ課題(小野)
by
Wataru ONO
電子リソース共有の課題(小野)
by
Wataru ONO
NACSIS-CAT/ILLのない世界
by
Wataru ONO
某所で実演したCiNii紹介サンプルスライド
by
Wataru ONO
検索のコモディティ化と大学図書館
by
Wataru ONO
ディスカバリー・ツールとは?
by
Wataru ONO
リンクリゾルバの仕組み
by
Wataru ONO
電子リソース、一橋で何を買う
by
Wataru ONO
電子リソースキーワードマップ
by
Wataru ONO
DiscoverService/ERMS/ILL概念図
by
Wataru ONO
Hito lib
by
Wataru ONO
学術情報の再構築課題
by
Wataru ONO
マジカ!で業務分析
by
Wataru ONO
マジカ貸出
by
Wataru ONO
マジカ予約
by
Wataru ONO
要求分析20080824t
by
Wataru ONO
検索と自然言語処理
1.
検索と自然言語処理 のキソのキソ 一橋大学附属図書館 小野 亘
2.
SearchからDiscoveryへ • データの規模が大きくなると、検索した 結果の評価が難しくなる – 普通に検索しただけでは膨大な検索結果にな る。 –
従来の適合率、再現率だけでは評価できない • 検索結果に何らかの「評価」を加えて、 そこから必要なものを「発見」する必要 がある • 分析、組織化、パーソナライズ、レコメン ド・・・ 参考 『Search Discovery & Analytics』が 提唱する企業でのビッグデータ
3.
ディスカバリと検索技術 • 分析、組織化 – 関連度、重要度、利用度、出現頻度、ファ セット、クラスタリング、トピック(キー ワード)抽出など •
パーソナライズ – 属性によるフィルタリングなど • レコメンド(レコメンデーション:推 薦) – 関連するもの、もしかして・・・、協調フィ ルタリング、利用履歴、提供側による重み付
4.
問題1 • [経済×近代]というキーワード検索をし たとして、次の検索結果をキーワードと の関連度で並べ直してください。 ① 近代経済学と近代 ②
近代経済学と経済学の近代 ③ 近代経済学と経済
5.
「近代」と「経済」の単語数でプ ロット近 代 経済 ① 近代経済学と近代 ② 近代経済学と経済学の近代 ③
近代経済学と経済 キーワード: 近代×経済 ① ② ③
6.
答え • このグラフを単純に見れば、 – ② –
①③ という順番に関連していることがパッと見て分 かります。
7.
ベクトル空間モデル • これは単語が2つ(=2次元)で、結果が 3種類(ベクトルが3本)ですが、単語も 増えて、結果が膨大になれば、コン ピュータに計算させるしかありません。 ・このグラフをn次元のベクトルと見立て て、ベクトル間の近さを計算するのが 「コサイン類似度」
8.
その他類似度のアルゴリズムな ど • レーベンシュタイン距離 – 二つの文字列がどの程度異なっているかを示 す数値 •
機械学習 – 確率論的 – 分類などなど • GETA(連想検索エンジン) – このツールを使うと、比較的簡単に文書と文 書の関連が分かる。
9.
類似度の応用 • 先ほどの例では、キーワードと検索結果の類 似度を使うと検索結果の並べ替えができた。 • ある本とその他の本の類似度を調べれば、あ る本に関連する本(似たような本)を関連す る順にピックアップできます(単純なレコメ ンド)。 •
類似度によって関連するまとまり(クラスタ =葡萄の房)を自動的に抽出することもでき ます(クラスタリング)。 • 「もしかして」=キーワードのサジェストも これの応用
10.
問題2 • 「近代経済学は、「限界革命」以降の経 済学体系のうち、マルクス経済学以外の ものの総称であり、ミクロ経済学とマク ロ経済学に大別される。」 からキーワードを抽出してください。
11.
Nグラム法 • ひたすらn字づつキーワードに切ってい く – 2グラム(bigram)なら:近代
代経 経済 済学 学は 、「 限界 界革 革命 」 以降 降の の経 経済 済学 学体 体系 系の のう うち 、マル ルク ク ス ス経 経済 済学 学以 以外 外の のも もの のの の総 総称 称で であ あり 、 ミク ロ経 経済 済学 学と マク クロ ロ経 経済 済学 学に に大 大別 別さ され れる。
12.
日本語形態素解析を使ってみる "近代":名詞,一般 "経済":名詞,一般 "学":名詞,接尾,一般, "は":助詞,係助詞 "、":記号,読点 "「":記号,括弧開 "限界":名詞,一般 "革命":名詞,一般 "」":記号,括弧閉 "以降":名詞,副詞可能 "の":助詞,連体化 "経済":名詞,一般 "学":名詞,接尾,一般, "体系":名詞,一般 "の":助詞,連体化 "うち":名詞,非自立,副詞可能, "、":記号,読点 "マルクス":名詞,固有名詞,人名,姓, "経済":名詞,一般 "学":名詞,接尾,一般, "以外":名詞,非自立,副詞可能, "の":助詞,連体化 "もの":名詞,非自立,一般, “の”:助詞,連体化 "総称":名詞,サ変接続 "で":助動詞, "あり":助動詞, "、":記号,読点 "ミクロ":名詞,一般 "経済":名詞,一般 "学":名詞,接尾,一般, "と":助詞,並立助詞 "マクロ":名詞,一般 "経済":名詞,一般 "学":名詞,接尾,一般, "に":助詞,格助詞,一般, "大別":名詞,サ変接続 "さ":動詞,自立, "れる":動詞,接尾, "。":記号,句点
13.
助詞、助動詞、記号を削除 "近代":名詞,一般 "経済":名詞,一般 "学":名詞,接尾,一般, "限界":名詞,一般 “革命”:名詞,一般 “以降”:名詞,副詞可能 "経済":名詞,一般 "学":名詞,接尾,一般, “体系”:名詞,一般 "うち":名詞,非自立,副詞可能, "マルクス":名詞,固有名詞,人名,姓, "経済":名詞,一般 "学":名詞,接尾,一般, "以外":名詞,非自立,副詞可能, "もの":名詞,非自立,一般, “総称”:名詞,サ変接続 "ミクロ":名詞,一般 "経済":名詞,一般 "学":名詞,接尾,一般, "マクロ":名詞,一般 "経済":名詞,一般 "学":名詞,接尾,一般, "大別":名詞,サ変接続 "さ":動詞,自立, "れる":動詞,接尾,
14.
さらに重要単語を抽出 • 単語の出現回数を数える – たくさんあれば重要? •
共起頻度を数える – いろんな文書を調べると「経済」と「近代」はか なりの頻度で一緒に現れるので関係が深いに違い ない • tf-idf法 – その文書(フレーズ)の中での単語の出現回数 (tf)を計算して、これに多くの文書に出現する ような一般的な単語を除外(idf)する。
15.
もう少し単語の意味を・・・ • 複合語の処理 – 近接度、共起頻度 •
係り受け解析 – 構文解析 • 活用語尾の処理 – 語幹の抽出 – ステミング、レマタイズ
16.
レコメンド • 『近代経済学入門』の読者に次の本を推薦す るには? ① 書名が同じか似ている本をとりあえず推薦する ②
同じ本を借りた別の人が借りた本の中から貸出 回数が多い本を推薦する • 貸出回数以外の指標があればなおよい – クリック回数、タグやレビューがついた数、いいね!の 数など ③ ②の結果から、その人の属性や、状況(=空気 を読む)が分かれば、それで絞る ④ 目次や抄録、内容紹介文があれば、それらの似 たものを推薦(類似度の応用) ⑤ この本を読んだら次に読む確率が高い本を推薦 する(機械学習の応用)
Download