SlideShare a Scribd company logo
文献データベース
を使ったトレンド
ワード提示実験
2018年9月1日
CODE4LIB JAPAN カンファレンス 2018
東京大学・前田朗
時系列で登録文献を追えば、
トレンドワードが出せるかも?
●図書館リソースを使おう!
●リアルタイム性が低いであろうこと
は、ひとまず気にしない
●面白い結果がでればよし
雑誌記事索引を使おう!
●国立国会図書館がOAI-PHMで提供
●http://iss.ndl.go.jp/information/api/oai-pmh_info/
●OAI-PMHなら日付指定でデータをとれる
●OAI-PMHのクライアントは自作
●データ取得はPerl
●XMLからタイトル情報の取得は、Pytonの
Beautifulesoup
●OAI-PMHの既存プログラムを使えるようにする
より、自作のほうが話がはやい
5週間分を週単位で使う
取得期間 件数
2018/07/18-2018/07/24 190646
2018/07/25-2018/07/30 21887
2018/08/01-2018/07/07 10136
2018/08/08-2018/08/14 8525
2018/08/15-2018/07/21 24235
専門用語自動抽出システム
Python版TermExtractに決めた!
● テキストから専門用語とその重要度を提示
● いくつかの重要度を組み合わせて使える
○ TF (Term Frequency)
○ Frequencey
○ IDF
○ LR
● 自分が開発担当という身も蓋もない選定理由が...
http://gensen.dl.itc.u-tokyo.ac.jp/pytermextract/
言選Web
(専門用語自動抽出システムのWeアプリ版)
自然言語処理(しぜんげんごしょり、英語: natural language processing、略称:NLP)は、人間
が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言
語学の一分野である。「計算言語学」(computational linguistics)との類似もあるが、自然言語
処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視す
る手法をさす事が多い[1]。データベース内の情報を自然言語に変換したり、自然言語の文章を
より形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。応用例と
しては予測変換、IMEなどの文字変換が挙げられる。
自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、
自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解
析手法(統計や確率など)が広められた為、パーサ(統語解析器)などが一段と精度や速度が上
がり、その意味合いは違ってきている。もともと自然言語の意味論的側面を全く無視して達成で
きることは非常に限られている。このため、自然言語処理には形態素解析と構文解析、文脈解
析、意味解析などをSyntaxなど表層的な観点から解析をする学問であるが、自然言語理解は、
意味をどのように理解するかという個々人の理解と推論部分が主な研究の課題になってきてお
り、両者の境界は意思や意図が含まれるかどうかになってきている。
https://ja.wikipedia.org/wiki/自然言語処理 から抜粋
DFとIDF
● DF (Document Frequency)
○ 用語を含むドキュメント数 / 総ドキュメント数
○ たとえば、「犬」という語が5ドキュメント中の3ドキュメント
にでてくるのであれば、 ⅗ になる
○ ドキュメント中の特徴的な語ほど数値が小さくなる
● IDF (Inverted Document Frequency)
○ DFの逆数
○ たとえば、DFが ⅗ なら、IDFは 5/3
○ ドキュメント中の特徴的な語ほど数値が大きくなる
IDFが今回のメインの指標
IDF
リアルタイム検知基盤 5.0
動的負荷分散機能 5.0
磁性体ナノ構造 5.0
界面垂直磁気 5.0
ダブルクラッドBi添加石英光ファイバ 5.0
利得特性 5.0
FEAL 5.0
ビットスライス実装 5.0
バイトスライス実装 5.0
付け 5.0
集積導波路形半導体薄膜DFBレーザ 5.0
sモノリシック集積型シリコン光変調器 5.0
カラー映像 5.0
※2018/8/8-2018/8/14 のデータからの結果
ドキュメント総数が多いと細かい重要度ランキングは厳しい
ドキュメント中の用語出現
頻度を加味してみる
● TF (Term Frequency)
○ 複合語中の語もカウント
○ たとえば、「図書館」と「公共図書館」が1回
づつ含まれるときに、「図書館」のTFを2とカ
ウントする
● Frequency
○ 複合語中の語はカウントしない
メジャーな TFIDF (TFとIDFのか
け合わせ)でためしてみる
TFIDF
者 490.0
研究 489.0
性 436.0
教育 414.0
of 395.0
日本 335.0
化 332.0
地域 264.0
法 260.0
会 246.0
社会 228.0
報告 215.0
タキイ 205.0
※2018/8/8-2018/8/14 のデータからの結果
ありきたりな語ばかりで、これはちょっと…
用語の連接情報(LR)を使う
図書館
情報
システム
管理
開発
人材
複合的な概念に使われる語とそれを含む複合語ほど、
重要度が高くなる
FLRIDF (Fequency × LR × IDF)
研究 36775.46872576881
日本 11076.069338894551
教育 11039.060829617707
人 6315.783403505855
地域 5529.479360663172
開発 5386.650164991226
社会 4603.838398553972
可能性 4147.825405415286
国際関連情報 4099.629431532681
平成 3244.3470837751006
学校 3141.060967252944
力 3045.488466568212
※2018/8/8-2018/8/14 のデータからの結果
Frequencyの影響が大きいか?
LRIDF (LR × IDF)
研究者等 739.3607994530884
教育消費者 627.6838055668969
支援者支援学 607.7753637962398
教育支援事業 599.6933079502791
社会科教育 591.4665950343987
数学教育学研究 589.439202619568
情報法 504.3245700707695
制御性 475.7789986140733
比較研究者 470.45576447665206
数学化 458.23054965287986
機能研究 448.47859812635
環境教育講演会 446.4600691944748
※2018/8/8-2018/8/14 のデータからの結果
このくらいが、そこそこ面白そう!
そこそこ、よくできました!
まとめ
● せっかくの図書館リソースを使おう!
● 専門用語自動抽出システム(言選Web
やTermextractほか)を使おう!
● 結果を気にせずためしてみよう!
おまけ
いろいろとパラメータ調整してみた
FLRIDF ver 2
研究 7310460.0
教育 2538768.0
日本 739032.0
者 548744.0
社会 481712.0
地域 443118.0
性 414072.0
可能性 351111.3386491527
人 326960.0
支援 294872.0
化 292160.0
指導 255328.0
開発 241800.0
FLRIDF ver3
者 2.0723197371374564e+25
教育 1.9867815964387044e+25
研究 1.7825290331377898e+25
性 9.392351096371422e+24
研究者 1.602260248999327e+24
教育研究 3.994081137863513e+23
化 1.4538949854085764e+23
指導者 5.8708606848005394e+22
支援者 4.554914406901245e+22
学習者 3.783403615609319e+22
研究会 3.3823198305769885e+22
技術者 2.214815383866987e+22
事業者 1.8535029269069891e+22
経営者 1.7420281114802677e+22
LRIDF ver 4
研究 288880137360.0
教育 134277978288.0
者 43017139648.0
性 28575936864.0
研究者 9293214815.999998
化 7759769600.0
社会 5273782976.0
教育研究 4180081512.0
指導者 3752938608.0
会 3344021415.0
日本 3290170464.0
学習者 3148065935.9999995

More Related Content

Similar to 文献データベースを使ったトレンドワード提示実験

機関リポジトリ収録文献のビジビリティ向上
機関リポジトリ収録文献のビジビリティ向上機関リポジトリ収録文献のビジビリティ向上
機関リポジトリ収録文献のビジビリティ向上
Yuji Nonaka
 
Wacode5thでのpython講義資料
Wacode5thでのpython講義資料Wacode5thでのpython講義資料
Wacode5thでのpython講義資料
丈 宮本
 
第2回名古屋SoftLayer勉強会 PBOX on SoftLayer
第2回名古屋SoftLayer勉強会 PBOX on SoftLayer第2回名古屋SoftLayer勉強会 PBOX on SoftLayer
第2回名古屋SoftLayer勉強会 PBOX on SoftLayer
Shuichi Yukimoto
 
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Drupalを活用した Linked Open Dataの実践的試行環境の構築Drupalを活用した Linked Open Dataの実践的試行環境の構築
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Takanori Hayashi
 
SoftLayerオブジェクトストレージと連携サービスPBOXについて
SoftLayerオブジェクトストレージと連携サービスPBOXについてSoftLayerオブジェクトストレージと連携サービスPBOXについて
SoftLayerオブジェクトストレージと連携サービスPBOXについてShuichi Yukimoto
 
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
Yasushi Hara
 
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Eric Sartre
 
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
「ふわっと関連検索」 CiNii APIを使ったアプリケーション「ふわっと関連検索」 CiNii APIを使ったアプリケーション
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
Masao Takaku
 
本気でPythonで宛名書きした話
本気でPythonで宛名書きした話本気でPythonで宛名書きした話
本気でPythonで宛名書きした話
Satoshi Yamada
 
弁理士が知っておきたいPython①
弁理士が知っておきたいPython①弁理士が知っておきたいPython①
弁理士が知っておきたいPython①
Tajima Ryosuke
 

Similar to 文献データベースを使ったトレンドワード提示実験 (10)

機関リポジトリ収録文献のビジビリティ向上
機関リポジトリ収録文献のビジビリティ向上機関リポジトリ収録文献のビジビリティ向上
機関リポジトリ収録文献のビジビリティ向上
 
Wacode5thでのpython講義資料
Wacode5thでのpython講義資料Wacode5thでのpython講義資料
Wacode5thでのpython講義資料
 
第2回名古屋SoftLayer勉強会 PBOX on SoftLayer
第2回名古屋SoftLayer勉強会 PBOX on SoftLayer第2回名古屋SoftLayer勉強会 PBOX on SoftLayer
第2回名古屋SoftLayer勉強会 PBOX on SoftLayer
 
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Drupalを活用した Linked Open Dataの実践的試行環境の構築Drupalを活用した Linked Open Dataの実践的試行環境の構築
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
 
SoftLayerオブジェクトストレージと連携サービスPBOXについて
SoftLayerオブジェクトストレージと連携サービスPBOXについてSoftLayerオブジェクトストレージと連携サービスPBOXについて
SoftLayerオブジェクトストレージと連携サービスPBOXについて
 
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
 
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発
 
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
「ふわっと関連検索」 CiNii APIを使ったアプリケーション「ふわっと関連検索」 CiNii APIを使ったアプリケーション
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
 
本気でPythonで宛名書きした話
本気でPythonで宛名書きした話本気でPythonで宛名書きした話
本気でPythonで宛名書きした話
 
弁理士が知っておきたいPython①
弁理士が知っておきたいPython①弁理士が知っておきたいPython①
弁理士が知っておきたいPython①
 

Recently uploaded

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
azuma satoshi
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
osamut
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 

Recently uploaded (7)

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 

文献データベースを使ったトレンドワード提示実験