文献データベース
を使ったトレンド
ワード提示実験
2018年9月1日
CODE4LIB JAPAN カンファレンス 2018
東京大学・前田朗
時系列で登録文献を追えば、
トレンドワードが出せるかも?
●図書館リソースを使おう!
●リアルタイム性が低いであろうこと
は、ひとまず気にしない
●面白い結果がでればよし
雑誌記事索引を使おう!
●国立国会図書館がOAI-PHMで提供
●http://iss.ndl.go.jp/information/api/oai-pmh_info/
●OAI-PMHなら日付指定でデータをとれる
●OAI-PMHのクライアントは自作
●データ取得はPerl
●XMLからタイトル情報の取得は、Pytonの
Beautifulesoup
●OAI-PMHの既存プログラムを使えるようにする
より、自作のほうが話がはやい
5週間分を週単位で使う
取得期間 件数
2018/07/18-2018/07/24 190646
2018/07/25-2018/07/30 21887
2018/08/01-2018/07/07 10136
2018/08/08-2018/08/14 8525
2018/08/15-2018/07/21 24235
専門用語自動抽出システム
Python版TermExtractに決めた!
● テキストから専門用語とその重要度を提示
● いくつかの重要度を組み合わせて使える
○ TF (Term Frequency)
○ Frequencey
○ IDF
○ LR
● 自分が開発担当という身も蓋もない選定理由が...
http://gensen.dl.itc.u-tokyo.ac.jp/pytermextract/
言選Web
(専門用語自動抽出システムのWeアプリ版)
自然言語処理(しぜんげんごしょり、英語: natural language processing、略称:NLP)は、人間
が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言
語学の一分野である。「計算言語学」(computational linguistics)との類似もあるが、自然言語
処理は工学的な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視す
る手法をさす事が多い[1]。データベース内の情報を自然言語に変換したり、自然言語の文章を
より形式的な(コンピュータが理解しやすい)表現に変換するといった処理が含まれる。応用例と
しては予測変換、IMEなどの文字変換が挙げられる。
自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、
自然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解
析手法(統計や確率など)が広められた為、パーサ(統語解析器)などが一段と精度や速度が上
がり、その意味合いは違ってきている。もともと自然言語の意味論的側面を全く無視して達成で
きることは非常に限られている。このため、自然言語処理には形態素解析と構文解析、文脈解
析、意味解析などをSyntaxなど表層的な観点から解析をする学問であるが、自然言語理解は、
意味をどのように理解するかという個々人の理解と推論部分が主な研究の課題になってきてお
り、両者の境界は意思や意図が含まれるかどうかになってきている。
https://ja.wikipedia.org/wiki/自然言語処理 から抜粋
DFとIDF
● DF (Document Frequency)
○ 用語を含むドキュメント数 / 総ドキュメント数
○ たとえば、「犬」という語が5ドキュメント中の3ドキュメント
にでてくるのであれば、 ⅗ になる
○ ドキュメント中の特徴的な語ほど数値が小さくなる
● IDF (Inverted Document Frequency)
○ DFの逆数
○ たとえば、DFが ⅗ なら、IDFは 5/3
○ ドキュメント中の特徴的な語ほど数値が大きくなる
IDFが今回のメインの指標
IDF
リアルタイム検知基盤 5.0
動的負荷分散機能 5.0
磁性体ナノ構造 5.0
界面垂直磁気 5.0
ダブルクラッドBi添加石英光ファイバ 5.0
利得特性 5.0
FEAL 5.0
ビットスライス実装 5.0
バイトスライス実装 5.0
付け 5.0
集積導波路形半導体薄膜DFBレーザ 5.0
sモノリシック集積型シリコン光変調器 5.0
カラー映像 5.0
※2018/8/8-2018/8/14 のデータからの結果
ドキュメント総数が多いと細かい重要度ランキングは厳しい
ドキュメント中の用語出現
頻度を加味してみる
● TF (Term Frequency)
○ 複合語中の語もカウント
○ たとえば、「図書館」と「公共図書館」が1回
づつ含まれるときに、「図書館」のTFを2とカ
ウントする
● Frequency
○ 複合語中の語はカウントしない
メジャーな TFIDF (TFとIDFのか
け合わせ)でためしてみる
TFIDF
者 490.0
研究 489.0
性 436.0
教育 414.0
of 395.0
日本 335.0
化 332.0
地域 264.0
法 260.0
会 246.0
社会 228.0
報告 215.0
タキイ 205.0
※2018/8/8-2018/8/14 のデータからの結果
ありきたりな語ばかりで、これはちょっと…
用語の連接情報(LR)を使う
図書館
情報
システム
管理
開発
人材
複合的な概念に使われる語とそれを含む複合語ほど、
重要度が高くなる
FLRIDF (Fequency × LR × IDF)
研究 36775.46872576881
日本 11076.069338894551
教育 11039.060829617707
人 6315.783403505855
地域 5529.479360663172
開発 5386.650164991226
社会 4603.838398553972
可能性 4147.825405415286
国際関連情報 4099.629431532681
平成 3244.3470837751006
学校 3141.060967252944
力 3045.488466568212
※2018/8/8-2018/8/14 のデータからの結果
Frequencyの影響が大きいか?
LRIDF (LR × IDF)
研究者等 739.3607994530884
教育消費者 627.6838055668969
支援者支援学 607.7753637962398
教育支援事業 599.6933079502791
社会科教育 591.4665950343987
数学教育学研究 589.439202619568
情報法 504.3245700707695
制御性 475.7789986140733
比較研究者 470.45576447665206
数学化 458.23054965287986
機能研究 448.47859812635
環境教育講演会 446.4600691944748
※2018/8/8-2018/8/14 のデータからの結果
このくらいが、そこそこ面白そう!
そこそこ、よくできました!
まとめ
● せっかくの図書館リソースを使おう!
● 専門用語自動抽出システム(言選Web
やTermextractほか)を使おう!
● 結果を気にせずためしてみよう!
おまけ
いろいろとパラメータ調整してみた
FLRIDF ver 2
研究 7310460.0
教育 2538768.0
日本 739032.0
者 548744.0
社会 481712.0
地域 443118.0
性 414072.0
可能性 351111.3386491527
人 326960.0
支援 294872.0
化 292160.0
指導 255328.0
開発 241800.0
FLRIDF ver3
者 2.0723197371374564e+25
教育 1.9867815964387044e+25
研究 1.7825290331377898e+25
性 9.392351096371422e+24
研究者 1.602260248999327e+24
教育研究 3.994081137863513e+23
化 1.4538949854085764e+23
指導者 5.8708606848005394e+22
支援者 4.554914406901245e+22
学習者 3.783403615609319e+22
研究会 3.3823198305769885e+22
技術者 2.214815383866987e+22
事業者 1.8535029269069891e+22
経営者 1.7420281114802677e+22
LRIDF ver 4
研究 288880137360.0
教育 134277978288.0
者 43017139648.0
性 28575936864.0
研究者 9293214815.999998
化 7759769600.0
社会 5273782976.0
教育研究 4180081512.0
指導者 3752938608.0
会 3344021415.0
日本 3290170464.0
学習者 3148065935.9999995

文献データベースを使ったトレンドワード提示実験