Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
平成25年2月8日マイニング探検会・前田朗
今回は用語の2次元マッピングの話           ここらへんで                     うっすらと…図書館総合展のマイニング探検会ポスターにも使ってました
1.目的と暫定結果
大学の学部・研究科図書館室と所蔵学位論文マイニング ユーザー研究分野に沿った図書館蔵書選定 学部・研究科の学位論文のタイトルの利用 東京大学柏図書館は、東京大学新領域創成 科学研究科(大学院)の学生のための図書 館として性格あり東京大学柏...
付随の目的 職場の若手職員のスキル向上  テキストマイニングであればソフトウエアの操作で済む  プログラミングよりは敷居が低いかもしれない  まだそのための準備中 「言選Web」プロジェクトのため  ユーザサポートのための知識習得 ...
学位論文データの利用 学部の情報のひとつ  学部Webサイト  シラバス  学位論文  あと何が?? データ利用の問題をクリアしやすい  一般公開データ  図書館でデータを保持
東京大学柏図書館所蔵・新領域創成科学研究科学位論文論題データベース                             東京大学柏図書館                             所蔵の新領域創成科             ...
暫定結果       東京大学柏       図書館所蔵の       新領域創成科       学研究科(大       学院)の学位       論文タイトル       多次元尺度       構成法(用語       間の距離をみ ...
暫定結果       東京大学柏図       書館所蔵の新領       域創成科学研究       科(大学院)の       学位論文タイト       ル       共起ネット       ワーク(線で関       係をみる) ...
なぜ用語の関連か? 学部内で特定の用語がよく使われている  ことは統計で調べやすい しかし、図書を選ぶときには「どの用語  との組で使われているか」が重要 たとえば、「電気」が頻出→ 「電気自動車」? それとも「電気業界」?
たとえば、以前の調査でも… (1)東京大学新領域Webサイトと東京大学柏図書館蔵書比較        産業         不足テーマ?   科学             物質              電気                  ...
たとえば、以前の調査でも… (2)バランスの悪い主題についての考察 心理学   学生からのリクエストが多いことによる 電気   電気自動車? より詳細な評価が必要 物質   同キャンパスに物性研究所図書室があるため購読を控    え...
なぜ用語の関連か? ~おまけ~       ここらへんはだいたい調査ずみ 学部Webサイトと図書館蔵書の相関 学内図書館室の所蔵の共起を使った図書館室のポジション調査次のチャレンジとして別テーマを
とりあえずの課題 新しい研究テーマには不向きかも   過去の研究に依存   あまり関係のない用語(テーマ)同士の組み合わせが    はじかれる とりあえずの結果は出たが…   用語の関連についての評価はまだ 条件を変えたときを試せて...
2.楽してテキストマイニング ~ツールの使い方と結果~
フリーで楽に使えるテキストマイニングツール類 「コーパスとテキストマイニング」(共立出版 2012)で紹介されているツール  KH Coder  MTMineR  RMeCab  TinyTextMiner 「言選Web」で開発した...
2.1 KH Coder と 「言選Web」
入力データ(学位論文タイトル)抜粋日本映像コンテンツ産業への…映画制作における…分子被覆導線の構造と…超臨界流体雰囲気を含む高圧環境下…ペロブスカイト型酸化物を用いた…    1行につき、                    ひとつの学位論低...
KHCoder 学位論文タイトルリストを1行1タイトルの改行区切りで作成 上部メニュー「プロジェクト」→「新規」  処理テキストを選択 上部メニュー「前処理」→「分析対象ファイルのチェック」→「前  処理の実行」 上部メニュー「ツール...
多次元尺度構成法(用語は形態素)
共起ネットワーク(用語は形態素)
さきの用語は形態素でしたが… 言選Web開発担当としては、用語に形  態素ではなく専門用語を使いたい! そこでKH Coderでもう一工夫 用語切り出し用の辞書に言選Webの専  門用語を登録することで、専門用語  で結果を出せます
KHCoderで「言選Web」用語抽出 上部メニュー「前処        機能解析      1008.431 理」→「複合語の検         伝導体                   酸化物                      ...
KH Coderの形態素辞書 単語を次の文字列でサンドイッチ(エディタで可)    [行頭] (品詞 (名詞 一般)) ((見出し語 (    [行末] 1)) (読み だみー)) KH Coderの「茶筅」辞書ディレクトリーに置く  ...
「茶筅」形態素解析辞書追加データ(抜粋) (品詞 (名詞 一般)) ((見出し語 (機能解析 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (伝導体 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (酸...
「言選Web用語」の辞書登録が終わったら       KHCoder を再度実行KHCoder  学位論文タイトルリストを1行1タイトルの改行区切りで作成  上部メニュー「プロジェクト」→「新規」   処理テキストを選択  上部メニュー...
暫定結果       東京大学柏       図書館所蔵の       新領域創成科       学研究科(大       学院)の学位       論文タイトル       多次元尺度       構成法(用語       間の距離をみ ...
暫定結果       東京大学柏図       書館所蔵の新領       域創成科学研究       科(大学院)の       学位論文タイト       ル       共起ネット       ワーク(線で関       係をみる) ...
2.2 termmiとR言語
termmiとR言語で  多次元尺度構成法 KHCoderは改行区切りレコード(1ファイル)でよかった  が、termmiはレコードごとに別ファイルにする termmiをTF*IDFモードで実行 termmi付属のtermdocument...
termmiとR言語で多次元尺度構成法 KHCoderは改行区切りレコードでよかったが、  termmiはレコードごとに別ファイルにする termmiをTF*IDFモードで実行 termmi付属のtermdocument.pl を実行 ...
termmiの用語・文書行列をR言語で多次元尺度構成法のグラフ化R言語で次のコマンドを実行 library(amap) library(maptools) gakui <- read.table("inputfile.txt", skip...
暫定結果   7文書以上出現の80語           結果は出たが、ちょっと読みにくいかも
KHCoderのR言語処理コードを参考に  termmiの結果を見やすく出力
2.3 MTMineR
MTMineR主成分分析の結果(文書のクラスタリング等いろいろ試し中)             使用する用語の選択が簡単なのがよい
おわりに 図書館業務においてテキストマイニング  でできることは、まだまだありそう KH CoderやMTMineR,などは、GUIがあ  り使い方も簡単 termmiにはグラフ作成機能が付属してな  いが、R言語と組み合わせで対応できる...
Upcoming SlideShare
Loading in …5
×

蔵書選定のための学位論文タイトルマイニング

1,268 views

Published on

  • Be the first to comment

蔵書選定のための学位論文タイトルマイニング

  1. 1. 平成25年2月8日マイニング探検会・前田朗
  2. 2. 今回は用語の2次元マッピングの話 ここらへんで うっすらと…図書館総合展のマイニング探検会ポスターにも使ってました
  3. 3. 1.目的と暫定結果
  4. 4. 大学の学部・研究科図書館室と所蔵学位論文マイニング ユーザー研究分野に沿った図書館蔵書選定 学部・研究科の学位論文のタイトルの利用 東京大学柏図書館は、東京大学新領域創成 科学研究科(大学院)の学生のための図書 館として性格あり東京大学柏図書館では、学位論文のマイニングにより 蔵書選定の質の向上を考えています
  5. 5. 付随の目的 職場の若手職員のスキル向上  テキストマイニングであればソフトウエアの操作で済む  プログラミングよりは敷居が低いかもしれない  まだそのための準備中 「言選Web」プロジェクトのため  ユーザサポートのための知識習得  システムの改善に向けての調査 現状では、まだ自己研鑽レベル、 若手と作業をする準備ができたら仕事で
  6. 6. 学位論文データの利用 学部の情報のひとつ  学部Webサイト  シラバス  学位論文  あと何が?? データ利用の問題をクリアしやすい  一般公開データ  図書館でデータを保持
  7. 7. 東京大学柏図書館所蔵・新領域創成科学研究科学位論文論題データベース 東京大学柏図書館 所蔵の新領域創成科 学研究科(大学院) の学位論文タイトル 修士論文と博士論 文約2000件 CGIによる簡易デー タベース(18年前 に前田が作成した CGIのバージョン アップ版)http://www.lib.u-tokyo.ac.jp/kashiwa/gakui/
  8. 8. 暫定結果 東京大学柏 図書館所蔵の 新領域創成科 学研究科(大 学院)の学位 論文タイトル 多次元尺度 構成法(用語 間の距離をみ る) KH Coderと 言選Webの組 み合わせ
  9. 9. 暫定結果 東京大学柏図 書館所蔵の新領 域創成科学研究 科(大学院)の 学位論文タイト ル 共起ネット ワーク(線で関 係をみる) KH Coderと言 選Webの組み合 わせ
  10. 10. なぜ用語の関連か? 学部内で特定の用語がよく使われている ことは統計で調べやすい しかし、図書を選ぶときには「どの用語 との組で使われているか」が重要 たとえば、「電気」が頻出→ 「電気自動車」? それとも「電気業界」?
  11. 11. たとえば、以前の調査でも… (1)東京大学新領域Webサイトと東京大学柏図書館蔵書比較 産業 不足テーマ? 科学 物質 電気 入門 心理学 学生リクエス ト多のため
  12. 12. たとえば、以前の調査でも… (2)バランスの悪い主題についての考察 心理学  学生からのリクエストが多いことによる 電気  電気自動車? より詳細な評価が必要 物質  同キャンパスに物性研究所図書室があるため購読を控 えている? こういったことに答えを出せるかも??
  13. 13. なぜ用語の関連か? ~おまけ~ ここらへんはだいたい調査ずみ 学部Webサイトと図書館蔵書の相関 学内図書館室の所蔵の共起を使った図書館室のポジション調査次のチャレンジとして別テーマを
  14. 14. とりあえずの課題 新しい研究テーマには不向きかも  過去の研究に依存  あまり関係のない用語(テーマ)同士の組み合わせが はじかれる とりあえずの結果は出たが…  用語の関連についての評価はまだ 条件を変えたときを試せていない  たとえば、専攻別にするとどうなるか?
  15. 15. 2.楽してテキストマイニング ~ツールの使い方と結果~
  16. 16. フリーで楽に使えるテキストマイニングツール類 「コーパスとテキストマイニング」(共立出版 2012)で紹介されているツール  KH Coder  MTMineR  RMeCab  TinyTextMiner 「言選Web」で開発したテキストマイニングツール  termmi ※青字のツールについては、学位論文マイニングに試しずみ
  17. 17. 2.1 KH Coder と 「言選Web」
  18. 18. 入力データ(学位論文タイトル)抜粋日本映像コンテンツ産業への…映画制作における…分子被覆導線の構造と…超臨界流体雰囲気を含む高圧環境下…ペロブスカイト型酸化物を用いた… 1行につき、 ひとつの学位論低次元モット絶縁体の… 文タイトル高速回転下での多重連結… (この例では、高温超伝導体における金属絶… タイトルの先頭 数文字だけ例過渡反射格子スペクトル法を… 示)帯域特化型干渉計における…高分解能光電子分光による…界面・ナノ空間領域における…
  19. 19. KHCoder 学位論文タイトルリストを1行1タイトルの改行区切りで作成 上部メニュー「プロジェクト」→「新規」  処理テキストを選択 上部メニュー「前処理」→「分析対象ファイルのチェック」→「前 処理の実行」 上部メニュー「ツール」→「抽出語」→「多次元尺度構成法」 「抽出語-多次元尺度構成法-オプション」ウインドウで次のとおり 設定  品詞→「名詞」に限定  最小出現数→ 結果を出したい用語数に合わせて調整  バブルプロット→チェック  クラスタの色分け→チェック (クラスタの数は適当に調整)
  20. 20. 多次元尺度構成法(用語は形態素)
  21. 21. 共起ネットワーク(用語は形態素)
  22. 22. さきの用語は形態素でしたが… 言選Web開発担当としては、用語に形 態素ではなく専門用語を使いたい! そこでKH Coderでもう一工夫 用語切り出し用の辞書に言選Webの専 門用語を登録することで、専門用語 で結果を出せます
  23. 23. KHCoderで「言選Web」用語抽出 上部メニュー「前処 機能解析 1008.431 理」→「複合語の検 伝導体 酸化物 390.209 379.992 出」→「TermExtratの 実験的研究 可視化 370.804 317.262 利用」 電子構造 数値解析 310.372 294.012 構造解析 274.320 「複合語の検出」ウイ 可能性 264.305 ンドウの言選Web抽 最適化 基礎的研究 256.440 247.169 出語をExcelに出力 光誘起相転移 電子状態 195.790 180.423 相互作用 179.348 用語のみとりだしテ 分子機構 安定性 178.233 178.230 キストファイルに モデル化 156.030 建築物 155.849 KH Coderには言選Webの用語抽出機能が組み込まれています
  24. 24. KH Coderの形態素辞書 単語を次の文字列でサンドイッチ(エディタで可)  [行頭] (品詞 (名詞 一般)) ((見出し語 (  [行末] 1)) (読み だみー)) KH Coderの「茶筅」辞書ディレクトリーに置く  c:khcoderdepchasendic Windowsのコマンドプロンプトで次のコマンドを実 行  Cd c:khcoderdepchasendic  ..makefile.bat KH Coderで新規プロジェクトで作り直し
  25. 25. 「茶筅」形態素解析辞書追加データ(抜粋) (品詞 (名詞 一般)) ((見出し語 (機能解析 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (伝導体 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (酸化物 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (実験的研究 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (可視化 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (電子構造 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (数値解析 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (構造解析 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (可能性 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (最適化 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (基礎的研究 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (光誘起相転移 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (電子状態 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (相互作用 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (分子機構 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (安定性 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (モデル化 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (建築物 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (構造制御 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (評価手法 1)) (読み だみー)) (品詞 (名詞 一般)) ((見出し語 (水環境 1)) (読み だみー)) 以下略….「用語の抽出さえできればよい」という割り切った辞書 データ
  26. 26. 「言選Web用語」の辞書登録が終わったら KHCoder を再度実行KHCoder  学位論文タイトルリストを1行1タイトルの改行区切りで作成  上部メニュー「プロジェクト」→「新規」  処理テキストを選択  上部メニュー「前処理」→「分析対象ファイルのチェック」→「前 処理の実行」  上部メニュー「ツール」→「抽出語」→「多次元尺度構成法」  「抽出語-多次元尺度構成法-オプション」ウインドウで次のとおり 設定  品詞→「名詞」に限定  最小出現数→ 結果を出したい用語数に合わせて調整  バブルプロット→チェック  クラスタの色分け→チェック (クラスタの数は適当に調整)
  27. 27. 暫定結果 東京大学柏 図書館所蔵の 新領域創成科 学研究科(大 学院)の学位 論文タイトル 多次元尺度 構成法(用語 間の距離をみ る) KH Coderと 言選Webの組 み合わせ
  28. 28. 暫定結果 東京大学柏図 書館所蔵の新領 域創成科学研究 科(大学院)の 学位論文タイト ル 共起ネット ワーク(線で関 係をみる) KH Coderと言 選Webの組み合 わせ
  29. 29. 2.2 termmiとR言語
  30. 30. termmiとR言語で 多次元尺度構成法 KHCoderは改行区切りレコード(1ファイル)でよかった が、termmiはレコードごとに別ファイルにする termmiをTF*IDFモードで実行 termmi付属のtermdocument.pl を実行  文書・用語行列ができる temmiの文書・用語行列をExcel等で開き、不要語を除く 多くの文書に出現している用語のみ残す(termmiは文書群 全体での重要度順のリストになっているが、それよりもdf を重視して用語を採用)
  31. 31. termmiとR言語で多次元尺度構成法 KHCoderは改行区切りレコードでよかったが、 termmiはレコードごとに別ファイルにする termmiをTF*IDFモードで実行 termmi付属のtermdocument.pl を実行  文書・用語行列ができる temmiの文書・用語行列をExcel等で開き、不要語を 除く 多くの文書に出現している用語をのみ残す(Excleの countif関数で”0”の出現数の尐ない語を選ぶなど)。 termmiは文書群全体での重要度順のリストになって いるが、それよりもdf(Document Frequency)を重視 して用語を採用するほうがよさそう。
  32. 32. termmiの用語・文書行列をR言語で多次元尺度構成法のグラフ化R言語で次のコマンドを実行 library(amap) library(maptools) gakui <- read.table("inputfile.txt", skip=1, sep=“t”, row.names=1); d <- dist(gakui, method="pearson") result <- cmdscale(d, k = 2) par(ps = 8) plot(result, pch=20) pointLabel(result,labels=rownames(result)) R言語に amap,maptools パッケージを事前に追加しておく必要あり
  33. 33. 暫定結果 7文書以上出現の80語 結果は出たが、ちょっと読みにくいかも
  34. 34. KHCoderのR言語処理コードを参考に termmiの結果を見やすく出力
  35. 35. 2.3 MTMineR
  36. 36. MTMineR主成分分析の結果(文書のクラスタリング等いろいろ試し中) 使用する用語の選択が簡単なのがよい
  37. 37. おわりに 図書館業務においてテキストマイニング でできることは、まだまだありそう KH CoderやMTMineR,などは、GUIがあ り使い方も簡単 termmiにはグラフ作成機能が付属してな いが、R言語と組み合わせで対応できる Let’s Chalenge!

×