SlideShare a Scribd company logo
国会図書館件名標目
自然文検索
2018年9月2日
CODE4LIB JAPAN カンファレンス 2018
東京大学情報システム部 前田 朗
システムリニューアルの話です
「国会図書館件名標目連想検索」を「国
会図書館件名標目自然文検索」にリ
ニューアル(2017年12月)
「連想検索」が「自然文検索」に?
性能や機能の向上ではなく、サービスを
維持したという話
国会図書館件名標目自然文検索
自然文を入力すると、
国立国会図書館件名
標目の候補を提示
「図書系職員のため
のアプリケーション開
発講習会」で公開
※ 左図の実行例は、Wikipediaの
「自然言語処理」の記事を
かけたものhttps://mbc.dl.itc.u-tokyo.ac.jp/NDLSH_assoc/
入力
結果
「図書系職員のためのアプリケーショ
ン開発講習会」サーバーリプレイス
連想検索エンジン”GETA”インストールに行き詰まり
GETAを使って実装していたアプリをどうするか
「専門用語コレ・モカモ」(学術分野別の関連語提示)は、
word2vecで代替
word2vec話は昨年したので今年は見合わせ
「国会図書件名標目連想検索」はどうしよう?
「連想検索」ではなく、ふつうの
全文検索でよいことにする
検索エンジンはSolrでもよいが、Elastic
Searchを選んでみた
CiNiiやWEKO3でも使っているときくので、
面白そうかと
しかし、その後に仕事のためSolrも学習す
ることに…
Web検索APIで、件名に関連するテ
キストデータを取得[登録データ準備] (※)
件名標目 Web 検索エンジンの検索結果
(以下はイメージ、Wikipedaの記事で代替)
分かち書き わかち書き(わかちがき)とは、文章において語の区切り
に空白を挟んで記述することである。分かち….
機械翻訳 この記事には複数の問題があります。改善やノートページ
での議論にご協力ください。 出典がまったく示されて..
構文論 統語論(とうごろん、英: syntax)とは、ヒト・人間の言語に
おいて文が構成される仕組み、またはそれを扱う言語
※ いまは無料で使えるWeb検索APIがないので、過去に取得したデータを使っています
検索の流れ
関連テキストから件名標目を検索するよう
Elastic Searchに登録[全文データベース登録]
Web 検索エンジンの検索結果
(以下はイメージ、Wikipedaの記事で代替)
件名標目
わかち書き(わかちがき)とは、文章において語の区切りに空白
を挟んで記述することである。分かち….
分かち書き
この記事には複数の問題があります。改善やノートページでの
議論にご協力ください。 出典がまったく示されて..
機械翻訳
統語論(とうごろん、英: syntax)とは、ヒト・人間の言語において
文が構成される仕組み、またはそれを扱う言語
構文論
※ いまは無料で使えるWeb検索APIがないので、過去に取得したデータを使っています
検索の流れ
CGI
アプリ構成のねたばらし
Elastic Search
JSON・http
テンプレート
エンジンJavaScript
リクエスト
リザルト(html) リザルト(JSON)
リクエスト(JSON)
今回の差し替え個所
お手軽なWebアプリ基本構成
Ajax でシングルページアプリケーションを実現
prototype.js で<div>ブロックのhtmlを置き換えるだけ
テンプレートエンジンでデザインを分離
PerlならTemplateToolkit 、Pythonならjinja2
CGIでロジックを実装
PerlでもPythonでも
この基本構成が気に入ったので、ここ10年くらい
だいたいいつもこれでWebアプリを作っています
おわりに
アプリの実用はどうにか維持
もっとも連想検索との結果の違いはあるかも
簡単なツール開発なら、いまでも使い慣れた
Webアプリ基本構成でよさそうかも

More Related Content

Similar to 国会図書館件名標目自然文検索

論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
Yoji Kiyota
 
Daisy conference(prof.nagashima)20180528
Daisy conference(prof.nagashima)20180528Daisy conference(prof.nagashima)20180528
Daisy conference(prof.nagashima)20180528
Yoshitake Misaki
 
MojiHimoji(20110218)
MojiHimoji(20110218)MojiHimoji(20110218)
MojiHimoji(20110218)真 岡本
 
Infosta実習 発表ver
Infosta実習 発表verInfosta実習 発表ver
Infosta実習 発表verskdmai
 
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)
Ikki Ohmukai
 
リテラシー研修 Amano 201210_ss
リテラシー研修 Amano 201210_ssリテラシー研修 Amano 201210_ss
リテラシー研修 Amano 201210_ss
Eriko Amano
 
知識インフラの本質と「未来の」ライブラリアンへの期待(2017.4.22)
知識インフラの本質と「未来の」ライブラリアンへの期待(2017.4.22)知識インフラの本質と「未来の」ライブラリアンへの期待(2017.4.22)
知識インフラの本質と「未来の」ライブラリアンへの期待(2017.4.22)
Ikki Ohmukai
 
AIマスターを地方に拡げる教育講座とは!
AIマスターを地方に拡げる教育講座とは!AIマスターを地方に拡げる教育講座とは!
AIマスターを地方に拡げる教育講座とは!
KiyoshiNegishi
 
Hokudai Costep(20101208)
Hokudai Costep(20101208)Hokudai Costep(20101208)
Hokudai Costep(20101208)真 岡本
 
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
Tomoyoshi YOSHINO
 
職種研究ワークショップを通したIT人材育成の取組み
職種研究ワークショップを通したIT人材育成の取組み職種研究ワークショップを通したIT人材育成の取組み
職種研究ワークショップを通したIT人材育成の取組み
情報処理学会 情報システム教育委員会
 
データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要
Analytics2014
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
Preferred Networks
 
CRDF2011(20110225)
CRDF2011(20110225)CRDF2011(20110225)
CRDF2011(20110225)真 岡本
 
Erpと自然言語処理
Erpと自然言語処理Erpと自然言語処理
Erpと自然言語処理
Works Applications
 
20151029 CODATA
20151029 CODATA20151029 CODATA
20151029 CODATA
Taro misumi
 
NewsPicksにおける記事の推薦
NewsPicksにおける記事の推薦NewsPicksにおける記事の推薦
NewsPicksにおける記事の推薦
Akira Kitauchi
 
UMDS(20110820)
UMDS(20110820)UMDS(20110820)
UMDS(20110820)真 岡本
 

Similar to 国会図書館件名標目自然文検索 (20)

2012 09-25-sig-ifat
2012 09-25-sig-ifat2012 09-25-sig-ifat
2012 09-25-sig-ifat
 
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
 
Daisy conference(prof.nagashima)20180528
Daisy conference(prof.nagashima)20180528Daisy conference(prof.nagashima)20180528
Daisy conference(prof.nagashima)20180528
 
MojiHimoji(20110218)
MojiHimoji(20110218)MojiHimoji(20110218)
MojiHimoji(20110218)
 
Infosta実習 発表ver
Infosta実習 発表verInfosta実習 発表ver
Infosta実習 発表ver
 
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)
 
リテラシー研修 Amano 201210_ss
リテラシー研修 Amano 201210_ssリテラシー研修 Amano 201210_ss
リテラシー研修 Amano 201210_ss
 
知識インフラの本質と「未来の」ライブラリアンへの期待(2017.4.22)
知識インフラの本質と「未来の」ライブラリアンへの期待(2017.4.22)知識インフラの本質と「未来の」ライブラリアンへの期待(2017.4.22)
知識インフラの本質と「未来の」ライブラリアンへの期待(2017.4.22)
 
AIマスターを地方に拡げる教育講座とは!
AIマスターを地方に拡げる教育講座とは!AIマスターを地方に拡げる教育講座とは!
AIマスターを地方に拡げる教育講座とは!
 
Hokudai Costep(20101208)
Hokudai Costep(20101208)Hokudai Costep(20101208)
Hokudai Costep(20101208)
 
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
 
職種研究ワークショップを通したIT人材育成の取組み
職種研究ワークショップを通したIT人材育成の取組み職種研究ワークショップを通したIT人材育成の取組み
職種研究ワークショップを通したIT人材育成の取組み
 
データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
CRDF2011(20110225)
CRDF2011(20110225)CRDF2011(20110225)
CRDF2011(20110225)
 
Erpと自然言語処理
Erpと自然言語処理Erpと自然言語処理
Erpと自然言語処理
 
20151029 CODATA
20151029 CODATA20151029 CODATA
20151029 CODATA
 
NewsPicksにおける記事の推薦
NewsPicksにおける記事の推薦NewsPicksにおける記事の推薦
NewsPicksにおける記事の推薦
 
UMDS(20110820)
UMDS(20110820)UMDS(20110820)
UMDS(20110820)
 

Recently uploaded

This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 

Recently uploaded (8)

This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 

国会図書館件名標目自然文検索