Is EDINET 5 star?<br />N. Shimizu<br />chikoski@gmail.com / @chikoski<br />2011.1.27<br />1<br />N. Shimizu <chikoski@gmai...
自己紹介<br />清水智公 / @chikoski<br />嘉悦大学情報メディアセンター / 慶應義塾大学政策・メディア研究科<br />http://chikoski.info/<br />2011.1.27<br />2<br />N....
http://xbrl.tom.sfc.keio.ac.jp/<br />2011.1.27<br />3<br />N. Shimizu <chikoski@gmail.com><br />
http://edinet.chikoski.info/<br />2011.1.27<br />4<br />N. Shimizu <chikoski@gmail.com><br />
概要<br />EDINET Web APIの概要<br />作成の背景<br />リストの取得方法<br />レポートの取得方法<br />作成しているときに思ったこと<br />今後の方向性<br />2011.1.27<br />5<br...
EDINET Web APIの概要<br />2011.1.27<br />6<br />N. Shimizu <chikoski@gmail.com><br />
作成の背景<br />EDINETを機械に優しいサイトに<br />機械:プログラム<br />今のEDINETは機械に対してつめたい<br />他のシステムに対してオープンに<br />簡単な検索インタフェースの提供<br />XBRLファイ...
設計の方針:リンク可能にする<br />報告書に固定のURLを与えること<br />GETで取得できること<br />トークン等はつかわないこと<br />URLが検索文を兼ねること<br />2011.1.27<br />8<br />N. ...
EDINET Web API<br />提出されたレポートの検索<br />日付、期間<br />EDINETコード<br />業種<br />レポートのダウンロード<br />ZIP, xbrlファイル単体<br />書類管理番号がキー<br...
デモ<br />2011.1.27<br />10<br />N. Shimizu <chikoski@gmail.com><br />
検索:/list/{条件}[.形式]<br />条件<br />recent, today, yesterday<br />YYYYMMDD<br />YYYYMMDD-YYYYMMDD<br />EDINETコード<br />業種<br />...
検索結果<br />2011.1.27<br />12<br />N. Shimizu <chikoski@gmail.com><br />
検索結果<br />報告書のURL<br />2011.1.27<br />13<br />N. Shimizu <chikoski@gmail.com><br />
報告書の取得:/report/{管理番号}<br />EDINETの管理番号を指定する<br />/report/S00070PB<br />/report/S00071D9<br />取得できるレポート<br />XBRLファイルのみ<br ...
システムの概要<br />2011.1.27<br />15<br />N. Shimizu <chikoski@gmail.com><br />
システムの構成<br />クローラー:ページなどをダウンロード<br />スクレイパー:必要な情報を抽出<br />Webインタフェース:検索の受け口<br />2011.1.27<br />16<br />N. Shimizu <chikos...
システムの構成<br />クローラー:ページなどをダウンロード<br />スクレイパー:必要な情報を抽出<br />Webインタフェース:検索の受け口<br />一番面倒だった<br />2011.1.27<br />17<br />N. Sh...
2011.1.27<br />18<br />N. Shimizu <chikoski@gmail.com><br />
機械に優しくないサイト<br />2011.1.27<br />19<br />N. Shimizu <chikoski@gmail.com><br />
クローラー作成の壁<br />ステータスコードを正しく返さない<br />POSTパラメータの解析<br />セッションキーの取り扱い<br />2011.1.27<br />20<br />N. Shimizu <chikoski@gmail...
ステータスコードを正しく返さない<br />突然コネクションを切断する<br />処理に失敗しても200を返す<br />普通<br />400番台のコードを返して切断<br />500番台のコード+ページを返す<br />2011.1.27<...
ステータスコード<br />アクセスの成否を示した数字<br />数字と意味<br />200番台:アクセス成功<br />300番台:転居届<br />400番台:アクセス失敗<br />500番台:エラー<br />2011.1.27<br...
リクエストヘッダに不備->切断<br />Hostがinfo.edinet-fsa.go.jpではない<br />User-Agentが対応ブラウザではない<br />Firefox<br />Chrome / Safari<br />IE<b...
処理に失敗しても200を返す<br />処理に失敗するパターン<br />POSTするパラメーターの組み合わせが不正<br />セッションタイムアウト<br />ファイルが存在しない<br />この全てで200が返ってくる<br />ステータス...
POSTされる主なパラメーター<br />uji.verb<br />uji.bean<br />TID<br />PID<br />pageUp / pageDown / be.page<br />SESSIONKEY<br />2011.1...
セッションがタイムアウトする原因<br />アクセス間隔が長い<br />30分くらい間を置くと切れている<br />正確な生存期間は不明…<br />POSTするセッションキーとEDINET側のキーが異なる場合<br />2011.1.27<...
EDINETのセッション管理<br />クッキー<br />セッションキー<br />パラメータ名:SESSIONKEY<br />13桁の乱数<br />アクセスするごとに変わる<br />2011.1.27<br />27<br />N. ...
EDINETのセッション管理<br />クッキー<br />セッションキー<br />パラメータ名:SESSIONKEY<br />13桁の乱数<br />アクセスするごとに変わる<br />ポイント<br />2011.1.27<br />2...
2011.1.27<br />29<br />N. Shimizu <chikoski@gmail.com><br />
機械に優しいサイトになるには<br />ステータスコードをきちんと返すこと<br />User-Agentを制限しないこと<br />POSTではなくGETでページが取得できること<br />不必要なセッション管理をしないこと<br />rob...
EDINETにはrobots.txtがない<br />クローラーに対するポリシーがない<br />キャッシュしてよいもの、悪いものの判断がつかない<br />クローラーでアクセスしてよいの?<br />2011.1.27<br />31<br ...
APIの今後<br />2011.1.27<br />32<br />N. Shimizu <chikoski@gmail.com><br />
Web = Database<br />2011.1.27<br />33<br />N. Shimizu <chikoski@gmail.com><br />
よりオープンに<br />2011.1.27<br />34<br />N. Shimizu <chikoski@gmail.com><br />
Is your data 5star?<br />☆☆☆☆★:Web上で公開されていること。<br />オープンライセンスであること<br />☆☆☆★★:プログラム処理可能な構造化データであること<br />☆☆★★★:プロプライエタリなフォ...
Is your data 5star?<br />☆☆☆☆★:Web上で公開されていること。<br />オープンライセンスであること<br />☆☆☆★★:プログラム処理可能な構造化データであること<br />☆☆★★★:プロプライエタリなフォ...
Is your data 5star?<br />☆☆☆☆★:Web上で公開されていること。<br />オープンライセンスであること<br />☆☆☆★★:プログラム処理可能な構造化データであること<br />☆☆★★★:プロプライエタリなフォ...
直近の目標:4つ星を目指す<br />出力するもの<br />検索結果<br />XBRL, XSD, ラベルなど<br />XBRLファイルの変換<br />XML2RDFを利用する<br />スキーマはXSD2OWLを利用<br />htt...
XML2RDFで行われる変換<br />[1]より<br />2011.1.27<br />39<br />N. Shimizu <chikoski@gmail.com><br />
5つ星になるには<br />全てのものをURLで表現<br />例<br />会社<br />業種<br />dbpedia.jpを参照する予定<br />2011.1.27<br />40<br />N. Shimizu <chikoski@...
Linked Data<br />2011.1.27<br />41<br />N. Shimizu <chikoski@gmail.com><br />
5つ星になった後<br />企業情報におけるLOD.ACに<br />c.f LODAC Museumhttp://lod.ac/<br />2011.1.27<br />42<br />N. Shimizu <chikoski@gmail.c...
ご静聴ありがとうございました<br />2011.1.27<br />43<br />N. Shimizu <chikoski@gmail.com><br />
Linked Dataに関する情報<br />Tim Berners-Lee, “Linked Data”, http://goo.gl/katw<br />http://linkeddata.org/<br />http://linkedda...
Upcoming SlideShare
Loading in …5
×

Is EDINET 5 star?

1,396 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,396
On SlideShare
0
From Embeds
0
Number of Embeds
85
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Is EDINET 5 star?

  1. 1. Is EDINET 5 star?<br />N. Shimizu<br />chikoski@gmail.com / @chikoski<br />2011.1.27<br />1<br />N. Shimizu <chikoski@gmail.com><br />
  2. 2. 自己紹介<br />清水智公 / @chikoski<br />嘉悦大学情報メディアセンター / 慶應義塾大学政策・メディア研究科<br />http://chikoski.info/<br />2011.1.27<br />2<br />N. Shimizu <chikoski@gmail.com><br />
  3. 3. http://xbrl.tom.sfc.keio.ac.jp/<br />2011.1.27<br />3<br />N. Shimizu <chikoski@gmail.com><br />
  4. 4. http://edinet.chikoski.info/<br />2011.1.27<br />4<br />N. Shimizu <chikoski@gmail.com><br />
  5. 5. 概要<br />EDINET Web APIの概要<br />作成の背景<br />リストの取得方法<br />レポートの取得方法<br />作成しているときに思ったこと<br />今後の方向性<br />2011.1.27<br />5<br />N. Shimizu <chikoski@gmail.com><br />
  6. 6. EDINET Web APIの概要<br />2011.1.27<br />6<br />N. Shimizu <chikoski@gmail.com><br />
  7. 7. 作成の背景<br />EDINETを機械に優しいサイトに<br />機械:プログラム<br />今のEDINETは機械に対してつめたい<br />他のシステムに対してオープンに<br />簡単な検索インタフェースの提供<br />XBRLファイルへのアクセス手段の提供<br />2011.1.27<br />7<br />N. Shimizu <chikoski@gmail.com><br />
  8. 8. 設計の方針:リンク可能にする<br />報告書に固定のURLを与えること<br />GETで取得できること<br />トークン等はつかわないこと<br />URLが検索文を兼ねること<br />2011.1.27<br />8<br />N. Shimizu <chikoski@gmail.com><br />
  9. 9. EDINET Web API<br />提出されたレポートの検索<br />日付、期間<br />EDINETコード<br />業種<br />レポートのダウンロード<br />ZIP, xbrlファイル単体<br />書類管理番号がキー<br />2011.1.27<br />9<br />N. Shimizu <chikoski@gmail.com><br />
  10. 10. デモ<br />2011.1.27<br />10<br />N. Shimizu <chikoski@gmail.com><br />
  11. 11. 検索:/list/{条件}[.形式]<br />条件<br />recent, today, yesterday<br />YYYYMMDD<br />YYYYMMDD-YYYYMMDD<br />EDINETコード<br />業種<br />形式:JSON<br />2011.1.27<br />11<br />N. Shimizu <chikoski@gmail.com><br />
  12. 12. 検索結果<br />2011.1.27<br />12<br />N. Shimizu <chikoski@gmail.com><br />
  13. 13. 検索結果<br />報告書のURL<br />2011.1.27<br />13<br />N. Shimizu <chikoski@gmail.com><br />
  14. 14. 報告書の取得:/report/{管理番号}<br />EDINETの管理番号を指定する<br />/report/S00070PB<br />/report/S00071D9<br />取得できるレポート<br />XBRLファイルのみ<br />全部入りのzipファイル<br />2011.1.27<br />14<br />N. Shimizu <chikoski@gmail.com><br />
  15. 15. システムの概要<br />2011.1.27<br />15<br />N. Shimizu <chikoski@gmail.com><br />
  16. 16. システムの構成<br />クローラー:ページなどをダウンロード<br />スクレイパー:必要な情報を抽出<br />Webインタフェース:検索の受け口<br />2011.1.27<br />16<br />N. Shimizu <chikoski@gmail.com><br />
  17. 17. システムの構成<br />クローラー:ページなどをダウンロード<br />スクレイパー:必要な情報を抽出<br />Webインタフェース:検索の受け口<br />一番面倒だった<br />2011.1.27<br />17<br />N. Shimizu <chikoski@gmail.com><br />
  18. 18. 2011.1.27<br />18<br />N. Shimizu <chikoski@gmail.com><br />
  19. 19. 機械に優しくないサイト<br />2011.1.27<br />19<br />N. Shimizu <chikoski@gmail.com><br />
  20. 20. クローラー作成の壁<br />ステータスコードを正しく返さない<br />POSTパラメータの解析<br />セッションキーの取り扱い<br />2011.1.27<br />20<br />N. Shimizu <chikoski@gmail.com><br />
  21. 21. ステータスコードを正しく返さない<br />突然コネクションを切断する<br />処理に失敗しても200を返す<br />普通<br />400番台のコードを返して切断<br />500番台のコード+ページを返す<br />2011.1.27<br />21<br />N. Shimizu <chikoski@gmail.com><br />
  22. 22. ステータスコード<br />アクセスの成否を示した数字<br />数字と意味<br />200番台:アクセス成功<br />300番台:転居届<br />400番台:アクセス失敗<br />500番台:エラー<br />2011.1.27<br />22<br />N. Shimizu <chikoski@gmail.com><br />
  23. 23. リクエストヘッダに不備->切断<br />Hostがinfo.edinet-fsa.go.jpではない<br />User-Agentが対応ブラウザではない<br />Firefox<br />Chrome / Safari<br />IE<br />2011.1.27<br />23<br />N. Shimizu <chikoski@gmail.com><br />
  24. 24. 処理に失敗しても200を返す<br />処理に失敗するパターン<br />POSTするパラメーターの組み合わせが不正<br />セッションタイムアウト<br />ファイルが存在しない<br />この全てで200が返ってくる<br />ステータスコードからエラーが検知できない<br />原因は返ってくるページをみて初めてわかる<br />2011.1.27<br />24<br />N. Shimizu <chikoski@gmail.com><br />
  25. 25. POSTされる主なパラメーター<br />uji.verb<br />uji.bean<br />TID<br />PID<br />pageUp / pageDown / be.page<br />SESSIONKEY<br />2011.1.27<br />25<br />N. Shimizu <chikoski@gmail.com><br />
  26. 26. セッションがタイムアウトする原因<br />アクセス間隔が長い<br />30分くらい間を置くと切れている<br />正確な生存期間は不明…<br />POSTするセッションキーとEDINET側のキーが異なる場合<br />2011.1.27<br />26<br />N. Shimizu <chikoski@gmail.com><br />
  27. 27. EDINETのセッション管理<br />クッキー<br />セッションキー<br />パラメータ名:SESSIONKEY<br />13桁の乱数<br />アクセスするごとに変わる<br />2011.1.27<br />27<br />N. Shimizu <chikoski@gmail.com><br />
  28. 28. EDINETのセッション管理<br />クッキー<br />セッションキー<br />パラメータ名:SESSIONKEY<br />13桁の乱数<br />アクセスするごとに変わる<br />ポイント<br />2011.1.27<br />28<br />N. Shimizu <chikoski@gmail.com><br />
  29. 29. 2011.1.27<br />29<br />N. Shimizu <chikoski@gmail.com><br />
  30. 30. 機械に優しいサイトになるには<br />ステータスコードをきちんと返すこと<br />User-Agentを制限しないこと<br />POSTではなくGETでページが取得できること<br />不必要なセッション管理をしないこと<br />robots.txtを置くこと<br />2011.1.27<br />30<br />N. Shimizu <chikoski@gmail.com><br />
  31. 31. EDINETにはrobots.txtがない<br />クローラーに対するポリシーがない<br />キャッシュしてよいもの、悪いものの判断がつかない<br />クローラーでアクセスしてよいの?<br />2011.1.27<br />31<br />N. Shimizu <chikoski@gmail.com><br />
  32. 32. APIの今後<br />2011.1.27<br />32<br />N. Shimizu <chikoski@gmail.com><br />
  33. 33. Web = Database<br />2011.1.27<br />33<br />N. Shimizu <chikoski@gmail.com><br />
  34. 34. よりオープンに<br />2011.1.27<br />34<br />N. Shimizu <chikoski@gmail.com><br />
  35. 35. Is your data 5star?<br />☆☆☆☆★:Web上で公開されていること。<br />オープンライセンスであること<br />☆☆☆★★:プログラム処理可能な構造化データであること<br />☆☆★★★:プロプライエタリなフォーマットではないこと<br />☆★★★★:RDFを利用してデータが表現されていること<br />★★★★★:他のデータとリンクしていること<br />2011.1.27<br />35<br />N. Shimizu <chikoski@gmail.com><br />
  36. 36. Is your data 5star?<br />☆☆☆☆★:Web上で公開されていること。<br />オープンライセンスであること<br />☆☆☆★★:プログラム処理可能な構造化データであること<br />☆☆★★★:プロプライエタリなフォーマットではないこと<br />☆★★★★:RDFを利用してデータが表現されていること<br />★★★★★:他のデータとリンクしていること<br />今ココ<br />2011.1.27<br />36<br />N. Shimizu <chikoski@gmail.com><br />
  37. 37. Is your data 5star?<br />☆☆☆☆★:Web上で公開されていること。<br />オープンライセンスであること<br />☆☆☆★★:プログラム処理可能な構造化データであること<br />☆☆★★★:プロプライエタリなフォーマットではないこと<br />☆★★★★:RDFを利用してデータが表現されていること<br />★★★★★:他のデータとリンクしていること<br />ココを目指す<br />2011.1.27<br />37<br />N. Shimizu <chikoski@gmail.com><br />
  38. 38. 直近の目標:4つ星を目指す<br />出力するもの<br />検索結果<br />XBRL, XSD, ラベルなど<br />XBRLファイルの変換<br />XML2RDFを利用する<br />スキーマはXSD2OWLを利用<br />http://rhizomik.net/html/redefer/<br />2011.1.27<br />38<br />N. Shimizu <chikoski@gmail.com><br />
  39. 39. XML2RDFで行われる変換<br />[1]より<br />2011.1.27<br />39<br />N. Shimizu <chikoski@gmail.com><br />
  40. 40. 5つ星になるには<br />全てのものをURLで表現<br />例<br />会社<br />業種<br />dbpedia.jpを参照する予定<br />2011.1.27<br />40<br />N. Shimizu <chikoski@gmail.com><br />
  41. 41. Linked Data<br />2011.1.27<br />41<br />N. Shimizu <chikoski@gmail.com><br />
  42. 42. 5つ星になった後<br />企業情報におけるLOD.ACに<br />c.f LODAC Museumhttp://lod.ac/<br />2011.1.27<br />42<br />N. Shimizu <chikoski@gmail.com><br />
  43. 43. ご静聴ありがとうございました<br />2011.1.27<br />43<br />N. Shimizu <chikoski@gmail.com><br />
  44. 44. Linked Dataに関する情報<br />Tim Berners-Lee, “Linked Data”, http://goo.gl/katw<br />http://linkeddata.org/<br />http://linkeddata.jp/<br />“Linked Data in Japan”, http://goo.gl/8pvAI<br />http://lod.ac/<br />http://scholex.com/ocdi/<br />2011.1.27<br />44<br />N. Shimizu <chikoski@gmail.com><br />

×