自由なデータ

1,343 views

Published on

Software Freedom Day 2012で発表した「自由なデータ」についての資料です

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,343
On SlideShare
0
From Embeds
0
Number of Embeds
464
Actions
Shares
0
Downloads
3
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

自由なデータ

  1. 1. 自由なデータSoftware Freedom Day2012 野首貴嗣 knok@fsij.org
  2. 2. 「自由なデータ」の定義● この発表の中での「自由なデータ」● 自由ソフトウェアの定義を参考に – いかなる目的に対しても、プログラムを実行する権 利 – プログラムがどのように動作しているか研究 し、 必要に応じて改造する自由 – 身近な人を助けられるよう、コピーを再配布する自 由 – 改変した版を他に配布する自由
  3. 3. 定義してみる● 目的を問わず利用する自由 – 「利用」の定義が難しいのであまり考えない● 調査し、改変する自由 – 「ソースコード」にあたるものはデータによって さまざま● コピーの再配布の自由● 改変物の再配布の自由
  4. 4. 自由なデータのライセンス例● GPL – あまりデータには向かない● GFDL (GNU Free Document License) – invaliant sectionがある● Creative Commons – 複数のバリエーションがある● Open Database License – OpenStreetMapの新しいライセンス(2012/9/12より)
  5. 5. 日本語の処理と自由なデータ● 表示に必要なフォント – ビットマップ – アウトライン● 辞書 – 日本語入力 – 自然言語処理
  6. 6. ビットマップフォント● 昔のPCはROM内蔵● ソフトウェアでフォントをレンダリング – a12k12 (public domain) ● X-Window に同梱 – M+ font (ほぼpublic domain) ● 見易さ、デザインにこだわったフォント
  7. 7. アウトラインフォント● PCの処理能力向上によって需要が拡大 – 東風フォント ● ライセンス問題により配布停止 ● さざなみフォントという代替フォントが開発された – M+ Outline font ● 5つのウェイトを持つ日本語アウトラインフォント ● 現在第1水準まで ● 組み合わせた派生フォントが何種かある – VL-Gothic font (M+/さざなみ)
  8. 8. 日本語入力● 辞書が必須 – SKKJISYO (GPL) ● SKK用の辞書 – Pubdic+ (ほぼpublic domain) ● Wnn/FreeWnnの辞書 – cannadic/改 (pubdic+由来の単語を含む) ● Canna, Anthyの辞書 – ipadic (ICOTライセンス) ● mozcの辞書
  9. 9. 自然言語処理● ipadic – ChaSen – MeCab● juman dic (MIT style) – juman
  10. 10. 自由ソフトウェアの弱い領域● スペル、文法チェッカー● 日本語入力 – 手書き入力 ● Tomoe● 音声合成 – Open JTalk● OCR – tesseract – nhocr
  11. 11. 困難な要因● データ量● 専門性の高さ● 統一性● データ形式の問題● 法的な問題
  12. 12. プロプライエタリデータの問題● データ形式が非公開 – 参考にすることも改造することも困難 – 特許になっているデータ形式もある● 言葉狩り – 「不適切」「差別的」とカテゴライズされる単語● データ改変、追加が難しい – 適切な品詞で単語を追加できるか – 適切なスコア(頻度情報)を指定できるか
  13. 13. 自由なデータを増やすには● データ流通の拠点が必要 – Youtube – niconico – pixiv – instagram – flickr – Wikipedia ● … などのようなサイト
  14. 14. 必要な機能● 著作権者の明確化● ライセンスの明確化 – flickrはCreativeCommonsが選択できる● 一次著作物と二次著作物の関係性の明記 – niconicoにはコンテンツツリーがある● コンテンツの評価機能● 専門知識を持つ編集者的存在
  15. 15. 著名なプロジェクト● Project Gutenberg● 青空文庫● Internet Archive● Wikipedia● OpenStreetMap

×