Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

青空文庫のWebアプリ(月8000万PV)への活用事例

630 views

Published on

青空文庫を一般語フィルターとして pixivコミックで活用した話

Published in: Technology
  • Be the first to comment

青空文庫のWebアプリ(月8000万PV)への活用事例

  1. 1. 青空文庫20周年記念シンポジウム 2017年10月14日 青空文庫のWebアプリ(月8000万PV)への活用事例 〜青空文庫を一般語フィルターとして pixivコミックで活用した話〜 ピクシブ株式会社 吉岡 康平 (@_pawa_)
  2. 2. 青空文庫と私 • 朗読 - きくドラ・Audible・海王社文庫 朗読CD • 蘇りしチェッカー君 - 耕作員のための文字チェッカー 2
  3. 3. 青空文庫のWebアプリへの活用事例 3 ・pixivコミック 電子コミックを無料で読める Webアプリケーション (スマホアプリもあるよ ) 公開に当たって ここにあった画像は 消去されています
  4. 4. 青空文庫をpixivコミックで活用した手順 1. 作品テキストと作品情報をDBに挿入 2. 必要なデータを絞り込んで抽出 3. テキストから単語を抽出して統計をとる 4. タグ付けの精度が向上するように統計情 報を計算に組み込む 4
  5. 5. 作品テキストと作品情報をDBに挿 入 • http://www.aozora.gr.jp/index_pages/p erson_all.html にあるデータを利用 5
  6. 6. 作品テキストと作品情報をDBに挿 入 • 使った主なデータ: - 本文テキスト (「テキストファイルURL」からダウンロード) - 分類番号(NDC:日本十進分類法) - ファイル文字集合 - 文字遣い種別 - 著作権フラグ DBに入れることで絞込を容易に 6
  7. 7. 必要なデータを絞り込んで抽出 • pixivコミックでは - 分類番号:NDC913(日本文学の小説・物語) - 文字遣い種別:新字新仮名 - 著作権フラグ:なし で絞り込んで本文テキストを抽出 7
  8. 8. テキストから単語を抽出して統計をと る • 前処理 • 本文以外の情報を正規表現で削除 • 入力者注 • ふりがな • フォーマットの説明 • 底本情報 など 8
  9. 9. テキストから単語を抽出して統計をと る • 単語分割と品詞タグ付け • MeCab • 青空:名詞,一般 • 文庫:名詞,一般 • 20:名詞,数 • 周年:名詞,接尾,助数詞 • 記念:名詞,サ変接続 • シンポジウム:名詞,一般 9
  10. 10. テキストから単語を抽出して統計をと る • 統計 • pixivコミックでは逆文書頻度を利用 • log(全作品数 / ある単語が出現する作品数) 10
  11. 11. 逆文書頻度(IDF) • 少ない作品に出現する単語なら高く • 多くの作品に出現する単語なら小さい 重みを与える • 青空文庫の場合: idf(青空) = 3.3873625408359955(文書頻度:249) idf(文庫) = 5.265683984247743(文書頻度:67) idf(チャカポコ) = 9.353146825498083(文書頻度:3) idf(シンポジウム) = 11.353146825498083(文書頻度:0) 11
  12. 12. どう役立ったか • pixivコミックのタグ • 全作品説明文を分析して • その作品固有の単語なら高スコア▲ • 他の作品説明文にも頻出の単語なら低スコア▼ としてスコアの高い順番に並べていたが、さらに • 一般的な単語のスコアを落として • 一般的でない珍しい単語のスコアを上げる のに役立った 12
  13. 13. 具体的に… プレイボーイ / パワーアップ / SNS / 人気シリー ズ / 最強 / 羨望 / 激動 / 圧倒的 / 戦闘 • 青色の「羨望」「激動」「戦闘」などの 青空文庫での出現頻度が高く、 pixivコミックでの出現頻度が低い 単語の順番を下げるのに特に効果があった → 一般語フィルター 13
  14. 14. 14 公開に当たって ここにあった画像は 削除されています
  15. 15. もっと詳しく • pixiv inside • 「pixivコミック作品のタグが自動生成さ れるまでの軌跡」 • https://inside.pixiv.blog/pawa/2349 15
  16. 16. おしまい 16

×