青空文庫テキストフォーマットについて (aozorahack)

masayoshi takahashi
masayoshi takahashiE-Book Publisher / Web Application Developer
青空文庫テキスト
フォーマットについて
2017/03/11
aozorahack/株式会社達人出版会
高橋征義
クイズで学ぶ
青空文庫
(フォーマット編)
第1問
青空文庫公式サイトでサポートし
ていないファイル形式はどれ?
1) テキストファイル
2) HTML
3) Word
4) エキスパンドブック
5) PalmDoc
第1問
青空文庫公式サイトでサポートし
ていないファイル形式はどれ?
1) テキストファイル
2) HTML
3) Word
4) エキスパンドブック
5) PalmDoc
稀少なフォーマット
● PDF:
http://www.aozora.gr.jp/cards/000029/card
227.html 伽藍とバザール
● エキスパンドブック:
http://www.aozora.gr.jp/cards/000005/card
5.html あいびき
● palmdoc:
http://www.aozora.gr.jp/cards/000114/card
608.html モウグリの兄弟たち
青空文庫のテキストファイル
● 青空文庫の独自記法
– 「青空文庫形式」
● HTMLファイルに変換
– テキストファイルからHTML
ファイルへは自動変換が可能
青空文庫形式の特徴
● 人間が読みやすい
– 機械では解析しづらい
● 全角文字を記法に使う
● 「見た目」のための記法
– 「5字下げ」とか「改ページ」とか
HTML・XMLやTeX等、他の記法と比べると
かなり独特な記法になっている
http://www.aozora.gr.jp/cards/001095/files/42626_ruby_59990.zip
青空文庫形式
● 大きく4つの部分に分かれる
– ヘッダ
– 注記の説明
– 本文
– フッタ
ヘッダ
注記の説明
フッタ
本文
ヘッダ
● タイトル
● 著者
● サブタイトル(もしあれば)
● 原題(もしあれば)
● 訳者(もしあれば)
ヘッダの例
方丈記
鴨長明
(空行)
ヘッダの例
半七捕物帳
猫騒動
岡本綺堂
(空行)
【テキスト中に現れる記号について】
-------------------------------------------------------
【テキスト中に現れる記号について】
《》:ルビ
(例)三毛《みけ》猫
|:ルビの付く文字列の始まりを特定する記号
(例)寛政|申《さる》年生まれ
[#]:入力者注 主に外字の説明や、傍点の位置の指定
   (数字は、JIS X 0213の面区点番号またはUnicode、底本のページと行数)
(例)※[#「日+向」、第3水準1-85-25]
-------------------------------------------------------
フッタの例
底本:「時代推理小説 半七捕物帳(一)」光文社文庫、光文社
   1985(昭和60)年11月20日初版1刷発行
入力:tatsuki
校正:山本奈津恵
1999年7月24日公開
2012年6月12日修正
青空文庫作成ファイル:
このファイルは、インターネットの図書館、青空文庫
(http://www.aozora.gr.jp/)で作られました。入力、校正、制
作にあたったのは、ボランティアの皆さんです。
全体の構成
【ヘッダ】
(空行*1)
--------
【テキスト中に現れる記号について】
--------
【本文】
(空行*3)
【フッタ】
クイズ・第2問
青空文庫記法で対応していないも
のはどれ?
1) 改ページ
2) 表
3) 画像
4) 罫線(罫囲み)
5) 返り点
クイズ・第2問
青空文庫記法で対応していないも
のはどれ?
1) 改ページ
2) 表
3) 画像
4) 罫線(罫囲み)
5) 返り点
青空文庫の注記記法
【[#……]】という形
– [#改ページ]
– [#挿絵1(fig54921_04.png、横
336×縦400)入る]
字下げの例
…ここでもっと大事なのは論述のスタイルで
ある。
[#3字下げ]灰いろの抽象の世に住まんに
は濃きに過ぎたる煩悩の色
 九鬼周造が詩と短歌をかなり数多く残し、
…
字下げの例
…然し愚な純な弱い白が、主人夫妻にはいつまでも忘られぬので
ある。
[#ここから5字下げ]
白は大正七年一月十四日の夜半病死し、赤沢君の山の上の小家の
梅の木陰に葬られました。甲州に往って十年です。村の人々が赤
沢君に白のクヤミを言うたそうです。「白は人となり候」と赤沢
君のたよりにありました。「白」は幸福な犬です。
  大正十二年二月九日追記
[#ここで字下げ終わり]
見出し
序文[#「序文」は大見出し]
見出しの例
[#2字下げ]上 先生と私[#「上 先生と私」は大見出し]
[#5字下げ]一[#「一」は中見出し]
 私《わたくし》はその人を常に先生と呼んでいた。だからここ
でもただ先生と書くだけで本名は打ち明けない。これは世間を憚
《はば》かる遠慮というよりも、その方が私にとって自然だから
である。私はその人の記憶を呼び起すごとに、すぐ「先生」とい
いたくなる。筆を執《と》っても心持は同じ事である。よそよそ
しい頭文字《かしらもじ》などはとても使う気にならない。
ルビの例
[#2字下げ]上 先生と私[#「上 先生と私」は大見出し]
[#5字下げ]一[#「一」は中見出し]
 私《わたくし》はその人を常に先生と呼んでいた。だからここ
でもただ先生と書くだけで本名は打ち明けない。これは世間を憚
《はば》かる遠慮というよりも、その方が私にとって自然だから
である。私はその人の記憶を呼び起すごとに、すぐ「先生」とい
いたくなる。筆を執《と》っても心持は同じ事である。よそよそ
しい頭文字《かしらもじ》などはとても使う気にならない。
ルビの例
http://www.aozora.gr.jp/cards/000148/files/773_14560.html
罫囲み
[#ここから1段階小さな文字]
[#ここから1字下げ]
[#ここから41字詰め]
[#ここから罫囲み]
附記[#「附記」は太字] この探偵小説には私が懸賞をだします。犯人を推定した最も優秀な答
案に、この小説の解決篇の原稿料を呈上します。細目はいずれ、誌上に発表しますが、だいたい、
九回か十回連載の予定、大いに皆さんと知慧くらべをやりましょう。当らなければ、原稿料は差上
げませんよ。たいがい、差上げずに、すむでしょう。[#地から1字上げ]坂口安吾
[#ここで罫囲み終わり]
[#ここで字詰め終わり]
[#ここで字下げ終わり]
[#ここで小さな文字終わり]
[#5字下げ]四 第一の殺人[#「四 第一の殺人」は中見出し]
http://www.aozora.gr.jp/cards/001095/files/42626_60035.html
罫囲み
[#ここから1段階小さな文字]
[#ここから1字下げ]
[#ここから41字詰め]
[#ここから罫囲み]
附記[#「附記」は太字] この探偵小説には私が懸賞をだします。犯人を推定した最も優秀な答
案に、この小説の解決篇の原稿料を呈上します。細目はいずれ、誌上に発表しますが、だいたい、
九回か十回連載の予定、大いに皆さんと知慧くらべをやりましょう。当らなければ、原稿料は差上
げませんよ。たいがい、差上げずに、すむでしょう。[#地から1字上げ]坂口安吾
[#ここで罫囲み終わり]
[#ここで字詰め終わり]
[#ここで字下げ終わり]
[#ここで小さな文字終わり]
[#5字下げ]四 第一の殺人[#「四 第一の殺人」は中見出し]
クイズ・第3問
青空文庫で使っている文字集合はどの
範囲まで?
1) JIS X 0208(第1・2水準)
2) JIS X 0213(第3・4水準)
3) UnicodeのBMP(〜U+FFFF)まで
4) Unicode 6.0全て
5) それ以上
クイズ・第3問
青空文庫で使っている文字集合はどの
範囲まで?
1) JIS X 0208(第1・2水準)
2) JIS X 0213(第3・4水準)
3) UnicodeのBMP(〜U+FFFF)まで
4) Unicode 6.0全て
5) それ以上
青空文庫と文字コード
● テキストはJIS X 0208(Shift_JIS)
で記述する
– 包摂規準はJIS X 0213ではなく
JIS X 0208の包摂規準を使う
● JIS X 0208で記述できない文字に
ついては外字記法を使う
外字記法
※[#「てへん+劣」、第3水準1-84-77]
→ 挘
※[#「二/二」、U+4E96、167-2]
→ 亖
外字記法
※[#「仝」の「工」に代えて
「サ」、屋号を示す記号、75-9]
http://www.e-yamasa.com/
http://www.aozora.gr.jp/gaiji_chuki/index.html
http://www.aozora.gr.jp/gaiji_chuki/gaiji_chuki.pdf
青空文庫形式
テキストファイルを
扱えるツール
aozora2html
● 青空文庫形式のテキストファイル
をHTMLに変換するツール
● 青空文庫で配布しているtxt2html
(t2hs.rb) を改造したもの
● 2017/03/10リリースのver.0.9.0
で大幅改造
● ライセンス: CC0
https://rubygems.org/gems/aozora2html/
AozoraEpub3
● 「青空文庫の注記入りテキスト
ファイルをePub3ファイル(zip圧
縮)に変換するツールです。」
● ライセンス: GPL
https://github.com/hmdev/AozoraEpub3
青空文庫形式
テキストファイルと
青空文庫CSV
テキストファイルの探し方
● 青空文庫のサイトの図書カードか
ら探す
● 青空文庫のCSVファイルから探す
図書カード
図書カード
青空文庫CSVファイル
● 青空文庫で配布している「作家別
作品一覧拡充版CSVファイル」
https://github.com/aozorahack/hackathon2016/blob/master/doc/csv.md
テーブル構成
1 of 45

Recommended

DBpedia Japanese by
DBpedia JapaneseDBpedia Japanese
DBpedia JapaneseFumihiro Kato
3.4K views23 slides
it研修講座 by
it研修講座it研修講座
it研修講座annulus
1.6K views39 slides
itkensyukouza2008 by
itkensyukouza2008itkensyukouza2008
itkensyukouza2008annulus
292 views39 slides
京都 IT講座 9月 by
京都 IT講座 9月京都 IT講座 9月
京都 IT講座 9月annulus
289 views39 slides
京都IT研修講座 by
京都IT研修講座京都IT研修講座
京都IT研修講座annulus
346 views39 slides
京都 IT講座 9月 by
京都 IT講座 9月京都 IT講座 9月
京都 IT講座 9月annulus
669 views39 slides

More Related Content

More from masayoshi takahashi

osc2019tokyospring by
osc2019tokyospringosc2019tokyospring
osc2019tokyospringmasayoshi takahashi
8.3K views26 slides
Ruby25: Rubyの1/4世紀 by
Ruby25: Rubyの1/4世紀Ruby25: Rubyの1/4世紀
Ruby25: Rubyの1/4世紀masayoshi takahashi
4.5K views131 slides
Code for 選挙とWikidata by
Code for 選挙とWikidataCode for 選挙とWikidata
Code for 選挙とWikidatamasayoshi takahashi
3.9K views37 slides
青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて by
青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて
青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けてmasayoshi takahashi
9.5K views54 slides
Aozorahack20161106 by
Aozorahack20161106Aozorahack20161106
Aozorahack20161106masayoshi takahashi
2K views17 slides
aozorahack hackathon #1 by
aozorahack hackathon #1aozorahack hackathon #1
aozorahack hackathon #1masayoshi takahashi
1.9K views58 slides

More from masayoshi takahashi(20)

青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて by masayoshi takahashi
青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて
青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて
masayoshi takahashi9.5K views
aozorahackと青空文庫の現状とこれから (OSC 2016 Tokyo/Spring) by masayoshi takahashi
aozorahackと青空文庫の現状とこれから (OSC 2016 Tokyo/Spring)aozorahackと青空文庫の現状とこれから (OSC 2016 Tokyo/Spring)
aozorahackと青空文庫の現状とこれから (OSC 2016 Tokyo/Spring)
masayoshi takahashi3.3K views
オープンソースとプラットフォームとお金 by masayoshi takahashi
オープンソースとプラットフォームとお金オープンソースとプラットフォームとお金
オープンソースとプラットフォームとお金
masayoshi takahashi13.3K views
Re:VIEW新パーサ現状確認(2015年2月版) by masayoshi takahashi
Re:VIEW新パーサ現状確認(2015年2月版)Re:VIEW新パーサ現状確認(2015年2月版)
Re:VIEW新パーサ現状確認(2015年2月版)
masayoshi takahashi3.8K views
何となく勉強した気分になれるパーサ入門 by masayoshi takahashi
何となく勉強した気分になれるパーサ入門何となく勉強した気分になれるパーサ入門
何となく勉強した気分になれるパーサ入門
masayoshi takahashi35.8K views
電子出版はどこを 目指すのか・技術書編 by masayoshi takahashi
電子出版はどこを 目指すのか・技術書編電子出版はどこを 目指すのか・技術書編
電子出版はどこを 目指すのか・技術書編
masayoshi takahashi29.9K views

Recently uploaded

SSH応用編_20231129.pdf by
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdficebreaker4
172 views13 slides
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化Knowledge & Experience
8 views34 slides
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
13 views38 slides
The Things Stack説明資料 by The Things Industries by
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things IndustriesCRI Japan, Inc.
41 views29 slides
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...NTT DATA Technology & Innovation
73 views42 slides
SNMPセキュリティ超入門 by
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門mkoda
175 views15 slides

Recently uploaded(12)

SSH応用編_20231129.pdf by icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4172 views
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
The Things Stack説明資料 by The Things Industries by CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.41 views
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
SNMPセキュリティ超入門 by mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda175 views
Windows 11 information that can be used at the development site by Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka71 views
さくらのひやおろし2023 by 法林浩之
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023
法林浩之91 views
Web3 Career_クレデン資料 .pdf by nanamatsuo
Web3 Career_クレデン資料 .pdfWeb3 Career_クレデン資料 .pdf
Web3 Career_クレデン資料 .pdf
nanamatsuo14 views
01Booster Studio ご紹介資料 by ssusere7a2172
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料
ssusere7a2172300 views
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)

青空文庫テキストフォーマットについて (aozorahack)