SlideShare a Scribd company logo
Submit Search
Upload
青空文庫テキストフォーマットについて (aozorahack)
Report
Share
masayoshi takahashi
E-Book Publisher / Web Application Developer
Follow
•
3 likes
•
4,869 views
1
of
45
青空文庫テキストフォーマットについて (aozorahack)
•
3 likes
•
4,869 views
Report
Share
Download Now
Download to read offline
Technology
OSC 2017 Tokyo/Springのaozorahackセッションで発表した際の資料です。
Read more
masayoshi takahashi
E-Book Publisher / Web Application Developer
Follow
Recommended
DBpedia Japanese by
DBpedia Japanese
Fumihiro Kato
3.4K views
•
23 slides
it研修講座 by
it研修講座
annulus
1.6K views
•
39 slides
itkensyukouza2008 by
itkensyukouza2008
annulus
292 views
•
39 slides
京都 IT講座 9月 by
京都 IT講座 9月
annulus
289 views
•
39 slides
京都IT研修講座 by
京都IT研修講座
annulus
346 views
•
39 slides
京都 IT講座 9月 by
京都 IT講座 9月
annulus
669 views
•
39 slides
More Related Content
More from masayoshi takahashi
osc2019tokyospring by
osc2019tokyospring
masayoshi takahashi
8.3K views
•
26 slides
Ruby25: Rubyの1/4世紀 by
Ruby25: Rubyの1/4世紀
masayoshi takahashi
4.5K views
•
131 slides
Code for 選挙とWikidata by
Code for 選挙とWikidata
masayoshi takahashi
3.9K views
•
37 slides
青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて by
青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて
masayoshi takahashi
9.5K views
•
54 slides
Aozorahack20161106 by
Aozorahack20161106
masayoshi takahashi
2K views
•
17 slides
aozorahack hackathon #1 by
aozorahack hackathon #1
masayoshi takahashi
1.9K views
•
58 slides
More from masayoshi takahashi
(20)
osc2019tokyospring by masayoshi takahashi
osc2019tokyospring
masayoshi takahashi
•
8.3K views
Ruby25: Rubyの1/4世紀 by masayoshi takahashi
Ruby25: Rubyの1/4世紀
masayoshi takahashi
•
4.5K views
Code for 選挙とWikidata by masayoshi takahashi
Code for 選挙とWikidata
masayoshi takahashi
•
3.9K views
青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて by masayoshi takahashi
青空文庫と式年遷宮アーキテクチャ: 青空文庫200周年に向けて
masayoshi takahashi
•
9.5K views
Aozorahack20161106 by masayoshi takahashi
Aozorahack20161106
masayoshi takahashi
•
2K views
aozorahack hackathon #1 by masayoshi takahashi
aozorahack hackathon #1
masayoshi takahashi
•
1.9K views
TdX#01 RubyKaigiの作り方 by masayoshi takahashi
TdX#01 RubyKaigiの作り方
masayoshi takahashi
•
5.9K views
aozorahackと青空文庫の現状とこれから (OSC 2016 Tokyo/Spring) by masayoshi takahashi
aozorahackと青空文庫の現状とこれから (OSC 2016 Tokyo/Spring)
masayoshi takahashi
•
3.3K views
オープンソースとプラットフォームとお金 by masayoshi takahashi
オープンソースとプラットフォームとお金
masayoshi takahashi
•
13.3K views
Webと電子書籍の話 by masayoshi takahashi
Webと電子書籍の話
masayoshi takahashi
•
3.2K views
Re:VIEW新パーサ現状確認(2015年2月版) by masayoshi takahashi
Re:VIEW新パーサ現状確認(2015年2月版)
masayoshi takahashi
•
3.8K views
何となく勉強した気分になれるパーサ入門 by masayoshi takahashi
何となく勉強した気分になれるパーサ入門
masayoshi takahashi
•
35.8K views
How To Become A Rubyist by masayoshi takahashi
How To Become A Rubyist
masayoshi takahashi
•
13.1K views
Markdownもはじめよう by masayoshi takahashi
Markdownもはじめよう
masayoshi takahashi
•
34.7K views
新・ReVIEWパーサについて by masayoshi takahashi
新・ReVIEWパーサについて
masayoshi takahashi
•
8.1K views
電子出版はどこを 目指すのか・技術書編 by masayoshi takahashi
電子出版はどこを 目指すのか・技術書編
masayoshi takahashi
•
29.9K views
The History of Ruby; 20th Anniversary Ed. by masayoshi takahashi
The History of Ruby; 20th Anniversary Ed.
masayoshi takahashi
•
10.6K views
lldecade2012 by masayoshi takahashi
lldecade2012
masayoshi takahashi
•
285.6K views
mruby for embedded systems by masayoshi takahashi
mruby for embedded systems
masayoshi takahashi
•
4.1K views
mrubyのすすめ by masayoshi takahashi
mrubyのすすめ
masayoshi takahashi
•
3.6K views
Recently uploaded
SSH応用編_20231129.pdf by
SSH応用編_20231129.pdf
icebreaker4
172 views
•
13 slides
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Knowledge & Experience
8 views
•
34 slides
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
13 views
•
38 slides
The Things Stack説明資料 by The Things Industries by
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.
41 views
•
29 slides
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
NTT DATA Technology & Innovation
73 views
•
42 slides
SNMPセキュリティ超入門 by
SNMPセキュリティ超入門
mkoda
175 views
•
15 slides
Recently uploaded
(12)
SSH応用編_20231129.pdf by icebreaker4
SSH応用編_20231129.pdf
icebreaker4
•
172 views
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Knowledge & Experience
•
8 views
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
•
13 views
The Things Stack説明資料 by The Things Industries by CRI Japan, Inc.
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.
•
41 views
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
NTT DATA Technology & Innovation
•
73 views
SNMPセキュリティ超入門 by mkoda
SNMPセキュリティ超入門
mkoda
•
175 views
Windows 11 information that can be used at the development site by Atomu Hidaka
Windows 11 information that can be used at the development site
Atomu Hidaka
•
71 views
さくらのひやおろし2023 by 法林浩之
さくらのひやおろし2023
法林浩之
•
91 views
Web3 Career_クレデン資料 .pdf by nanamatsuo
Web3 Career_クレデン資料 .pdf
nanamatsuo
•
14 views
JJUG CCC.pptx by Kanta Sasaki
JJUG CCC.pptx
Kanta Sasaki
•
6 views
01Booster Studio ご紹介資料 by ssusere7a2172
01Booster Studio ご紹介資料
ssusere7a2172
•
300 views
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
•
233 views
青空文庫テキストフォーマットについて (aozorahack)
1.
青空文庫テキスト フォーマットについて 2017/03/11 aozorahack/株式会社達人出版会 高橋征義
2.
クイズで学ぶ 青空文庫 (フォーマット編)
3.
第1問 青空文庫公式サイトでサポートし ていないファイル形式はどれ? 1) テキストファイル 2) HTML 3)
Word 4) エキスパンドブック 5) PalmDoc
4.
第1問 青空文庫公式サイトでサポートし ていないファイル形式はどれ? 1) テキストファイル 2) HTML 3)
Word 4) エキスパンドブック 5) PalmDoc
5.
稀少なフォーマット ● PDF: http://www.aozora.gr.jp/cards/000029/card 227.html 伽藍とバザール ●
エキスパンドブック: http://www.aozora.gr.jp/cards/000005/card 5.html あいびき ● palmdoc: http://www.aozora.gr.jp/cards/000114/card 608.html モウグリの兄弟たち
6.
青空文庫のテキストファイル ● 青空文庫の独自記法 – 「青空文庫形式」 ●
HTMLファイルに変換 – テキストファイルからHTML ファイルへは自動変換が可能
7.
青空文庫形式の特徴 ● 人間が読みやすい – 機械では解析しづらい ●
全角文字を記法に使う ● 「見た目」のための記法 – 「5字下げ」とか「改ページ」とか HTML・XMLやTeX等、他の記法と比べると かなり独特な記法になっている
8.
http://www.aozora.gr.jp/cards/001095/files/42626_ruby_59990.zip
9.
青空文庫形式 ● 大きく4つの部分に分かれる – ヘッダ –
注記の説明 – 本文 – フッタ ヘッダ 注記の説明 フッタ 本文
10.
ヘッダ ● タイトル ● 著者 ●
サブタイトル(もしあれば) ● 原題(もしあれば) ● 訳者(もしあれば)
11.
ヘッダの例 方丈記 鴨長明 (空行)
12.
ヘッダの例 半七捕物帳 猫騒動 岡本綺堂 (空行)
13.
【テキスト中に現れる記号について】 ------------------------------------------------------- 【テキスト中に現れる記号について】 《》:ルビ (例)三毛《みけ》猫 |:ルビの付く文字列の始まりを特定する記号 (例)寛政|申《さる》年生まれ [#]:入力者注 主に外字の説明や、傍点の位置の指定 (数字は、JIS X 0213の面区点番号またはUnicode、底本のページと行数) (例)※[#「日+向」、第3水準1-85-25] -------------------------------------------------------
14.
フッタの例 底本:「時代推理小説 半七捕物帳(一)」光文社文庫、光文社 1985(昭和60)年11月20日初版1刷発行 入力:tatsuki 校正:山本奈津恵 1999年7月24日公開 2012年6月12日修正 青空文庫作成ファイル: このファイルは、インターネットの図書館、青空文庫 (http://www.aozora.gr.jp/)で作られました。入力、校正、制 作にあたったのは、ボランティアの皆さんです。
15.
全体の構成 【ヘッダ】 (空行*1) -------- 【テキスト中に現れる記号について】 -------- 【本文】 (空行*3) 【フッタ】
16.
クイズ・第2問 青空文庫記法で対応していないも のはどれ? 1) 改ページ 2) 表 3)
画像 4) 罫線(罫囲み) 5) 返り点
17.
クイズ・第2問 青空文庫記法で対応していないも のはどれ? 1) 改ページ 2) 表 3)
画像 4) 罫線(罫囲み) 5) 返り点
18.
青空文庫の注記記法 【[#……]】という形 – [#改ページ] – [#挿絵1(fig54921_04.png、横 336×縦400)入る]
19.
字下げの例 …ここでもっと大事なのは論述のスタイルで ある。 [#3字下げ]灰いろの抽象の世に住まんに は濃きに過ぎたる煩悩の色 九鬼周造が詩と短歌をかなり数多く残し、 …
20.
字下げの例 …然し愚な純な弱い白が、主人夫妻にはいつまでも忘られぬので ある。 [#ここから5字下げ] 白は大正七年一月十四日の夜半病死し、赤沢君の山の上の小家の 梅の木陰に葬られました。甲州に往って十年です。村の人々が赤 沢君に白のクヤミを言うたそうです。「白は人となり候」と赤沢 君のたよりにありました。「白」は幸福な犬です。 大正十二年二月九日追記 [#ここで字下げ終わり]
21.
見出し 序文[#「序文」は大見出し]
22.
見出しの例 [#2字下げ]上 先生と私[#「上 先生と私」は大見出し] [#5字下げ]一[#「一」は中見出し] 私《わたくし》はその人を常に先生と呼んでいた。だからここ でもただ先生と書くだけで本名は打ち明けない。これは世間を憚 《はば》かる遠慮というよりも、その方が私にとって自然だから である。私はその人の記憶を呼び起すごとに、すぐ「先生」とい いたくなる。筆を執《と》っても心持は同じ事である。よそよそ しい頭文字《かしらもじ》などはとても使う気にならない。
23.
ルビの例 [#2字下げ]上 先生と私[#「上 先生と私」は大見出し] [#5字下げ]一[#「一」は中見出し] 私《わたくし》はその人を常に先生と呼んでいた。だからここ でもただ先生と書くだけで本名は打ち明けない。これは世間を憚 《はば》かる遠慮というよりも、その方が私にとって自然だから である。私はその人の記憶を呼び起すごとに、すぐ「先生」とい いたくなる。筆を執《と》っても心持は同じ事である。よそよそ しい頭文字《かしらもじ》などはとても使う気にならない。
24.
ルビの例 http://www.aozora.gr.jp/cards/000148/files/773_14560.html
25.
罫囲み [#ここから1段階小さな文字] [#ここから1字下げ] [#ここから41字詰め] [#ここから罫囲み] 附記[#「附記」は太字] この探偵小説には私が懸賞をだします。犯人を推定した最も優秀な答 案に、この小説の解決篇の原稿料を呈上します。細目はいずれ、誌上に発表しますが、だいたい、 九回か十回連載の予定、大いに皆さんと知慧くらべをやりましょう。当らなければ、原稿料は差上 げませんよ。たいがい、差上げずに、すむでしょう。[#地から1字上げ]坂口安吾 [#ここで罫囲み終わり] [#ここで字詰め終わり] [#ここで字下げ終わり] [#ここで小さな文字終わり] [#5字下げ]四 第一の殺人[#「四 第一の殺人」は中見出し] http://www.aozora.gr.jp/cards/001095/files/42626_60035.html
26.
罫囲み [#ここから1段階小さな文字] [#ここから1字下げ] [#ここから41字詰め] [#ここから罫囲み] 附記[#「附記」は太字] この探偵小説には私が懸賞をだします。犯人を推定した最も優秀な答 案に、この小説の解決篇の原稿料を呈上します。細目はいずれ、誌上に発表しますが、だいたい、 九回か十回連載の予定、大いに皆さんと知慧くらべをやりましょう。当らなければ、原稿料は差上 げませんよ。たいがい、差上げずに、すむでしょう。[#地から1字上げ]坂口安吾 [#ここで罫囲み終わり] [#ここで字詰め終わり] [#ここで字下げ終わり] [#ここで小さな文字終わり] [#5字下げ]四 第一の殺人[#「四 第一の殺人」は中見出し]
27.
クイズ・第3問 青空文庫で使っている文字集合はどの 範囲まで? 1) JIS X
0208(第1・2水準) 2) JIS X 0213(第3・4水準) 3) UnicodeのBMP(〜U+FFFF)まで 4) Unicode 6.0全て 5) それ以上
28.
クイズ・第3問 青空文庫で使っている文字集合はどの 範囲まで? 1) JIS X
0208(第1・2水準) 2) JIS X 0213(第3・4水準) 3) UnicodeのBMP(〜U+FFFF)まで 4) Unicode 6.0全て 5) それ以上
29.
青空文庫と文字コード ● テキストはJIS X
0208(Shift_JIS) で記述する – 包摂規準はJIS X 0213ではなく JIS X 0208の包摂規準を使う ● JIS X 0208で記述できない文字に ついては外字記法を使う
30.
外字記法 ※[#「てへん+劣」、第3水準1-84-77] → 挘 ※[#「二/二」、U+4E96、167-2] → 亖
31.
外字記法 ※[#「仝」の「工」に代えて 「サ」、屋号を示す記号、75-9] http://www.e-yamasa.com/
32.
http://www.aozora.gr.jp/gaiji_chuki/index.html
33.
http://www.aozora.gr.jp/gaiji_chuki/gaiji_chuki.pdf
34.
青空文庫形式 テキストファイルを 扱えるツール
35.
aozora2html ● 青空文庫形式のテキストファイル をHTMLに変換するツール ● 青空文庫で配布しているtxt2html (t2hs.rb)
を改造したもの ● 2017/03/10リリースのver.0.9.0 で大幅改造 ● ライセンス: CC0
36.
https://rubygems.org/gems/aozora2html/
37.
AozoraEpub3 ● 「青空文庫の注記入りテキスト ファイルをePub3ファイル(zip圧 縮)に変換するツールです。」 ● ライセンス:
GPL
38.
https://github.com/hmdev/AozoraEpub3
39.
青空文庫形式 テキストファイルと 青空文庫CSV
40.
テキストファイルの探し方 ● 青空文庫のサイトの図書カードか ら探す ● 青空文庫のCSVファイルから探す
41.
図書カード
42.
図書カード
43.
青空文庫CSVファイル ● 青空文庫で配布している「作家別 作品一覧拡充版CSVファイル」
44.
https://github.com/aozorahack/hackathon2016/blob/master/doc/csv.md
45.
テーブル構成