Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

JATSへのタグ提案とその結果にみる規程国際化

73 views

Published on

2017年12月2日出版学会秋期研究発表会での発表スライドです。

  • Be the first to comment

  • Be the first to like this

JATSへのタグ提案とその結果にみる規程国際化

  1. 1. JATS へのタグ提案とその結 果にみる規定国際化 2017.12.2 日本出版学会秋期研究発表会 中西秀彦 中西印刷株式会社・学術情報 XML 推進協議会 hidena@nacos.com
  2. 2. 表現と構造 • 文書表現はテキストだけでなくメリハリ がつく。 • メリハリは人間が文書の構造をよみとり やすくするため。 – 本文・タイトル・サブタイトル・視引用文献 等の構造 – タイトルを表現するのに字を大きくする必然 性はない。 • 文書表現のメリハリ自体は構造ではない 2
  3. 3. 表現と構造の分離 • 表現形式と構造の分離 • PDF から XML 記載へ
  4. 4. スキーマ • 構造の形式を指定するための定義 • さまざまなものがある – NLM-DTD   • 米国医学図書館が医学雑誌オンラインジャーナル 用に策定 – JATS • NLM-DTD を学術雑誌全般に一般化  – BITS • JATS を書籍にまで一般化 4
  5. 5. JATS • Journal Article Tag Suite (JATS) – NLM DTD 3.1 (draft) が NISO に移行 – JATS version 0.4 – version 1.0 は 2012/8/9 に ANSI 承認、公開 – 現在 1.1   • 世界的にデファクトスタンダード化 • 論文雑誌はすべて JATS で記述 – 日本では J-STAGE( 科学技術振興機構のオンラ インジャーナル)が採用⇒義務化 5
  6. 6. JATS の多言語化・国際化 • <name-alternatives> ラッパー 6
  7. 7. 日本からの提案で採用 7 <ruby> ルビ <era> 元号表記
  8. 8. 他言語理解の限界 の例 2014/11/29 8
  9. 9. 傍点問題 9 • NISO JATS Standing Committee   2013.9.9 – 「一般的な <emphasis> は <styled-content> がすでに利用でき るので追加しない」       – 傍点は強調の一形式であって、構造ではない。別に他の 強調形式で表現されても良い。 – どうしても必要なら、 <styled-content> があるのでそれを 使えばいい。⇒ <bold><italic><underline> とは同列ではな い。
  10. 10. 傍点の意味 • 我儘で思い出したからちょっと吾輩の家の主人がこの我儘で失敗し た話をしよう。元来この主人は何といって人に勝れて出来る事もな いが、何にでもよく手を出したがる。俳句をやってほととぎす[# 「ほととぎす」に傍点]へ投書をしたり、新体詩を明星[#「明星 」に傍点]へ出したり、間違いだらけの英文をかいたり、時による と弓に凝ったり、謡を習ったり、またあるときはヴァイオリンなど をブーブー鳴らしたりするが、気の毒な事には、どれもこれも物に なっておらん。その癖やり出すと胃弱の癖にいやに熱心だ。後架の 中で謡をうたって、近所で後架先生と渾名をつけられているにも関 せず一向平気なもので、やはりこれは平の宗盛にて候を繰返してい る。 • ここの傍点は強調ではなくて誌名を意味してい る。 10 夏目漱石「我が輩は猫である」一章抜粋 青空文庫 txt 文書
  11. 11. 傍点タグへの再挑戦 • アジア圏からの援軍 – 翻訳文書のタグ貼り替え問題 – ひとつの文書を多言語に展開する場合の不都 合 – 言語によって、強調表現の形式が違う – 詳細が表現できない 11
  12. 12. 共通 <emphasis> タグ提案 <emphasis style-type="strikethrough">old data</emphasis> <emphasis style-type="dot" style-detail="open"> あいうえお </emphasis> • 個々の強調表現 ( たとえば傍点 ) を言語毎にタグ化 するのではなく、強調というタグを作っておいて、 その中で詳細に規定する。日本語だけのために存在 するのではない! • イタリックも以下で表現 • <emphasis style-type="italic">Z.mays</emphasis> • ただし <bold> タグや <italic> タグを否定するのでは ない • 2016 年 8 月 31 日提案 受理
  13. 13. style-type style-detail • <emphasis style- type="strikethrough">old data</emphasis> • <emphasis style-type="dot" style- detail="open"> あいうえお </emphasis> 13
  14. 14. 提案結果 <emphasis> • <script-emphasis> タグという新エレメント 導入案が出たが • 最終的に 2017 年 3 月 10 日拒絶 • <styled-content> で代替するという原案回 帰 • ただし • @style-detail を導入 実質的に圏点表記が 可能に 14
  15. 15. 提案結果 <emphasis> • 実際、圏点「あいうえお」を記述すると以 下のようになる。 – < styled-content style-type="dot" style- detail=“open"> あいうえお </ styled-content > • 結論コメント「日本、韓国、タイ、中国、 アラブ、アルメニア等の言語でラテン系言 語にない強調指示が必要なことを理解する 」 • ただし、強調という意味表記は結局採用さ れず 15
  16. 16. <semantic> タグ提案 • <bold><italic><emphasis> などのタグを意味 として使うのはおかしいという提案 • たとえば、 <italic> は生物の属名を表すが 、これは生物の属名という意味を表現し たにすぎない • 意味は意味で独立したタグをつくり、そ の表現型とは分離すべき 16
  17. 17. • <semantic vocabulary="taxonomy" class="genus">Zea</semantic> • <semantic vocabulary="taxonomy" termname="species">Z. mays</semantic> • <semantic vocabulary="chemical" termname="chemical name">Aspirin</semantic> • <semantic vocabulary="Dublin Core" termname=" title" style-type="italic" style- detail="slant" >Catcher in the Rye</semantic> 17
  18. 18. 国際化とは意味と表現の分離 • 文書は今まで、意味と表現を分けてこな かった。 – 意味と表現は分かちがたく結びついていた • 国際化にあたっては、言語間の表現型の 差異を当然視できない • 意味と表現型を完全に分離することが必 要 – Bold や italic に意味を持たせない • 2016 年 8 月 31 日提案 受理 18
  19. 19. 提案結果 <semantic> • 2017 年 3 月 10 日拒絶 • 今までの体系を根本的に変えることにな り「危険」である • ただし 既存の <named-content> を用い る • 新規にアトリビュート導入 – @vocab, @vocab-identifier, @vocab-term, @vocab-term-identifier 19
  20. 20. 提案結果 <semantic> • <named-content vocab="taxonomy" vocab- term="genus">Zea</named-content> • <named-content vocab="taxonomy" vocab-term="species">Z. mays</named-content> • <named-content vocab="chemical" vocab-term="chemical name">Aspirin</named-content> • <named-content vocab="DCMI Metadata Terms" vocab- identifier="http://dublincore.org/documents/2012/06/14/dc es/" vocab-term="title" vocab-term- identifier="http://purl.org/dc/terms/title">Catcher in the Rye</named-content> 2014/11/29 20
  21. 21. <semantic> から <named- content>• 意味から名前の構造へと換骨奪胎された • しかし @vocab-identifier など、次世代のデ ータ記述に必要な概念が盛り込まれてい る • 元提案 <semantic vocabulary=“Dublin Core” termname=“ title” style-type=“italic” style- detail=“slant” >Catcher in the Rye</semantic> • 採用形式 <named-content vocab="DCMI Metadata Terms" vocab- identifier="http://dublincore.org/documents/2012/06/ 14/dces/" vocab-term="title" vocab-term- identifier="http://purl.org/dc/terms/title">Catcher in the Rye</named-content> 21
  22. 22. 結 論 • 世界全体の中での共通要素として主張 – 日本語にだけ必要というのは認められにくい – 日本語は特殊だと、とじこもるのではなく、 アジア諸言語の中で位置づける • いったん決められた構造をあとから覆す のは難しい – 既存のものになんとか押し込めようとしてく る – しかし、その中で新しい技術にも対応してく る – 欧米の組織に対して対抗しにくい2014/11/29 22
  23. 23. 今後に向けて • STM(Science Technology Medicine) では日本 語も英語も構造的に大差はない • 現状ではそれほど問題がない • が、 • 今後は和文・人文系という大物が控えて いる • 国際化基準にもりこむか、日本アジア独 自規格とするか 23
  24. 24. 佛経典のオンライン化 SAT 大正新脩大 藏經テキストデ ータベース 

×