SlideShare a Scribd company logo
文字の正統性

  2009/07/06
     t_yamo
動機 その1
某プロジェクト「○○(中国の人の姓)とい
う漢字をシステムで扱えるようにしたい」
某プロジェクト「サポート範囲外の漢字が
入力されたらサポート範囲内の漢字に自
動変換したい」


  そんな簡単に われても困
  そんな簡単に言われても困
     簡単
  ります。
  ります。
動機 その1
文字コードの事情
コードと見た目の事情
文字自体の事情

  技術的に可能な要件もあり
  技術的に可能な要件もあり
  ますが、単純な
  ますが、単純な話ではない
  ですよ。
  ですよ。
動機 その2
世の中には厳密に定義されているものは
少ない。
にも関わらず、それらについて、どこかに
正統な定義が存在しているかのように捉え
ている人たちもいる。

  今回は文字(
  今回は文字(主に漢字)を
           漢字)
  題材に 正統性の うさ」
  題材に「正統性の危うさ」を
   えてみましょう。
  考えてみましょう。
動機 その2
とは言っても、 だし、
とは言っても、5分だし、私が話
すので、疑問の提示だけして
          だけして終
すので、疑問の提示だけして終
わらせますよ。
わらせますよ。
ヤマなし
ヤマなし
  オチなし
  オチなし
   意味なし
   意味なし
でも怒らないように。
でも怒らないように。
問1
      ←これ、なんて読む?
       これ、なんて読
      答え:ソ、ス、あら・い
             あら・

意味:きめが粗
意味:きめが粗い、粗末な   粗末な
Unicode:
Unicode:9EA4
      0208:コード割当
               割当なし
JIS X 0208:コード割当なし
      0213: 94区76点
JIS X 0213:1面94区76点
漢検1級範囲で一番画数が いらしいですよ。
漢検1級範囲で一番画数が多いらしいですよ。
問1

これって漢字?
これって漢字?
    漢字
基本的には「漢字」
基本的には「漢字」と考える人が多そう。
   には      える人  そう。
問2
         ←これ、なんて読む?
          これ、なんて読
         答え:プラナリア

意味:プラナリア( んぼとかにいる生物)
意味:プラナリア(田んぼとかにいる生物)        生物
Unicode:      0208/0213:コード割当
                           割当なし
Unicode:JIS X 0208/0213:コード割当なし
2009/07/05にt_yamoが勝手に った漢字です。
2009/07/05にt_yamoが勝手に作った漢字です。漢字です
問2

これって漢字?
これって漢字?
    漢字
基本的には「漢字」
基本的には「漢字」と考える人が少なそう。
        には        える人   なそう。
でも、なんで?
でも、なんで?
 最近、できたものだから?
・最近、できたものだから?
      いつできたものならOK
 → いつできたものならOK?    OK?
 t_yamoが ったから?
・t_yamoが作ったから?
            ったものならOK
 → 誰が作ったものならOK?    OK?
 文字コード 採番されてないから
      コードが     されてないから?
・文字コードが採番されてないから?
      どの文字コードならOK?
          文字コードならOK
 → どの文字コードならOK?
      t_yamoコード 採番してもだめ
            コード」    してもだめ?
     「t_yamoコード」を採番してもだめ?
問3
         ←これ、なんて読む?
          これ、なんて読
         答え:たいと

意味:
意味:不明
Unicode:      0208/0213:コード割当
                           割当なし
Unicode:JIS X 0208/0213:コード割当なし
TRONコード
     コード: 7D6B番
TRONコード:3面7D6B番
         タイ」           トウ」 合字っぽい
雲×3の「タイ」と龍×3の「トウ」の合字っぽい。      っぽい。
1960年代にある生命保険会社
    年代にある生命保険会社に れた人
1960年代にある生命保険会社に現れた人が残し
ていった名刺にあったらしいが、実際にそんな
       名刺にあったらしいが
ていった名刺にあったらしいが、実際にそんな苗字     にそんな苗字
があるのか否かは不明らしい。
があるのか否かは不明らしい。   不明らしい
問3

これって漢字?
これって漢字?
    漢字
意見が かれそう。
意見が分かれそう。
でも、なんで?
でも、なんで?
  漢字」ではないなら「あら・ との違いは?
・「漢字」ではないなら「あら・い」との違いは?
  漢字」なら「プラナリア」との違いは?
・「漢字」なら「プラナリア」との違いは?
由来の怪しい漢字たち
墸壥妛彁挧暃椢槞蟐袮閠
駲
上記12個 漢字はJIS基本漢字(いわゆる第 水準/
上記12個の漢字はJIS基本漢字(いわゆる第1水準/第2
   12       基本漢字
水準)   まれるが、典拠不明とされているもの。「幽霊漢
               とされているもの。「
水準)に含まれるが、典拠不明とされているもの。「幽霊漢
 」「幽霊文字
   幽霊文字」  ばれる。
字」「幽霊文字」と呼ばれる。

その後 調査で
その後の調査で「彁」以外は類似文字や写し間違いの可能
          以外は類似文字や  間違いの可能
                      いの
  指摘されるが
    されるが「     がかりなし。
性が指摘されるが「彁」は手がかりなし。


   普通に入力できる漢字にも「プラナリア」
   普通に入力できる漢字にも「プラナリア」並
        できる漢字にも
   みに由来
     由来の しいものがありますよ。
   みに由来の怪しいものがありますよ。
問4:左右は同じ字?違う字?
            0208/0213では 包摂」
                     では「
      JIS X 0208/0213では「包摂」として
            として扱われる。
      同じ字として扱われる。
           については、「例示字体」
                    、「例示字体
      「辻」については、「例示字体」として
         のものと2 のものが差
      1点のものと2点のものが差し変
      わった経緯があるため、フォント表
            経緯があるため
      わった経緯があるため、フォント表
          ブレが やすい。
      現にブレが出やすい。
      表示を けたい場合でも基本的場合でも基本的に
      表示を分けたい場合でも基本的に
      はあきらめてください。
      はあきらめてください。

      左はラテン文字のA、右はギリシャ
        ラテン文字の
             文字
      文字の
      文字のA。
      フォントのつくりによっては同一に
          のつくりによっては同一
      フォントのつくりによっては同一に見
      えるが、      0208/0213では
                         では異
      えるが、JIS X 0208/0213では異な
       コードを採番。
      るコードを採番。
包摂/例示字体
                    文字集合(JIS X 0208)

          33区80点
 33区79点       草     33区81点
   聡                  壮

       同じ文字符号=同じ文字




       例示字体       例示字体に包摂された字体
Unicode上の横棒たち(混ぜるな危険)
U+002D:HYPHEN-MINUS
U+2212:MINUS SIGN
U+FF0D:FULLWIDTH HYPHEN-MINUS
U+30FC:KATAKANA-HIRAGANA PROLONGED SOUND
MARK
U+2012:FIGURE DASH
U+2013:EN DASH
U+2014:EM DASH
U+2015:HORIZONTAL BAR
U+2500:BOX DRAWINGS LIGHT HORIZONTAL

     当然、いくら見た目が似ていても、混在させ
     当然、いくら見    ていても、混在させ
      場合は単純に比較して検索しようとしても
               して検索
     た場合は単純に比較して検索しようとしても
     一致しませんから
       しませんから。
     一致しませんから。
おまけ:これって何文字?

          答え:1文字。普通だね。
              文字。普通だね。
                   だね


これは古文でよくでてくる「より」という字
これは古文でよくでてくる「より」という字。
     古文でよくでてくる
         文字に わさったもの。
「よ」と「り」が1文字に合わさったもの。
複数の文字を結合した文字を合字(リガチャ)という。
            した文字
複数の文字を結合した文字を合字(リガチャ)という。
じつは「    ラテン語      」、「@    」「d 合字らし
じつは「&」はラテン語の「e」と「t」、「@」は「a」「d」の合字らし
  。「$」は 」「S   有力。
い。「$」は「P」「S」説が有力。
  れていったものもあるが、「麻呂」
               、「麻呂
廃れていったものもあるが、「麻呂」→「麿」や「久米」→  久米」
         ってるっぽい。
「粂」は生き残ってるっぽい。
言いたいこと
AとBは同じ文字か?
どの単位で1字とみなすのか?
Aは正統な文字なのか?
と、いうのは簡単な話ではありませ
  いうのは簡単な
       簡単
んよ。
んよ。
システムでいろんな要件を
     でいろんな要件
システムでいろんな要件を満たすた
めには下準備 必要ですよ
    下準備が   ですよ。
めには下準備が必要ですよ。
文字って
   って奥   いですね。
文字って奥が深いですね。
参考
幽霊文字
http://ja.wikipedia.org/wiki/%E5%B9%BD%E9%9C%8A%E6%96%87%E5%AD%97

たいと
http://ja.wikipedia.org/wiki/%E3%81%9F%E3%81%84%E3%81%A8

JIS X 0208
http://ja.wikipedia.org/wiki/JIS_X_0208#.E5.85.B8.E6.8B.A0.E4.B8.8D.E6.98.8E.E3.81.AE.E6.BC.A2.E5.AD.97

ISO/IEC 2022
http://ja.wikipedia.org/wiki/ISO/IEC_2022

文字概念と包摂
http://www.tim.hi-ho.ne.jp/hebiguchi/KanjiCode/housetsu.htm

青空文庫:「ケ」のように見える文字の入力について
http://attic.neophilia.co.jp/aozora/task/small_or_large/2007_list.html

JIS X 0208と0213規格票の包摂関連項目
http://www.aozora.gr.jp/hosetsu_kijyun/index.html

1点しんにょうの辻と2点しんにょうの辻
http://slashdot.jp/~yasuoka/journal/417201

こせきの技術日記:Unicodeのハイフンっぽい文字いろいろ




                                                                                                          完
http://d.hatena.ne.jp/koseki2/20070927/unicodehyphen

より
http://ja.wikipedia.org/wiki/%E3%82%88%E3%82%8A

合字
http://ja.wikipedia.org/wiki/%E5%90%88%E5%AD%97

More Related Content

Viewers also liked

1 MglausCom 25112012
1 MglausCom 251120121 MglausCom 25112012
1 MglausCom 25112012
Gegeen Australia
 
FAMILY TREE STRUCTURE
FAMILY TREE STRUCTUREFAMILY TREE STRUCTURE
FAMILY TREE STRUCTURE
ahLot
 
Wrapping an api with a ruby gem
Wrapping an api with a ruby gemWrapping an api with a ruby gem
Wrapping an api with a ruby gem
James Thompson
 
Eurasia In The Global Economy | Alan Greenhalgh
Eurasia In The Global Economy | Alan GreenhalghEurasia In The Global Economy | Alan Greenhalgh
Eurasia In The Global Economy | Alan Greenhalgh
Shinesquad
 
10 Minutes to Domain Success
10 Minutes to Domain Success10 Minutes to Domain Success
10 Minutes to Domain Success
Resort Opportunities(tm)
 
Standard ot sb presentation updated 20130402
Standard ot sb presentation updated 20130402Standard ot sb presentation updated 20130402
Standard ot sb presentation updated 20130402
Gegeen Australia
 
PART I.4 - Physical Mathematics
PART I.4 - Physical MathematicsPART I.4 - Physical Mathematics
PART I.4 - Physical Mathematics
Maurice R. TREMBLAY
 
Edventures1
Edventures1Edventures1
REPORT IN ETHICS
REPORT IN ETHICSREPORT IN ETHICS
REPORT IN ETHICS
ahLot
 
Dad 1
Dad 1Dad 1
Learn Ruby 2011 - Session 2
Learn Ruby 2011 - Session 2Learn Ruby 2011 - Session 2
Learn Ruby 2011 - Session 2
James Thompson
 
Seo search engine_optimisation
Seo search engine_optimisationSeo search engine_optimisation
Seo search engine_optimisation
Edventures1 Learning Solutions
 
Before & After Project Ed 546 & 548
Before & After Project Ed 546 & 548Before & After Project Ed 546 & 548
Before & After Project Ed 546 & 548
weisenhornkm
 
テレビや新聞に未来はあるか
テレビや新聞に未来はあるかテレビや新聞に未来はあるか
テレビや新聞に未来はあるかguestf7fcfc7
 
Vivix Consumer
Vivix ConsumerVivix Consumer
Vivix Consumer
Stacey Howard
 
Men
MenMen
Reputation Management In The Era Of Social Media
Reputation Management In The Era Of Social MediaReputation Management In The Era Of Social Media
Reputation Management In The Era Of Social Media
Ben Maynard
 
Helath mangement in business
Helath mangement in business Helath mangement in business
Helath mangement in business
Hélder Silva
 
Turkey -Tax And Social Security Legislation Annual Update 2011
Turkey -Tax And Social Security Legislation Annual Update 2011Turkey -Tax And Social Security Legislation Annual Update 2011
Turkey -Tax And Social Security Legislation Annual Update 2011
Shinesquad
 

Viewers also liked (20)

1 MglausCom 25112012
1 MglausCom 251120121 MglausCom 25112012
1 MglausCom 25112012
 
FAMILY TREE STRUCTURE
FAMILY TREE STRUCTUREFAMILY TREE STRUCTURE
FAMILY TREE STRUCTURE
 
Wrapping an api with a ruby gem
Wrapping an api with a ruby gemWrapping an api with a ruby gem
Wrapping an api with a ruby gem
 
Eurasia In The Global Economy | Alan Greenhalgh
Eurasia In The Global Economy | Alan GreenhalghEurasia In The Global Economy | Alan Greenhalgh
Eurasia In The Global Economy | Alan Greenhalgh
 
10 Minutes to Domain Success
10 Minutes to Domain Success10 Minutes to Domain Success
10 Minutes to Domain Success
 
Standard ot sb presentation updated 20130402
Standard ot sb presentation updated 20130402Standard ot sb presentation updated 20130402
Standard ot sb presentation updated 20130402
 
PART I.4 - Physical Mathematics
PART I.4 - Physical MathematicsPART I.4 - Physical Mathematics
PART I.4 - Physical Mathematics
 
Edventures1
Edventures1Edventures1
Edventures1
 
Noviembre
NoviembreNoviembre
Noviembre
 
REPORT IN ETHICS
REPORT IN ETHICSREPORT IN ETHICS
REPORT IN ETHICS
 
Dad 1
Dad 1Dad 1
Dad 1
 
Learn Ruby 2011 - Session 2
Learn Ruby 2011 - Session 2Learn Ruby 2011 - Session 2
Learn Ruby 2011 - Session 2
 
Seo search engine_optimisation
Seo search engine_optimisationSeo search engine_optimisation
Seo search engine_optimisation
 
Before & After Project Ed 546 & 548
Before & After Project Ed 546 & 548Before & After Project Ed 546 & 548
Before & After Project Ed 546 & 548
 
テレビや新聞に未来はあるか
テレビや新聞に未来はあるかテレビや新聞に未来はあるか
テレビや新聞に未来はあるか
 
Vivix Consumer
Vivix ConsumerVivix Consumer
Vivix Consumer
 
Men
MenMen
Men
 
Reputation Management In The Era Of Social Media
Reputation Management In The Era Of Social MediaReputation Management In The Era Of Social Media
Reputation Management In The Era Of Social Media
 
Helath mangement in business
Helath mangement in business Helath mangement in business
Helath mangement in business
 
Turkey -Tax And Social Security Legislation Annual Update 2011
Turkey -Tax And Social Security Legislation Annual Update 2011Turkey -Tax And Social Security Legislation Annual Update 2011
Turkey -Tax And Social Security Legislation Annual Update 2011
 

Similar to 文字の正統性

Let's write understandable Japanese! (Complete Version)
Let's write understandable Japanese! (Complete Version)Let's write understandable Japanese! (Complete Version)
Let's write understandable Japanese! (Complete Version)
Yoshinobu Machida
 
縦書き同人小説の書き方・決まりまとめ
縦書き同人小説の書き方・決まりまとめ縦書き同人小説の書き方・決まりまとめ
縦書き同人小説の書き方・決まりまとめ
nekomatatei
 
Ngữ pháp trong tiếng Nhật 5 - 7
Ngữ pháp trong tiếng Nhật 5 - 7Ngữ pháp trong tiếng Nhật 5 - 7
Ngữ pháp trong tiếng Nhật 5 - 7Japanese Club
 
Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Japanese Club
 
鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門Hiroyoshi Komatsu
 
Japanese: a programmers language
Japanese: a programmers languageJapanese: a programmers language
Japanese: a programmers language
Andrew Grimm
 
The Handbook of English Grammar for Japanese Learners
The Handbook of English Grammar for Japanese LearnersThe Handbook of English Grammar for Japanese Learners
The Handbook of English Grammar for Japanese Learners
SpeakGlobal, Ltd.
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
Kei Uchiumi
 

Similar to 文字の正統性 (9)

Let's write understandable Japanese! (Complete Version)
Let's write understandable Japanese! (Complete Version)Let's write understandable Japanese! (Complete Version)
Let's write understandable Japanese! (Complete Version)
 
縦書き同人小説の書き方・決まりまとめ
縦書き同人小説の書き方・決まりまとめ縦書き同人小説の書き方・決まりまとめ
縦書き同人小説の書き方・決まりまとめ
 
Ngữ pháp trong tiếng Nhật 5 - 7
Ngữ pháp trong tiếng Nhật 5 - 7Ngữ pháp trong tiếng Nhật 5 - 7
Ngữ pháp trong tiếng Nhật 5 - 7
 
Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9Ngữ pháp trong tiếng Nhật 8 - 9
Ngữ pháp trong tiếng Nhật 8 - 9
 
鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門鬱くしい日本語のための形態素解析入門
鬱くしい日本語のための形態素解析入門
 
Japanese: a programmers language
Japanese: a programmers languageJapanese: a programmers language
Japanese: a programmers language
 
The Handbook of English Grammar for Japanese Learners
The Handbook of English Grammar for Japanese LearnersThe Handbook of English Grammar for Japanese Learners
The Handbook of English Grammar for Japanese Learners
 
Drill_&_Drill_N1-Moji_Goi.pdf
Drill_&_Drill_N1-Moji_Goi.pdfDrill_&_Drill_N1-Moji_Goi.pdf
Drill_&_Drill_N1-Moji_Goi.pdf
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 

Recently uploaded

Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 

Recently uploaded (10)

Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 

文字の正統性

  • 3. 動機 その1 文字コードの事情 コードと見た目の事情 文字自体の事情 技術的に可能な要件もあり 技術的に可能な要件もあり ますが、単純な ますが、単純な話ではない ですよ。 ですよ。
  • 4. 動機 その2 世の中には厳密に定義されているものは 少ない。 にも関わらず、それらについて、どこかに 正統な定義が存在しているかのように捉え ている人たちもいる。 今回は文字( 今回は文字(主に漢字)を 漢字) 題材に 正統性の うさ」 題材に「正統性の危うさ」を えてみましょう。 考えてみましょう。
  • 5. 動機 その2 とは言っても、 だし、 とは言っても、5分だし、私が話 すので、疑問の提示だけして だけして終 すので、疑問の提示だけして終 わらせますよ。 わらせますよ。 ヤマなし ヤマなし オチなし オチなし 意味なし 意味なし でも怒らないように。 でも怒らないように。
  • 6. 問1 ←これ、なんて読む? これ、なんて読 答え:ソ、ス、あら・い あら・ 意味:きめが粗 意味:きめが粗い、粗末な 粗末な Unicode: Unicode:9EA4 0208:コード割当 割当なし JIS X 0208:コード割当なし 0213: 94区76点 JIS X 0213:1面94区76点 漢検1級範囲で一番画数が いらしいですよ。 漢検1級範囲で一番画数が多いらしいですよ。
  • 7. 問1 これって漢字? これって漢字? 漢字 基本的には「漢字」 基本的には「漢字」と考える人が多そう。 には える人 そう。
  • 8. 問2 ←これ、なんて読む? これ、なんて読 答え:プラナリア 意味:プラナリア( んぼとかにいる生物) 意味:プラナリア(田んぼとかにいる生物) 生物 Unicode: 0208/0213:コード割当 割当なし Unicode:JIS X 0208/0213:コード割当なし 2009/07/05にt_yamoが勝手に った漢字です。 2009/07/05にt_yamoが勝手に作った漢字です。漢字です
  • 9. 問2 これって漢字? これって漢字? 漢字 基本的には「漢字」 基本的には「漢字」と考える人が少なそう。 には える人 なそう。 でも、なんで? でも、なんで? 最近、できたものだから? ・最近、できたものだから? いつできたものならOK → いつできたものならOK? OK? t_yamoが ったから? ・t_yamoが作ったから? ったものならOK → 誰が作ったものならOK? OK? 文字コード 採番されてないから コードが されてないから? ・文字コードが採番されてないから? どの文字コードならOK? 文字コードならOK → どの文字コードならOK? t_yamoコード 採番してもだめ コード」 してもだめ? 「t_yamoコード」を採番してもだめ?
  • 10. 問3 ←これ、なんて読む? これ、なんて読 答え:たいと 意味: 意味:不明 Unicode: 0208/0213:コード割当 割当なし Unicode:JIS X 0208/0213:コード割当なし TRONコード コード: 7D6B番 TRONコード:3面7D6B番 タイ」 トウ」 合字っぽい 雲×3の「タイ」と龍×3の「トウ」の合字っぽい。 っぽい。 1960年代にある生命保険会社 年代にある生命保険会社に れた人 1960年代にある生命保険会社に現れた人が残し ていった名刺にあったらしいが、実際にそんな 名刺にあったらしいが ていった名刺にあったらしいが、実際にそんな苗字 にそんな苗字 があるのか否かは不明らしい。 があるのか否かは不明らしい。 不明らしい
  • 11. 問3 これって漢字? これって漢字? 漢字 意見が かれそう。 意見が分かれそう。 でも、なんで? でも、なんで? 漢字」ではないなら「あら・ との違いは? ・「漢字」ではないなら「あら・い」との違いは? 漢字」なら「プラナリア」との違いは? ・「漢字」なら「プラナリア」との違いは?
  • 12. 由来の怪しい漢字たち 墸壥妛彁挧暃椢槞蟐袮閠 駲 上記12個 漢字はJIS基本漢字(いわゆる第 水準/ 上記12個の漢字はJIS基本漢字(いわゆる第1水準/第2 12 基本漢字 水準) まれるが、典拠不明とされているもの。「幽霊漢 とされているもの。「 水準)に含まれるが、典拠不明とされているもの。「幽霊漢 」「幽霊文字 幽霊文字」 ばれる。 字」「幽霊文字」と呼ばれる。 その後 調査で その後の調査で「彁」以外は類似文字や写し間違いの可能 以外は類似文字や 間違いの可能 いの 指摘されるが されるが「 がかりなし。 性が指摘されるが「彁」は手がかりなし。 普通に入力できる漢字にも「プラナリア」 普通に入力できる漢字にも「プラナリア」並 できる漢字にも みに由来 由来の しいものがありますよ。 みに由来の怪しいものがありますよ。
  • 13. 問4:左右は同じ字?違う字? 0208/0213では 包摂」 では「 JIS X 0208/0213では「包摂」として として扱われる。 同じ字として扱われる。 については、「例示字体」 、「例示字体 「辻」については、「例示字体」として のものと2 のものが差 1点のものと2点のものが差し変 わった経緯があるため、フォント表 経緯があるため わった経緯があるため、フォント表 ブレが やすい。 現にブレが出やすい。 表示を けたい場合でも基本的場合でも基本的に 表示を分けたい場合でも基本的に はあきらめてください。 はあきらめてください。 左はラテン文字のA、右はギリシャ ラテン文字の 文字 文字の 文字のA。 フォントのつくりによっては同一に のつくりによっては同一 フォントのつくりによっては同一に見 えるが、 0208/0213では では異 えるが、JIS X 0208/0213では異な コードを採番。 るコードを採番。
  • 14. 包摂/例示字体 文字集合(JIS X 0208) 33区80点 33区79点 草 33区81点 聡 壮 同じ文字符号=同じ文字 例示字体 例示字体に包摂された字体
  • 15. Unicode上の横棒たち(混ぜるな危険) U+002D:HYPHEN-MINUS U+2212:MINUS SIGN U+FF0D:FULLWIDTH HYPHEN-MINUS U+30FC:KATAKANA-HIRAGANA PROLONGED SOUND MARK U+2012:FIGURE DASH U+2013:EN DASH U+2014:EM DASH U+2015:HORIZONTAL BAR U+2500:BOX DRAWINGS LIGHT HORIZONTAL 当然、いくら見た目が似ていても、混在させ 当然、いくら見 ていても、混在させ 場合は単純に比較して検索しようとしても して検索 た場合は単純に比較して検索しようとしても 一致しませんから しませんから。 一致しませんから。
  • 16. おまけ:これって何文字? 答え:1文字。普通だね。 文字。普通だね。 だね これは古文でよくでてくる「より」という字 これは古文でよくでてくる「より」という字。 古文でよくでてくる 文字に わさったもの。 「よ」と「り」が1文字に合わさったもの。 複数の文字を結合した文字を合字(リガチャ)という。 した文字 複数の文字を結合した文字を合字(リガチャ)という。 じつは「 ラテン語 」、「@ 」「d 合字らし じつは「&」はラテン語の「e」と「t」、「@」は「a」「d」の合字らし 。「$」は 」「S 有力。 い。「$」は「P」「S」説が有力。 れていったものもあるが、「麻呂」 、「麻呂 廃れていったものもあるが、「麻呂」→「麿」や「久米」→ 久米」 ってるっぽい。 「粂」は生き残ってるっぽい。
  • 17. 言いたいこと AとBは同じ文字か? どの単位で1字とみなすのか? Aは正統な文字なのか? と、いうのは簡単な話ではありませ いうのは簡単な 簡単 んよ。 んよ。 システムでいろんな要件を でいろんな要件 システムでいろんな要件を満たすた めには下準備 必要ですよ 下準備が ですよ。 めには下準備が必要ですよ。 文字って って奥 いですね。 文字って奥が深いですね。
  • 18. 参考 幽霊文字 http://ja.wikipedia.org/wiki/%E5%B9%BD%E9%9C%8A%E6%96%87%E5%AD%97 たいと http://ja.wikipedia.org/wiki/%E3%81%9F%E3%81%84%E3%81%A8 JIS X 0208 http://ja.wikipedia.org/wiki/JIS_X_0208#.E5.85.B8.E6.8B.A0.E4.B8.8D.E6.98.8E.E3.81.AE.E6.BC.A2.E5.AD.97 ISO/IEC 2022 http://ja.wikipedia.org/wiki/ISO/IEC_2022 文字概念と包摂 http://www.tim.hi-ho.ne.jp/hebiguchi/KanjiCode/housetsu.htm 青空文庫:「ケ」のように見える文字の入力について http://attic.neophilia.co.jp/aozora/task/small_or_large/2007_list.html JIS X 0208と0213規格票の包摂関連項目 http://www.aozora.gr.jp/hosetsu_kijyun/index.html 1点しんにょうの辻と2点しんにょうの辻 http://slashdot.jp/~yasuoka/journal/417201 こせきの技術日記:Unicodeのハイフンっぽい文字いろいろ 完 http://d.hatena.ne.jp/koseki2/20070927/unicodehyphen より http://ja.wikipedia.org/wiki/%E3%82%88%E3%82%8A 合字 http://ja.wikipedia.org/wiki/%E5%90%88%E5%AD%97