長岡技術科学大学 電気系
杢 真奈見、 山本 和英
現在、日本には十分な日本語能力を持たな
い外国人が数十万人いる。
これらの人々のために日本語をやさしくする
「やさしい日本語」プロジェクトがある。
「やさしい日本語」
・・・対象は留学生や外国人労働者等の日本語
能力の低い人々(日本語初学者)。
1/14
 国語辞典を使った放送ニュースの名詞の平易化
(美野秀弥ら, 2010)
◦ 国語辞典の見出しとその説明文より平易化対を取得し、
日本語能力試験(JLPT)を基にした単語への級の付与によ
り難語と平易語を定めた。
 Plain Japanese (PJ) システム
(松田真希子ら, 2009)
◦ 日本での工学教育で使用するために開発された。留学生
のために工学の文章の語彙と文法を制限する。
2/14
 対象:公的文書
・・・市役所、学校、病院などで配布される文書。生
活する上で重要な情報を含む。
 しかし、公的文書は日本語初学者が学習する文
に比べ理解が困難であり、特有な表現も含む。
(筒井千絵, 2009)
日本語初学者の公的文書の理解のため、
容易に「やさしい日本語」を
得ることができる
システムを構築することを目的とした。
3/14
 「やさしい日本語」コーパスから確立させた
ルールベースによる以下の4つのステップで
システムを構成した。
デザイン
文の分割
表現意図を用いた図示への変換
重要部分の強調
変換
「やさしい日本語」への変換
4/14
※「やさしい日本語」コーパス:
約40名の日本語教師が45,209文の公的文書を
「やさしい日本語」へ変換したもの
5/14
「やさしい日本語」へ変換することによって語
彙がやさしくなり、理解しやすくなると考える。
 使用データ:「やさしい日本語」変換対
例)ご不明な点がありましたら(原文)
→わからないことがありましたら(逐語訳)
 方法:原文-逐語訳の6236対を用いて、入
力文の一部が原文側と一致した場合に逐語
訳側へ変換する。
6/14
システムの出力例
入力:
入学手続が済めば、日本語学校の職員が代理
で就学ビザの在留資格認定証明書を申請する
ことができます。
出力:
入学手続が済めば、日本語学校の人が代わり
で就学ビザの在留資格認定証明の紙を申し込
みすることができます。
複合名詞処理(赤字)と形態素解析(/) の結果:
入学手続/が/済め/ば/、/日本語学校/の/職員
/が/代理/で/就学ビザ/の/在留資格認定証明/
書/を/申請/すること/が/でき/ます/。
7/14
・名詞連続、数字+助数詞、
動詞+「こと」は複合名詞とする
(名詞中の接尾辞にあたるものは除く)
「やさしい日本語」への変換について、
小規模な評価実験を行った。
① 正しさの評価
日本語母語話者(発表者)による日本語の
文法と意味の評価
② やさしさの評価
日本語非母語話者による入力文(公的文
書)と出力文のやさしさの評価
8/14
 「やさしい日本語」コーパスより無作為に300
文を公的文書から抽出し、原文-逐語訳の
変換対を用いて評価文を作成する
 評価者(発表者)は入力文と出力文を見て、
出力文の日本語の意味と文法の適切さにつ
いてそれぞれ2択で評価する
9/14
評価文の例)
入力:健康被害発生時の保障は、太田市のみの保障と
なります。
出力:体の調子が悪くなるようなことが
起こったの時の保 障は、太田市だけ
の保障となってます。
意味→○
文法→×
意味
合計
○ ×
文法
○ 137 53 190
× 35 20 55
合計 172 73 245
変換された文: 245文 / 300文
(変換率:81.7%)
10/14
結果、助詞や用言の活用の変化・
複合名詞処理を含む変換ルールについて、
まだ改良が必要である。
意味の間違い
複合名詞ではないとした「名詞+接尾辞」のうちの
「名詞」だけが変化したもの
変換例) 費用は対象外 → お金はのため外
文法の間違い
助詞や用言の活用の変化に対応していないことが
原因
変換例) 意味のある単語 → 意味のあります言葉
11/14
 ①正しさの評価で「日本語が正しい」と評価さ
れた137文より無作為に100文を抽出する
 評価者は入力文と出力文を見て、どちらの文
がやさしいか、または同じくらいかと評価する
 評価文それぞれに対してどちらがやさしいか
を多数決方式で決定する
例) 入力:離乳食のお話
出力:子どもの食べ物の話
12/14
13/14
やさしいと評価した
評価者数が多い文
変換後 同程度 変換前
全員 8名 15 85 0
日本在住期間
1年以上
4名 11 89 0
日本在住期間
1年未満
4名 46 54 0
「変換後の方が
やさしい」
という評価が
増えた
結果、「やさしい日本語」変換は
日本在住期間の短い
「日本語初学者」に効果があった。
 デザインと変換から構成される「やさしい日本
語」変換システムの構築を目指した。
 「やさしい日本語」への変換について評価実
験を行い、ルールの改善方針や日本語初学
者への効果が確認できた。
 全工程において、高精度なもの(81%以上)
はできたが、ルールの改善によりさらに精度
が向上する可能性がある。
 最終的に、市役所で「やさしい日本語」による
文書の作成支援や日本語初学者が直接利
用できる環境づくりを目指したい。
14/14
予備スライド
出身国 人数 [名]
マレーシア 3
タイ 1
中国 1
ドイツ 1
ベネズエラ 1
ベトナム 1
 評価者が保有するJLPTの級
JLPTの保有級 人数 [名]
N1 0
N2 4
N3 3
N4 0
N5 0
なし 1
合計 8
※ただしN3には
N2の試験に僅差で
不合格してJLPTの
級を保有していない
者を含み、
「保有級なし」は
点数の情報が
なかったために
「保有級なし」とした。
 評価者の日本在住歴
人数 [名] 期間 人数 [名]
現在も在住 8
~1年 4
1~2年 2
2~3年 0
3~4年 2
4~5年 0
5年~ 0
 評価者の日本語学習歴
※5年以上の評価者は学習期間が約6年
日本語学習期間 人数 [名]
~1年 2
1~2年 1
2~3年 0
3~4年 2
4~5年 1
5年~ 2
合計 8
 「やさしい日本語」コーパスの公的文書と対応する
「やさしい日本語」の差異(句)を対とし構成している。
 文単位で言い換えているため、句単位では等価で
ない場合もある。
例)
 公的文書:その他、申請に関してご不明な点があり
ましたら、下記までお問い合わせください。
タグ対象語(原文): ご不明な点がありましたら
逐語訳: わからないことがありましたら
意訳: わからなかった
要約: わからなかった
 原文、逐語訳、意訳、要約の4つの組み合わせで
以下の3つの変換対を作成した。
 原文-逐語訳: 6236対
 原文-意訳: 4772対
 原文-要約: 3944対
 変換の際には、原文側の句を
以下の順で優先順位を付けている。
i. 文字数が多いもの
ii. 出現頻度の多いもの
iii. Sort順
 表現意図タグの網羅性
旧ルール・・・9種類のタグを初期のルールで付与
新ルール・・・11種類のタグを最終ルールで付与
総文数 総節数 タグの付与数 網羅性
旧ルール
45209
[文]
53375
[節]
19380
[節]
34.8
[%]
新ルール
53322
[節]
24291
[節]
45.6
[%]
公的文書の性質と精度を基にタグを決定
13/14
タグの種類 タグ数 [節] 付与誤り [節] 精度 [%]
忠告・助言 0 0 -
勧告 15 0 100
指示・命令 37 0 100
理由 40 1 98
条件・仮定・項目 164 3 98
通知・事実 207 12 94
禁止 0 0 -
接続詞 15 0 100
平均 98
タグの種類 例
忠告・助言 ~したほうがいいですよ
勧告 ~しませんか・しましょうよ
依頼 ~してもらえますか/くれませんか
指示・命令 ~してください・しなさい・お願いします
許可与え ~してもいいです
申し出 ~してあげましょうか
許可求め ~してもいいですか
確認 ~してもいいですね
通知・宣言 ~します・させてもらいます
条件・仮定 ~の場合・際、~方は、~として、~すれば(用言の仮定形)
理由 ~ので、~ため、~により
題目・タイトル ~について
項目 (各種項目の形式となっているもの)
既定の事実 (過去形)
禁止 ~いけません
新ルール
文字列・・・「場合」「際」「について」「ので」「ため」
「により」「方は」
品詞・・・接続詞、接続助詞、用言の仮定形
11/20
文数
[文]
節数
[節]
分割誤り
[節]
精度
[%]
旧ルール
500
669 13 96
新ルール 706 20 97
分割誤りの例)
①また、
②口座振替の指定口座が残高不足等により振替に
よるお支払いがいただけない場合は、
③年金からのお支払いに切り替える場合が
④あります。←※この節1つで意味を成していない。
3. 表現意図を用いた図示への変換
システムの出力例
14/14
出力:
しかし、
【予防接種を受けることの義務はなく、
ご本人が接種を希望する場合のみに】
予防接種を行います。
接続詞以降は
インデントを増やす
条件や理由は
【 】で囲み、
次の節へ矢印を引く
評価文 (1) 文で表示
(2) 節で表示
(3) 関係を図で表示
① 25% 83%
② 100% 0%
③ 67% 58%
④ 79% 54%
⑤ 67% 46%
⑥ 63% 71%
⑦ 58% 63%
⑧ 46% 71%
下線・・・半数の評価者がわかりやすいとしたもの
斜体・・・何らかの変化を加えた方がわかりやすいもの
4. 重要部分の強調
システムの出力例
入力:
保護者の判断で登校を見合わせてください。
句:
1) 保護者の判断で見合わせてください。
2) 登校を見合わせてください。
係り受け解析の結果:
保護者の –D
判断で –D
登校を –D
見合わせてください。
⇒ 強調
16/14
順位 助詞 分類 種類 備考
1 ト 格助詞 一般
2 ヲ 格助詞 一般 動詞数が多い句が優先
3 カラ 格助詞 一般 ヲより動詞数が多いとカラが優先
3 マデ 副助詞 * ヲより動詞数が多いとマデが優先
5 ニヨリ 格助詞 連語
6 ガ 格助詞 一般 動詞数が少ない句が優先
7 へ 格助詞 一般
8 ニ 格助詞 一般
9 ハ 係助詞 *
10 デ 格助詞 一般
-1 カ
副助詞
/並立助詞
/終助詞
*
並立助詞があると、
その句の重要度が下がる。
※全27個の助詞に重みを付けた。
 重要部分の正解を人手で作成したが、人手
でも1つに絞ることが難しいものが多かったた
め、正解を1つとした正解データ、重要部分で
あれば複数でも可とする正解データの2種類
で行った。
 評価文1文20文字以上の40文
節数
正解が単一 正解が複数可
正解節数 精度 正解節数 精度
45節 30節 64% 38節 81%
「やさしい日本語」変換システムの試作

「やさしい日本語」変換システムの試作