英文の読みやすさと読解に要する処理労力の関係
―長文読解における視線計測データを用いた再検討―
名畑目 真吾(筑波大学)
全国英語教育学会第49回福岡研究大会
2024年8月25日(日)⑤9:00~9:30@A25講義室
1
Which text is “more difficult”?
0. はじめに
Many people dream of becoming rich by selling a new product. However, it is
often difficult to start and run a new business.
A
Clouds often form around particles called aerosols. These tiny particles attract
water vapor, causing water droplets to form.
B
1
Which text is “more difficult”?
0. はじめに
A
The human brain is one of the most mysterious organs in the body. In recent
years, though, scientists have been learning more and more about it.
C
Many people dream of becoming rich by selling a new product. However, it is
often difficult to start and run a new business.
1
0. はじめに
本発表で扱う内容
• 英文の「読みやすさ」はどのように評価できるのか?
• 英文の「理解しやすさ」と「処理しやすさ」は異なるのか?
• 学習者の視線計測データから見る英文の「処理しやすさ」は,読みやすさの
指標とどの程度関連しているのか?
• 学習者の視線計測データから見る英文の「処理しやすさ」は,文章の語彙や
文などの特徴とどの程度関連しているのか?
1
英文の読みやすさの評価
1. 背景:
処理労力と視線計測
1
英文の読みやすさの評価
1. 背景:
処理労力と視線計測
1
1. 背景: 英文の読みやすさの評価
伝統的な読みやすさの指標
• 文章に含まれる単語の長さ(音節数)と文の長さ(単語数)に基づく
◆ Flesch–Kincaid Grade Level (FKGL) (Kincaid et al., 1975)
= (0.39 × average sentence length) + (11.8 × average word length) – 15.59.
◆ Flesch Reading Ease (FRE) (Flesch, 1948):
= 206.835 – (1.015 × average sentence length) – (84.600 × average word length).
• 単語の長さの代わりに頻度を用いたもの
◆ Automated Readability Index (Senter & Smith, 1967) やFog-Index (Gunning, 1952) も同様
◆ New-Dale Chall (Chall & Dale, 1995), Lexile Score (Stenner et al., 2006) など
→ 文の長さは依然として利用
*値が高いほど易しい
*値が高いほど難しい
1
1. 背景: 英文の読みやすさの評価
→ 単語や文の長さは,単語認知や統語処理の困難度を間接的にしか反映しない
伝統的な読みやすさの指標
• シンプルな変数・計算式なので解釈がしやすい
→ 近年,自然言語処理 (NLP) の技術を援用して文章の多様な言語的特徴を評価す
ることで,読みやすさ指標の構成概念と読みやすさ推定の正確性を高めようとする試み
→ 談話理解に重要となる文章の結束性や文章構造などの特徴を考慮していない
• 構成概念の弱さに対する批判 (Carell, 1987; Crossley et al., 2008; Kirkwood & Wolfe, 1980)
→ FKGLなどはアメリカの学年レベルに対応
1
多様な言語的特徴に基づく読みやすさの指標
◆ Coh-Metrix L2 Reading Index (CML2RI) proposed by Crossley et al. (2008)
1. 背景: 英文の読みやすさの評価
→ 文章解析ツール Coh-Metrix (McNamara et al., 2014) によって算出
→ 単語認知・統語解析・意味構築の3つの読解プロセスに対応する指標として,
・語彙頻度 (CELEXデータベースに基づく)
・文の統語的類似性
・隣接する文間の内容語の重複 の3つをもとに算出
CML2RI = −45.032 + (22.205 × word frequency value) + (61.306 × sentence syntax similarity
value) + (52.230 × content word overlap value)
→ L2テキストの読みやすさを測定するための指標(クローズテスト得点に基づく)
*値が高いほど易しい
1
多様な言語的特徴に基づく読みやすさの指標
◆ Crowdsourced Algorithm of Reading Comprehension (CAREC)
◆ Crowdsourced Algorithm of Reading Speed (CARES)
proposed by Crossley et al. (2019)
1. 背景: 英文の読みやすさの評価
→ the Suite of Automatic Linguistic Analysis Tools (SALAT) によって抽出
された,語彙・統語・結束性などの言語的特徴の指標を利用
→ 2つのテキストのうち,どちらが理解・処理しやすいかの(英語母語話者による)判断
データに基づく
大規模言語モデルに基づく読みやすさの指標
◆ BERTを利用した指標 (word-embedding based model) by Choi and Crossley (2022)
*値が高いほど難しい
*値が高いほど易しい
1
1. 背景: 英文の読みやすさの評価
→ ただし,これらの読みやすさの指標に含まれている言語的特徴の変数は不透明なもの
もあり,得られる読みやすさの値は直感的には解釈できず,他のテキストと比較して初
めて意味を持つ (Choi & Crossley, 2022)
読みやすさ指標の評価
• 多様な言語的特徴/大規模言語モデルに基づく読みやすさの指標は,クロー
ズテスト得点,テキストのレベル分け,読みやすさの判断の予測において,
伝統的な読みやすさの指標を上回る
(Choi & Crossley 2022; Crossley et al. 2011, 2019, 2023)
1
英文の読みやすさの評価
1. 背景:
処理労力と視線計測
1
理解しやすさと処理しやすさ
• 読みやすさの定義には,文章の処理しやすさや読むスピードも含まれる
1. 背景: 処理労力と視線計測
→ “The success is the extent to which they understand it, read it at an optimal
speed, and find it interesting.” (Dale & Chall, 1949, p. 23)
• テキストの内容理解 (comprehension) と視線計測で評価される読解の流暢さ
(fluency) の相関は高くない (Kuperman et al., 2023)
• ほとんどの読みやすさの公式は,クローズテスト得点などに反映される内容理解
度との相関に基づいてその妥当性が検討されている
→文章の 「理解しやすさ」と「処理しやすさ」は区別して評価されるべき
(Crossley et al., 2019)
1
読解中の視線計測
• 視線計測データは読解中の処理労力を反映する (Conklin et al., 2018)
• 注視 (fixation) とサッケード (saccade)
1. 背景: 処理労力と視線計測
Figure 1. Fixations and saccades during reading
(adapted from Conklin et al., 2018, Figure 1.3)
視線計測データの指標 (Global Reading Measures)
• 総読解時間・総注視回数
• 平均注視時間 (200-250ms for skilled English readers)
• サッケード距離 (2 degrees or 8-9 letters for skilled English readers)
• 読み戻り・読み飛ばしの頻度
→ 難しい文章で注視時間や読み戻りが増加し,読み飛ばしが減少 (Rayner, 2009)
1
英文の読みやすさと処理労力
• L2読解研究において,視線計測データと読みやすさの指標及び言語的特
徴との関連が検討されている。
1. 背景: 処理労力と視線計測
Zhang & Gong (2023)
Nahatame (2021)
Nahatame (2023)
1
英文の読みやすさと処理労力
• 伝統的な読みやすさの指標よりも,多様な言語特徴に基づく指標のほうが
視線計測データの予測に優れるケースが多いが,結果は一貫しない。
(Nahatame, 2021)
1. 背景: 処理労力と視線計測
• 多様な言語特徴の指標を用いることで,既存の読みやすさの指標よりも視線
計測データの予測を向上させることができるが,結果は一貫しない。
(Zhang & Gong, 2023)
• 多様な言語特徴の指標の中でも,語彙特徴が特に視線計測データの予測
に有用となる (Nahatame, 2023; Zhang & Gong, 2023)。
→ 処理労力の予測に多様な言語的特徴を用いる利点を限定的に支持
1
先行研究に残された課題
• 読解を行った文章が短い(語数が少ない)
1. 背景: 処理労力と視線計測
先行研究で分析された読解データは,処理労力と読みやすさ・言語的特徴
の関連を検討するうえで妥当なのだろうか?
• 視線計測コーパスで使用された文章:GECOでは小説が用いられ,MECOで
は文章の数が少なく (n = 12),難易度に偏りがある。
→ Nahatame (2021) Study 1では20語程度,Nahatame (2023) とZhang and
Gong (2023)で使われた視線計測コーパスの文章は100語前後 (GECO) と約130語
(MCEO)
→ FKGLやFREが適切に機能するには200語以上が必要である (Graesser et al., 2004)
1
Research Questions
1. 読みやすさの指標は,より長い英文の読解に要する処理労力とどの程度
関連しているか。
2. より長い英文の読解に要する処理労力は,特にどのような文章の言語的
特徴と関連しているか。
2. 本研究の目的
• より長く,幅広い難易度の英文を読解した際の視線計測データに基づいて,
処理労力と読みやすさ,言語的特徴の関連を再検討する。
1
視線計測データ(Nahatame et al., 2024)
• 日本語を母語とする大学生及び大学院生41名が,英検準2級・2級・準1級
の30の英文を読んだ際の視線計測データ(OSFのオープンンデータを利用)
3. 方法
(a) 総注視回数,(b) 総読解時間 (秒),(c) 平均注視時間 (ミリ秒),
(d) サッケード距離 (文字数),(e) 読み戻り回数,(f) 読み飛ばし回数
• 文章の平均語数は335語
(SD = 35.88, Min = 267, Max = 412)
• 各協力者及び各文章につき,
6つの視線計測データの指標:
1
視線計測データ(Nahatame et al., 2024)
• 誤作動があった文章や理解問題への正答率が低い文章を除いた,
合計1,210のデータを対象
3. 方法
M [95% CI] SD Min Max Skew Kurtosis
総注視回数 643.29 [629.47, 657.11] 245.28 238 1,824 1.54 3.40
総読解時間 (秒) 158.36 [154.79, 161.92] 63.31 62.52 496.12 1.50 3.08
平均注視時間 (ミリ秒) 246.56 [244.82, 248.30] 30.93 181.98 418.77 0.38 0.26
平均サッケード距離 (文字) 6.13 [6.07, 6.19] 1.07 3.84 9.93 0.71 0.46
読み飛ばし回数 66.97 [65.54, 68.40] 25.24 13 167 0.65 0.44
読み戻り回数 82.36 [79.67, 85.05] 47.63 8 387 1.80 5.84
表1 視線計測データの記述統計
→ 総注視回数と総読解時間は相関が非常に高いため,後者のみを分析
1
文章の読みやすさの分析
• Automatic Readability Tool for English (ARTE)
ver. 1.1 (Choi & Crossley, 2022) で算出される,
7つの読みやすさの指標
3. 方法
→ FRE (Flesch Reading Ease), FKGL (Flesch-Kincaid Grade Level), NDC (New Dale-Chall),
CAREC/CARES (Crowdsourced Algorithm of Reading Comprehension/Speed),
CML2RI (Coh-Metrix L2 Reading Index), and BERT
• FRE,FKGL, NDCは相関が高いため,代表してFREのみを採用
→ 計5つの読みやすさの指標
1
文章の読みやすさの分析
3. 方法
Measures M [95% CI] SD Min Max Skew Kurtosis
FRE 55.99 [50.76, 61.22] 14.61 25.94 75.66 −0.49 −1.15
CAREC 0.28 [0.25,0.31] 0.09 0.12 0.50 0.25 −0.89
CARES 1.09 [1.04, 1.14] 0.15 0.83 1.40 0.31 −0.67
CML2I 21.21 [18.72,23.70] 6.95 7.45 30.35 −0.49 −1.19
SBERT −0.17 [−0.35, 0.01] 0.51 −1.09 1.07 0.33 −0.12
表2 読みやすさの指標の記述統計
→ FRE (0~100) の値を見ると,幅広い難易度の文章が含まれていたことが分かる
1
文章の言語的特徴の分析
• 文章解析ツールSiNLP, TALEES, TASSC, TAACO, TAALED, SÉANCE
を用いて (Crossley et al., 2019, 2023),それぞれ単純な言語的特徴,語彙の洗
練度,統語的複雑さ,結束性,語彙的多様性,語用論的特徴に関する
合計で800以上の指標を算出
• 単純な言語的特徴は,総語数・単語の長さ(文字数)・文の長さ(語数)の3つ
を算出。
3. 方法
1
統計分析
3. 方法
• 言語的特徴の変数は,Crossley et al. (2019, 2023) の手順に基づき,
各視線計測データの指標と関連があるものを選定
① 0を20%以上(= 6つ以上の文章)含む言語的特徴の変数は除外
② 変数間で多重共線性 (r > |.70|) がある場合,対象とする視線計測データと相関の
低い方は除外
③ 対象とする視線計測データと少なくとも弱い相関 (r > |.10|) があるもののみ残す
→ 各視線計測データに対して,100未満まで変数を選定
• 総語数や読みやすさ指標よりも高い相関が得られている言語的特徴に着目
• 読みやすさの指標/言語的特徴の変数と視線計測データの相関を算出
1
読みやすさの指標との関連
4. 結果と考察:読みやすさの指標との関連 (RQ1)
表3 読みやすさの指標と視線計測データの相関
→ CML2RIが全ての視線計測データと最も相関が高いが,その他の指標と比較して顕著
に異なるわけではない
注. 平均化していない視線計測データ(総読解時間,回数)については,文章の総語数を統制した偏相関の値
FRE CML2I CAREC CARES BERT
総読解時間 −.50 −.54 .48 .45 −.36
平均注視時間 −.14 −.15 .14 .09 −.11
平均サッケード距離 .04 .06 −.05 −.03 .04
読み飛ばし回数 .24 .27 −.24 −.22 .19
読み戻り回数 −.26 −.29 .25 .24 −.20
→ 文章が易しければ読解時間が短くなり,読み飛ばしが多くなり,読み戻りが少なくなる
→ 平均注視時間とサッケード距離は読みやすさ指標と関連が弱い
1
総読解時間
4. 結果と考察:言語的特徴との関連 (RQ2)
→ 洗練された語彙や統語的に複雑な文が多いと,総読解時間が長くなる
• 語彙が使用される文脈の限定度 [contextual distinctiveness] (r = .60)
→ todayは多様な語と共起しやすいので文脈の限定度は低く,loanはその逆で限定度が高い。
• CML2RI (r = .−54)
• 名詞句における前置詞の数 [prepositions per nominal] (r = .52)
→ The book on the table by the window is mine.
• 前置詞句の従属部 [dependents per object of the preposition] (r = .50)
→ She sat on the old wooden chair near the window.
• 総語数 [word count] (r = .45)
1
平均注視時間
4. 結果と考察:言語的特徴との関連 (RQ2)
→ 洗練された語彙や統語的に複雑な文が多いと平均注視時間が長くなるが,相関は弱い
• 語彙の多様性 [Maas type-token ratio for all words] (r = −.15)
→ 値が高いほど,語彙の繰り返しが少なく多様な語彙が用いられている。
• 機能語の頻度 [SUBTLEXus_Range_FW_Log] (r = −.12)
→ the, in, willなどの頻度は高く,upon, shallの頻度は低い
• 名詞主語における前置詞の数 [prepositions per nominal subject] (r = .11)
→ The book on the table by the window is mine
• 名詞句における前置詞の数 [prepositions per nominal] (r = .11)
→ The book on the table by the window is mine
1
サッケード距離
4. 結果と考察:言語的特徴との関連 (RQ2)
→ サッケード距離は言語的特徴との関連を見出すのが難しい (Zhang & Gong, 2023)。
• r > |.10| を示す言語的特徴の指標はなかった。
→ サッケード距離は個人差が大きい。
(右図参照;Nahatame et al., 2024)
1
読み飛ばし回数
4. 結果と考察:言語的特徴との関連 (RQ2)
→ 直後の単語を予測しやすいような単語の組み合わせが多いと,読み飛ばしの
回数が増える
• 高頻度の2語連鎖が含まれる割合 [bigram frequency] (r = .29)
→ going toのほうがgoing headよりも頻度が高い
• CML2RI (r = .27)
• 総語数 [word count] (r = .20)
• 内容語の獲得年齢 [age of acquisition] (r = .37)
→ bicycleよりもpsychologyの方が遅く(年齢が高いときに)習得される
• 名詞句における前置詞の数 [prepositions per nominal] (r = .33)
→ The book on the table by the window is mine
• 前置詞句の従属部 [dependents per object of the preposition] (r = .32)
→ She sat on the old wooden chair near the window.
• CML2RI (r = .−29) 総語数 [word count] (r = .29)
1
読み戻り回数
4. 結果と考察:言語的特徴との関連 (RQ2)
→ 洗練された語彙や統語的に複雑な文が多いと,読み戻りが多くなる
1
RQ1: 読みやすさの指標との関連
5. 結論と示唆
• 既存の読みやすさの指標は,視線計測データに反映される英文読解中の
処理労力と弱~中程度の相関が見られる。
→ 長さが十分で難易度に幅のある文章を用いた場合は,英文読解中の
処理労力の推定に関して読みやすさの指標によって大きな違いが出る
ことはなさそう (cf. Nahatame, 2021) 。
• 読みやすさの指標の中では,CML2RIが最も処理労力との関連が強いが,
その他の指標と比較して違いが顕著なわけではない。
1
RQ2: 言語的特徴との関連
5. 結論と示唆
• 視線計測データに反映される処理労力は,語彙の洗練度(文脈の限定度,内
容語の獲得年齢,2語連鎖の頻度など)と特に関連が強い。
→ これらは既存の読みやすさの指標や総語数よりも相関が高く,英文読解
中の処理労力の推定において有用な変数となる可能性。
• 総読解時間・読み戻り回数においては,文の統語的な複雑さ (名詞句・前置
詞句の複雑さ) も関連している。
1
今後の展開
6. 今後の展開と限界点
• 今回選定した言語的特徴の変数に基づき,視線計測データを予測するベイ
ズ統計モデルを構築
→ 総語数だけを含むモデルと比較
→ Nahatame and Yamaguchi
(in preparation) にて検討
→ 総語数に読みやすさの指標,あるいは語長・文長を加えたモデルと比較
• どのモデルが最もよく視線計測データを予測するかを検討し,読みやすさの推
定に示唆を与える
1
限界点
6. 今後の展開と限界点
• 読みやすさは言語的特徴だけから予測できるものではない。
→ テキストのトピック,読み手の関心や態度をどのように推定に組み込むか。
“text readability has an inherently individual, subjective component that current
readability measures do not adequately capture” (Collins-Thompson, 2014, p. 123)
• サッケード距離と平均注視時間は,どのような要因と関わっているのか?
• 異なる熟達度や母語を持つ英語学習者,別のジャンルのテキストでの更なる
検証が必要
1
Chall, J. S., & Dale, E. (1995). Readability revisited: The new Dale-Chall readability formula. Cambridge, MA: Brookline Books.
Choi, J. S., & Crossley, S. A. (2022, July). Advances in readability research: A new readability Web app for English. In 2022 International
Conference on Advanced Learning Technologies (ICALT) (pp. 1-5). IEEE.
Crossley, S. A., Allen, D. B., & McNamara, D. S. (2011). Text readability and intuitive simplification: A comparison of readability formulas.
Reading in a Foreign Language, 23, 84–101.
Crossley, S. A., Greenfield, J., & McNamara, D. S. (2008). Assessing text readability using cognitively based indices. TESOL Quarterly, 42,
475–493. https://doi.org/10.1002/j.1545-7249.2008.tb00142.x
Crossley, S. A., Heintz, A., Choi, J. S., Batchelor, J., Karimi, M., & Malatinszky, A. (2023). A large-scaled corpus for assessing text readability.
Behavior Research Methods, 55(2), 491–507.
Crossley, S. A., Skalicky, S., & Dascalu, M. (2019). Moving beyond classic readability formulas: New methods and new models. Journal of
Research in Reading, 42, 541–561. https://doi.org/10.1111/1467-9817.12283
Carrell, P. L. (1987) Readability in ESL. Reading in a Foreign Language, 4, 21– 40.
Conklin, K., Pellicer-Sánchez, A., & Carrol, G. (2018). Eye-tracking: A guide for applied linguistics research. Cambridge, UK: Cambridge
University Press.
Cop, U., Drieghe, D., & Duyck, W. (2015). Eye movement patterns in natural reading: A comparison of monolingual and bilingual reading of a
novel. PloS One, 10, e0134008. https://doi.org/10.1371/journal.pone.0134008
Crossley, S. A., Allen, D. B., & McNamara, D. S. (2011). Text readability and intuitive simplification: A comparison of readability formulas.
Reading in a Foreign Language, 23, 84–101.
Crossley, S. A., Greenfield, J., & McNamara, D. S. (2008). Assessing text readability using cognitively based indices. TESOL Quarterly, 42,
475–493. https://doi.org/10.1002/j.1545-7249.2008.tb00142.x
Crossley, S. A., Skalicky, S., & Dascalu, M. (2019). Moving beyond classic readability formulas: New methods and new models. Journal of
Research in Reading, 42, 541–561. https://doi.org/10.1111/1467-9817.12283
Dale, E., & Chall, J. S. (1948). A formula for predicting readability: Instructions. Educational Research Bulletin, 37–54.
Flesch, R. (1948). A new readability yardstick. Journal of Applied Psychology, 32, 221–233. https://doi.org/10.1037/h0057532
引用文献
1
Godfroid, A. (2019). Eye tracking in second language acquisition and bilingualism: A research synthesis and methodological guide. New York,
NY: Routledge.
Gunning, R. (1952). The technique of clear writing. New York: McGraw-Hill
Kincaid, J. P., Fishburne, R. P., Rogers, R. L., & Chissom, B. S. (1975). Derivation of new readability formulas (Automated Readability Index,
Fog Count and Flesch Reading Ease Formula) for Navy enlisted personnel. Millington, TN: Naval Technical Training Command, Research
Branch.
Kirkwood, K. J., & Wolfe, R. G. (1980). Matching students and reading materials: A cloze-procedure method for assessing the reading ability
of students and the readability of textual materials. Toronto, Ontario, Canada: Ontario Department of Education.
Kuperman, V., Siegelman, N., Schroeder, S., Acartürk, C., Alexeeva, S., Amenta, S., Bertram, R., Bonandrini, R., Brysbaert, M., Chernova, D.,
Da Fonseca, S. M., Dirix, N., Duyck, W., Fella, A., Frost, R., Gattei, C. A., Kalaitzi, A., Lõo, K., Marelli, M., … Usal, K. A. (2023). Text
reading in English as a second language: Evidence from the Multilingual Eye-Movements Corpus. Studies in Second Language Acquisition,
45(1), 3–37. https://doi.org/10.1017/S0272263121000954
McNamara, D. S., Graesser, A. C., McCarthy, P. M., & Cai, Z. (2014). Automated evaluation of text and discourse with Coh-Metrix. New York,
NY: Cambridge University Press.
Nahatame, S. (2022). Causal and semantic relations in L2 text processing: An eye-tracking study. Reading in a Foreign Language, 34(1), 91–
115. http://hdl.handle.net/10125/67414
Nahatame, S. (2023). Predicting processing effort during L1 and L2 reading: The relationship between text linguistic features and eye
movements. Bilingualism: Language and Cognition, 26(4), 724–737. https://doi.org/10.1017/S136672892200089X
Nahatame, S., Kimura, Y., Ogiso, T., & Ushiro, Y. (2024). Global eye movement behavior of Japanese EFL readers: Analysis of passage-level
eye-tracking measures. ARELE: Annual Review of English Language Education in Japan, 35, 17–32.
Rayner, K. (2009). Eye movements and attention in reading, scene perception, and visual search. Quarterly Journal of Experimental
Psychology, 62(8), 1457–1506. https://doi.org/10.1080/17470210902816461
Rayner, K., Chace, K. H., Slattery, T. J., & Ashby, J. (2006). Eye movements as reflections of comprehension processes in reading. Scientific
Studies of Reading, 10(3), 241–255. https://doi.org/10.1207/s1532799xssr1003_3
引用文献
1
Senter, R. J., & Smith, E. A. (1967). Automated readability index (Report No. AMRL-TR 66-220). Dayton, OH: Aerospace Medical Research
Laboratories, Wright-Patterson Air Force Base.
Stenner, A. J., Burdick, H., Sanford, E. E., & Burdick, D. S. (2006). How accurate are lexile text measures? Journal of Applied Measurement,
7(3), 307–322. Bugueño, M., & Mendoza, M. (2020). Learning to combine classifiers outputs with the transformer for text classification.
Intelligent Data Analysis, 24, 15–41.
Zhang, X., & Gong, N. (2023). Modeling effects of linguistic complexity on L2 processing effort: The case of eye movement in text reading.
Studies in Second Language Acquisition, 1–28.
引用文献
1
5. 結論と示唆(再掲)
RQ2: 言語的特徴との関連
• 視線計測データに反映される処理労力は,語彙の洗練度(文脈の限定度,内
容語の獲得年齢,2語連鎖の頻度など)と特に関連が強い。
• 総読解時間・読み戻り回数においては,文の統語的な複雑さ (名詞句・前置
詞句の複雑さ) も関連している。
RQ1: 読みやすさの指標との関連
• 既存の読みやすさの指標は,視線計測データに反映される英文読解中の
処理労力と弱~中程度の相関が見られる。
• 読みやすさの指標の中では,CML2RIが最も処理労力との関連が強いが,
その他の指標と比較して違いが顕著なわけではない。

20240825_JASELE21Slide_Nahatame_Revisitng Readability

  • 1.
  • 2.
    1 Which text is“more difficult”? 0. はじめに Many people dream of becoming rich by selling a new product. However, it is often difficult to start and run a new business. A Clouds often form around particles called aerosols. These tiny particles attract water vapor, causing water droplets to form. B
  • 3.
    1 Which text is“more difficult”? 0. はじめに A The human brain is one of the most mysterious organs in the body. In recent years, though, scientists have been learning more and more about it. C Many people dream of becoming rich by selling a new product. However, it is often difficult to start and run a new business.
  • 4.
    1 0. はじめに 本発表で扱う内容 • 英文の「読みやすさ」はどのように評価できるのか? •英文の「理解しやすさ」と「処理しやすさ」は異なるのか? • 学習者の視線計測データから見る英文の「処理しやすさ」は,読みやすさの 指標とどの程度関連しているのか? • 学習者の視線計測データから見る英文の「処理しやすさ」は,文章の語彙や 文などの特徴とどの程度関連しているのか?
  • 5.
  • 6.
  • 7.
    1 1. 背景: 英文の読みやすさの評価 伝統的な読みやすさの指標 •文章に含まれる単語の長さ(音節数)と文の長さ(単語数)に基づく ◆ Flesch–Kincaid Grade Level (FKGL) (Kincaid et al., 1975) = (0.39 × average sentence length) + (11.8 × average word length) – 15.59. ◆ Flesch Reading Ease (FRE) (Flesch, 1948): = 206.835 – (1.015 × average sentence length) – (84.600 × average word length). • 単語の長さの代わりに頻度を用いたもの ◆ Automated Readability Index (Senter & Smith, 1967) やFog-Index (Gunning, 1952) も同様 ◆ New-Dale Chall (Chall & Dale, 1995), Lexile Score (Stenner et al., 2006) など → 文の長さは依然として利用 *値が高いほど易しい *値が高いほど難しい
  • 8.
    1 1. 背景: 英文の読みやすさの評価 →単語や文の長さは,単語認知や統語処理の困難度を間接的にしか反映しない 伝統的な読みやすさの指標 • シンプルな変数・計算式なので解釈がしやすい → 近年,自然言語処理 (NLP) の技術を援用して文章の多様な言語的特徴を評価す ることで,読みやすさ指標の構成概念と読みやすさ推定の正確性を高めようとする試み → 談話理解に重要となる文章の結束性や文章構造などの特徴を考慮していない • 構成概念の弱さに対する批判 (Carell, 1987; Crossley et al., 2008; Kirkwood & Wolfe, 1980) → FKGLなどはアメリカの学年レベルに対応
  • 9.
    1 多様な言語的特徴に基づく読みやすさの指標 ◆ Coh-Metrix L2Reading Index (CML2RI) proposed by Crossley et al. (2008) 1. 背景: 英文の読みやすさの評価 → 文章解析ツール Coh-Metrix (McNamara et al., 2014) によって算出 → 単語認知・統語解析・意味構築の3つの読解プロセスに対応する指標として, ・語彙頻度 (CELEXデータベースに基づく) ・文の統語的類似性 ・隣接する文間の内容語の重複 の3つをもとに算出 CML2RI = −45.032 + (22.205 × word frequency value) + (61.306 × sentence syntax similarity value) + (52.230 × content word overlap value) → L2テキストの読みやすさを測定するための指標(クローズテスト得点に基づく) *値が高いほど易しい
  • 10.
    1 多様な言語的特徴に基づく読みやすさの指標 ◆ Crowdsourced Algorithmof Reading Comprehension (CAREC) ◆ Crowdsourced Algorithm of Reading Speed (CARES) proposed by Crossley et al. (2019) 1. 背景: 英文の読みやすさの評価 → the Suite of Automatic Linguistic Analysis Tools (SALAT) によって抽出 された,語彙・統語・結束性などの言語的特徴の指標を利用 → 2つのテキストのうち,どちらが理解・処理しやすいかの(英語母語話者による)判断 データに基づく 大規模言語モデルに基づく読みやすさの指標 ◆ BERTを利用した指標 (word-embedding based model) by Choi and Crossley (2022) *値が高いほど難しい *値が高いほど易しい
  • 11.
    1 1. 背景: 英文の読みやすさの評価 →ただし,これらの読みやすさの指標に含まれている言語的特徴の変数は不透明なもの もあり,得られる読みやすさの値は直感的には解釈できず,他のテキストと比較して初 めて意味を持つ (Choi & Crossley, 2022) 読みやすさ指標の評価 • 多様な言語的特徴/大規模言語モデルに基づく読みやすさの指標は,クロー ズテスト得点,テキストのレベル分け,読みやすさの判断の予測において, 伝統的な読みやすさの指標を上回る (Choi & Crossley 2022; Crossley et al. 2011, 2019, 2023)
  • 12.
  • 13.
    1 理解しやすさと処理しやすさ • 読みやすさの定義には,文章の処理しやすさや読むスピードも含まれる 1. 背景:処理労力と視線計測 → “The success is the extent to which they understand it, read it at an optimal speed, and find it interesting.” (Dale & Chall, 1949, p. 23) • テキストの内容理解 (comprehension) と視線計測で評価される読解の流暢さ (fluency) の相関は高くない (Kuperman et al., 2023) • ほとんどの読みやすさの公式は,クローズテスト得点などに反映される内容理解 度との相関に基づいてその妥当性が検討されている →文章の 「理解しやすさ」と「処理しやすさ」は区別して評価されるべき (Crossley et al., 2019)
  • 14.
    1 読解中の視線計測 • 視線計測データは読解中の処理労力を反映する (Conklinet al., 2018) • 注視 (fixation) とサッケード (saccade) 1. 背景: 処理労力と視線計測 Figure 1. Fixations and saccades during reading (adapted from Conklin et al., 2018, Figure 1.3) 視線計測データの指標 (Global Reading Measures) • 総読解時間・総注視回数 • 平均注視時間 (200-250ms for skilled English readers) • サッケード距離 (2 degrees or 8-9 letters for skilled English readers) • 読み戻り・読み飛ばしの頻度 → 難しい文章で注視時間や読み戻りが増加し,読み飛ばしが減少 (Rayner, 2009)
  • 15.
  • 16.
    1 英文の読みやすさと処理労力 • 伝統的な読みやすさの指標よりも,多様な言語特徴に基づく指標のほうが 視線計測データの予測に優れるケースが多いが,結果は一貫しない。 (Nahatame, 2021) 1.背景: 処理労力と視線計測 • 多様な言語特徴の指標を用いることで,既存の読みやすさの指標よりも視線 計測データの予測を向上させることができるが,結果は一貫しない。 (Zhang & Gong, 2023) • 多様な言語特徴の指標の中でも,語彙特徴が特に視線計測データの予測 に有用となる (Nahatame, 2023; Zhang & Gong, 2023)。 → 処理労力の予測に多様な言語的特徴を用いる利点を限定的に支持
  • 17.
    1 先行研究に残された課題 • 読解を行った文章が短い(語数が少ない) 1. 背景:処理労力と視線計測 先行研究で分析された読解データは,処理労力と読みやすさ・言語的特徴 の関連を検討するうえで妥当なのだろうか? • 視線計測コーパスで使用された文章:GECOでは小説が用いられ,MECOで は文章の数が少なく (n = 12),難易度に偏りがある。 → Nahatame (2021) Study 1では20語程度,Nahatame (2023) とZhang and Gong (2023)で使われた視線計測コーパスの文章は100語前後 (GECO) と約130語 (MCEO) → FKGLやFREが適切に機能するには200語以上が必要である (Graesser et al., 2004)
  • 18.
    1 Research Questions 1. 読みやすさの指標は,より長い英文の読解に要する処理労力とどの程度 関連しているか。 2.より長い英文の読解に要する処理労力は,特にどのような文章の言語的 特徴と関連しているか。 2. 本研究の目的 • より長く,幅広い難易度の英文を読解した際の視線計測データに基づいて, 処理労力と読みやすさ,言語的特徴の関連を再検討する。
  • 19.
    1 視線計測データ(Nahatame et al.,2024) • 日本語を母語とする大学生及び大学院生41名が,英検準2級・2級・準1級 の30の英文を読んだ際の視線計測データ(OSFのオープンンデータを利用) 3. 方法 (a) 総注視回数,(b) 総読解時間 (秒),(c) 平均注視時間 (ミリ秒), (d) サッケード距離 (文字数),(e) 読み戻り回数,(f) 読み飛ばし回数 • 文章の平均語数は335語 (SD = 35.88, Min = 267, Max = 412) • 各協力者及び各文章につき, 6つの視線計測データの指標:
  • 20.
    1 視線計測データ(Nahatame et al.,2024) • 誤作動があった文章や理解問題への正答率が低い文章を除いた, 合計1,210のデータを対象 3. 方法 M [95% CI] SD Min Max Skew Kurtosis 総注視回数 643.29 [629.47, 657.11] 245.28 238 1,824 1.54 3.40 総読解時間 (秒) 158.36 [154.79, 161.92] 63.31 62.52 496.12 1.50 3.08 平均注視時間 (ミリ秒) 246.56 [244.82, 248.30] 30.93 181.98 418.77 0.38 0.26 平均サッケード距離 (文字) 6.13 [6.07, 6.19] 1.07 3.84 9.93 0.71 0.46 読み飛ばし回数 66.97 [65.54, 68.40] 25.24 13 167 0.65 0.44 読み戻り回数 82.36 [79.67, 85.05] 47.63 8 387 1.80 5.84 表1 視線計測データの記述統計 → 総注視回数と総読解時間は相関が非常に高いため,後者のみを分析
  • 21.
    1 文章の読みやすさの分析 • Automatic ReadabilityTool for English (ARTE) ver. 1.1 (Choi & Crossley, 2022) で算出される, 7つの読みやすさの指標 3. 方法 → FRE (Flesch Reading Ease), FKGL (Flesch-Kincaid Grade Level), NDC (New Dale-Chall), CAREC/CARES (Crowdsourced Algorithm of Reading Comprehension/Speed), CML2RI (Coh-Metrix L2 Reading Index), and BERT • FRE,FKGL, NDCは相関が高いため,代表してFREのみを採用 → 計5つの読みやすさの指標
  • 22.
    1 文章の読みやすさの分析 3. 方法 Measures M[95% CI] SD Min Max Skew Kurtosis FRE 55.99 [50.76, 61.22] 14.61 25.94 75.66 −0.49 −1.15 CAREC 0.28 [0.25,0.31] 0.09 0.12 0.50 0.25 −0.89 CARES 1.09 [1.04, 1.14] 0.15 0.83 1.40 0.31 −0.67 CML2I 21.21 [18.72,23.70] 6.95 7.45 30.35 −0.49 −1.19 SBERT −0.17 [−0.35, 0.01] 0.51 −1.09 1.07 0.33 −0.12 表2 読みやすさの指標の記述統計 → FRE (0~100) の値を見ると,幅広い難易度の文章が含まれていたことが分かる
  • 23.
    1 文章の言語的特徴の分析 • 文章解析ツールSiNLP, TALEES,TASSC, TAACO, TAALED, SÉANCE を用いて (Crossley et al., 2019, 2023),それぞれ単純な言語的特徴,語彙の洗 練度,統語的複雑さ,結束性,語彙的多様性,語用論的特徴に関する 合計で800以上の指標を算出 • 単純な言語的特徴は,総語数・単語の長さ(文字数)・文の長さ(語数)の3つ を算出。 3. 方法
  • 24.
    1 統計分析 3. 方法 • 言語的特徴の変数は,Crossleyet al. (2019, 2023) の手順に基づき, 各視線計測データの指標と関連があるものを選定 ① 0を20%以上(= 6つ以上の文章)含む言語的特徴の変数は除外 ② 変数間で多重共線性 (r > |.70|) がある場合,対象とする視線計測データと相関の 低い方は除外 ③ 対象とする視線計測データと少なくとも弱い相関 (r > |.10|) があるもののみ残す → 各視線計測データに対して,100未満まで変数を選定 • 総語数や読みやすさ指標よりも高い相関が得られている言語的特徴に着目 • 読みやすさの指標/言語的特徴の変数と視線計測データの相関を算出
  • 25.
    1 読みやすさの指標との関連 4. 結果と考察:読みやすさの指標との関連 (RQ1) 表3読みやすさの指標と視線計測データの相関 → CML2RIが全ての視線計測データと最も相関が高いが,その他の指標と比較して顕著 に異なるわけではない 注. 平均化していない視線計測データ(総読解時間,回数)については,文章の総語数を統制した偏相関の値 FRE CML2I CAREC CARES BERT 総読解時間 −.50 −.54 .48 .45 −.36 平均注視時間 −.14 −.15 .14 .09 −.11 平均サッケード距離 .04 .06 −.05 −.03 .04 読み飛ばし回数 .24 .27 −.24 −.22 .19 読み戻り回数 −.26 −.29 .25 .24 −.20 → 文章が易しければ読解時間が短くなり,読み飛ばしが多くなり,読み戻りが少なくなる → 平均注視時間とサッケード距離は読みやすさ指標と関連が弱い
  • 26.
    1 総読解時間 4. 結果と考察:言語的特徴との関連 (RQ2) →洗練された語彙や統語的に複雑な文が多いと,総読解時間が長くなる • 語彙が使用される文脈の限定度 [contextual distinctiveness] (r = .60) → todayは多様な語と共起しやすいので文脈の限定度は低く,loanはその逆で限定度が高い。 • CML2RI (r = .−54) • 名詞句における前置詞の数 [prepositions per nominal] (r = .52) → The book on the table by the window is mine. • 前置詞句の従属部 [dependents per object of the preposition] (r = .50) → She sat on the old wooden chair near the window. • 総語数 [word count] (r = .45)
  • 27.
    1 平均注視時間 4. 結果と考察:言語的特徴との関連 (RQ2) →洗練された語彙や統語的に複雑な文が多いと平均注視時間が長くなるが,相関は弱い • 語彙の多様性 [Maas type-token ratio for all words] (r = −.15) → 値が高いほど,語彙の繰り返しが少なく多様な語彙が用いられている。 • 機能語の頻度 [SUBTLEXus_Range_FW_Log] (r = −.12) → the, in, willなどの頻度は高く,upon, shallの頻度は低い • 名詞主語における前置詞の数 [prepositions per nominal subject] (r = .11) → The book on the table by the window is mine • 名詞句における前置詞の数 [prepositions per nominal] (r = .11) → The book on the table by the window is mine
  • 28.
    1 サッケード距離 4. 結果と考察:言語的特徴との関連 (RQ2) →サッケード距離は言語的特徴との関連を見出すのが難しい (Zhang & Gong, 2023)。 • r > |.10| を示す言語的特徴の指標はなかった。 → サッケード距離は個人差が大きい。 (右図参照;Nahatame et al., 2024)
  • 29.
    1 読み飛ばし回数 4. 結果と考察:言語的特徴との関連 (RQ2) →直後の単語を予測しやすいような単語の組み合わせが多いと,読み飛ばしの 回数が増える • 高頻度の2語連鎖が含まれる割合 [bigram frequency] (r = .29) → going toのほうがgoing headよりも頻度が高い • CML2RI (r = .27) • 総語数 [word count] (r = .20)
  • 30.
    • 内容語の獲得年齢 [ageof acquisition] (r = .37) → bicycleよりもpsychologyの方が遅く(年齢が高いときに)習得される • 名詞句における前置詞の数 [prepositions per nominal] (r = .33) → The book on the table by the window is mine • 前置詞句の従属部 [dependents per object of the preposition] (r = .32) → She sat on the old wooden chair near the window. • CML2RI (r = .−29) 総語数 [word count] (r = .29) 1 読み戻り回数 4. 結果と考察:言語的特徴との関連 (RQ2) → 洗練された語彙や統語的に複雑な文が多いと,読み戻りが多くなる
  • 31.
    1 RQ1: 読みやすさの指標との関連 5. 結論と示唆 •既存の読みやすさの指標は,視線計測データに反映される英文読解中の 処理労力と弱~中程度の相関が見られる。 → 長さが十分で難易度に幅のある文章を用いた場合は,英文読解中の 処理労力の推定に関して読みやすさの指標によって大きな違いが出る ことはなさそう (cf. Nahatame, 2021) 。 • 読みやすさの指標の中では,CML2RIが最も処理労力との関連が強いが, その他の指標と比較して違いが顕著なわけではない。
  • 32.
    1 RQ2: 言語的特徴との関連 5. 結論と示唆 •視線計測データに反映される処理労力は,語彙の洗練度(文脈の限定度,内 容語の獲得年齢,2語連鎖の頻度など)と特に関連が強い。 → これらは既存の読みやすさの指標や総語数よりも相関が高く,英文読解 中の処理労力の推定において有用な変数となる可能性。 • 総読解時間・読み戻り回数においては,文の統語的な複雑さ (名詞句・前置 詞句の複雑さ) も関連している。
  • 33.
    1 今後の展開 6. 今後の展開と限界点 • 今回選定した言語的特徴の変数に基づき,視線計測データを予測するベイ ズ統計モデルを構築 →総語数だけを含むモデルと比較 → Nahatame and Yamaguchi (in preparation) にて検討 → 総語数に読みやすさの指標,あるいは語長・文長を加えたモデルと比較 • どのモデルが最もよく視線計測データを予測するかを検討し,読みやすさの推 定に示唆を与える
  • 34.
    1 限界点 6. 今後の展開と限界点 • 読みやすさは言語的特徴だけから予測できるものではない。 →テキストのトピック,読み手の関心や態度をどのように推定に組み込むか。 “text readability has an inherently individual, subjective component that current readability measures do not adequately capture” (Collins-Thompson, 2014, p. 123) • サッケード距離と平均注視時間は,どのような要因と関わっているのか? • 異なる熟達度や母語を持つ英語学習者,別のジャンルのテキストでの更なる 検証が必要
  • 35.
    1 Chall, J. S.,& Dale, E. (1995). Readability revisited: The new Dale-Chall readability formula. Cambridge, MA: Brookline Books. Choi, J. S., & Crossley, S. A. (2022, July). Advances in readability research: A new readability Web app for English. In 2022 International Conference on Advanced Learning Technologies (ICALT) (pp. 1-5). IEEE. Crossley, S. A., Allen, D. B., & McNamara, D. S. (2011). Text readability and intuitive simplification: A comparison of readability formulas. Reading in a Foreign Language, 23, 84–101. Crossley, S. A., Greenfield, J., & McNamara, D. S. (2008). Assessing text readability using cognitively based indices. TESOL Quarterly, 42, 475–493. https://doi.org/10.1002/j.1545-7249.2008.tb00142.x Crossley, S. A., Heintz, A., Choi, J. S., Batchelor, J., Karimi, M., & Malatinszky, A. (2023). A large-scaled corpus for assessing text readability. Behavior Research Methods, 55(2), 491–507. Crossley, S. A., Skalicky, S., & Dascalu, M. (2019). Moving beyond classic readability formulas: New methods and new models. Journal of Research in Reading, 42, 541–561. https://doi.org/10.1111/1467-9817.12283 Carrell, P. L. (1987) Readability in ESL. Reading in a Foreign Language, 4, 21– 40. Conklin, K., Pellicer-Sánchez, A., & Carrol, G. (2018). Eye-tracking: A guide for applied linguistics research. Cambridge, UK: Cambridge University Press. Cop, U., Drieghe, D., & Duyck, W. (2015). Eye movement patterns in natural reading: A comparison of monolingual and bilingual reading of a novel. PloS One, 10, e0134008. https://doi.org/10.1371/journal.pone.0134008 Crossley, S. A., Allen, D. B., & McNamara, D. S. (2011). Text readability and intuitive simplification: A comparison of readability formulas. Reading in a Foreign Language, 23, 84–101. Crossley, S. A., Greenfield, J., & McNamara, D. S. (2008). Assessing text readability using cognitively based indices. TESOL Quarterly, 42, 475–493. https://doi.org/10.1002/j.1545-7249.2008.tb00142.x Crossley, S. A., Skalicky, S., & Dascalu, M. (2019). Moving beyond classic readability formulas: New methods and new models. Journal of Research in Reading, 42, 541–561. https://doi.org/10.1111/1467-9817.12283 Dale, E., & Chall, J. S. (1948). A formula for predicting readability: Instructions. Educational Research Bulletin, 37–54. Flesch, R. (1948). A new readability yardstick. Journal of Applied Psychology, 32, 221–233. https://doi.org/10.1037/h0057532 引用文献
  • 36.
    1 Godfroid, A. (2019).Eye tracking in second language acquisition and bilingualism: A research synthesis and methodological guide. New York, NY: Routledge. Gunning, R. (1952). The technique of clear writing. New York: McGraw-Hill Kincaid, J. P., Fishburne, R. P., Rogers, R. L., & Chissom, B. S. (1975). Derivation of new readability formulas (Automated Readability Index, Fog Count and Flesch Reading Ease Formula) for Navy enlisted personnel. Millington, TN: Naval Technical Training Command, Research Branch. Kirkwood, K. J., & Wolfe, R. G. (1980). Matching students and reading materials: A cloze-procedure method for assessing the reading ability of students and the readability of textual materials. Toronto, Ontario, Canada: Ontario Department of Education. Kuperman, V., Siegelman, N., Schroeder, S., Acartürk, C., Alexeeva, S., Amenta, S., Bertram, R., Bonandrini, R., Brysbaert, M., Chernova, D., Da Fonseca, S. M., Dirix, N., Duyck, W., Fella, A., Frost, R., Gattei, C. A., Kalaitzi, A., Lõo, K., Marelli, M., … Usal, K. A. (2023). Text reading in English as a second language: Evidence from the Multilingual Eye-Movements Corpus. Studies in Second Language Acquisition, 45(1), 3–37. https://doi.org/10.1017/S0272263121000954 McNamara, D. S., Graesser, A. C., McCarthy, P. M., & Cai, Z. (2014). Automated evaluation of text and discourse with Coh-Metrix. New York, NY: Cambridge University Press. Nahatame, S. (2022). Causal and semantic relations in L2 text processing: An eye-tracking study. Reading in a Foreign Language, 34(1), 91– 115. http://hdl.handle.net/10125/67414 Nahatame, S. (2023). Predicting processing effort during L1 and L2 reading: The relationship between text linguistic features and eye movements. Bilingualism: Language and Cognition, 26(4), 724–737. https://doi.org/10.1017/S136672892200089X Nahatame, S., Kimura, Y., Ogiso, T., & Ushiro, Y. (2024). Global eye movement behavior of Japanese EFL readers: Analysis of passage-level eye-tracking measures. ARELE: Annual Review of English Language Education in Japan, 35, 17–32. Rayner, K. (2009). Eye movements and attention in reading, scene perception, and visual search. Quarterly Journal of Experimental Psychology, 62(8), 1457–1506. https://doi.org/10.1080/17470210902816461 Rayner, K., Chace, K. H., Slattery, T. J., & Ashby, J. (2006). Eye movements as reflections of comprehension processes in reading. Scientific Studies of Reading, 10(3), 241–255. https://doi.org/10.1207/s1532799xssr1003_3 引用文献
  • 37.
    1 Senter, R. J.,& Smith, E. A. (1967). Automated readability index (Report No. AMRL-TR 66-220). Dayton, OH: Aerospace Medical Research Laboratories, Wright-Patterson Air Force Base. Stenner, A. J., Burdick, H., Sanford, E. E., & Burdick, D. S. (2006). How accurate are lexile text measures? Journal of Applied Measurement, 7(3), 307–322. Bugueño, M., & Mendoza, M. (2020). Learning to combine classifiers outputs with the transformer for text classification. Intelligent Data Analysis, 24, 15–41. Zhang, X., & Gong, N. (2023). Modeling effects of linguistic complexity on L2 processing effort: The case of eye movement in text reading. Studies in Second Language Acquisition, 1–28. 引用文献
  • 38.
    1 5. 結論と示唆(再掲) RQ2: 言語的特徴との関連 •視線計測データに反映される処理労力は,語彙の洗練度(文脈の限定度,内 容語の獲得年齢,2語連鎖の頻度など)と特に関連が強い。 • 総読解時間・読み戻り回数においては,文の統語的な複雑さ (名詞句・前置 詞句の複雑さ) も関連している。 RQ1: 読みやすさの指標との関連 • 既存の読みやすさの指標は,視線計測データに反映される英文読解中の 処理労力と弱~中程度の相関が見られる。 • 読みやすさの指標の中では,CML2RIが最も処理労力との関連が強いが, その他の指標と比較して違いが顕著なわけではない。