Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
機能シラバスに基づいた
英語教育プログラムにおける
発話自動採点システム
導入可能性の検討
近藤悠介と石井雄隆
背景(Tutorial English)
•日常的に使用する表現を中心
に発話能力を高める。
• 受講者4人に対しチューター1人のグループ・レッスン
• 事前テストによる初級から上級までの5つのレベル分け
• ある程度CEFRに準拠
• 個別の...
現状と課題
•クラス分け、到達度評価は間
接的に発話能力を評価・測定
している。
•発話能力のテストを実施する
ことで妥当性の向上を図る。
発話評価の導入
•テストの実施・採点に時間がかかる。
•評定者の訓練に時間がかかる。
•信頼性・妥当性の高い複数の評定者の確保
が困難。
•Tutor個人による評価の妥当性?
自動採点
授業内容
• 準備
• Write down six words about you and your life in the
circles below.
授業内容
• 授業
• Pair work: Look at the words that your partner wrote
down in Preparation. Ask questions to find out more
infor...
Target languageと項目の例
• Where are you up to this
weekend?
• Do you have any plan for
the week end?
• Are you busy this week...
発話自動採点のイメージ
y=ax+b…
Nice to see you!
.wav
Score & feedback
項目とデータ収集
9
• 各Unitで使用される表
現が要求されるDCT
を作成
• 各Unitごとに8∼20個
のDCTを作成
音声の評価
• Tutorial Englishを担当しているTutorが評価
• ひとつの発話に関して3人のTutorが評価
• 3人とも3を1、それ以外を0とした。
スコア 記述
3
発話の意図が伝わる自然な発音、韻律。外国語訛りはほとんど...
テキストの評価
• Tutorial Englishを担当しているTutorが評価
• ひとつの発話に関して3人のTutorが評価
• 3人とも3を1、それ以外を0とした。
スコア 記述
3 状況に合った表現が使用されている。
2 意図は理解で...
単語認識率
•Hidden Markov Model Toolkitを用いて音
声認識機を作成。
• 音響モデルの作成には音素アライメントされた『北風と太陽』の音読
(約1分×100人)を用いてブートストラップ。
• アライメントされていない日...
自動採点のイメージ
1
0
01
Item x
Item x
もう少し詳しく
録音
フィルタ
音声認識
特徴量抽出
スコア予測
適切な音量、音質で録音されているかどうかをチェックする。
適切でなければもう一度録音する。
音声からテキストへの変換。発話に関する時間情報を得て、
対象とする特徴量を計算する。
...
フィルタ
•書き起こしができない(人間が聞き
取れない)発話を採点から除外。
•対象とした発話
• 書き起こしができない(人間が聞き取れない)発話250から
ランダムに100発話を抽出
• 書き起こしができた10356発話からランダムに100発...
音素アライメントの例
sorry but I’m busy now
+その音素がモデルとどれぐらい近いかという指標が得られる。
+ピッチに関する情報も得られる。
評価値の予測
 
評定者による評価
発話の特徴量
提案手法の良いところ
•発話に対してゼロイチで点数
が得られる。
•1にする確率の下限を上げて
より確信度の高いスコアだけ
採用する。
•テスト理論で分析ができる。
少しだけ詳細を
テキストの評価に関して
19
SpeechRaterSM
Zechner, Higgins, Xi, Williamson (2009)
学習者は習熟度によって異なる表現を使っ
ているはずなので、語彙の指標は学習者の
習熟度を弁別する指標となるはず。
たとえば、
•以下のタスクで1と2の回答は習
熟度の差を表している。
You want to end your conversation. What would you
(A) say in the conversation below?
A:...
評価値の予測
 
評定者による評価
発話の特徴量
語数、言語モデルスコア、TF-IDFのコサイン類似度
テキストの評価
言語モデルスコア
発話されている区間
I
I’d
a
yes
I’ll
could
can
please
would
order
want
like
dish
take
have
I
like
the
chicken
of
me
have
to...
TF-IDF
•情報検索などの分野で利用され
る単語に関する重みづけの一種。
 
 
 
 
 
 
 
 
 
レベルd内に単語tのTF値
単語tのレベルd内での出現回数
レベルd内のすべての単語数
単語tのIDF値
レベル数
単語tが出現す...
コサイン類似度
•ベクトル同士の成す角の近さ
を表現する。
単語2
単
語
1
単語3
発話1
モデル発話
発話に含まれる単語のTF-IDF値をベクトルと
みなし、受検者とモデル発話のコサイン類似
度を変数とする。
認識率と予測精度
26
0.00.20.40.60.8
0.00.20.40.60.8
単語認識率 予測精度
項目と予測精度 1/4
A: Where are you from?
B: ( ). What about you?
A: I’m from California, USA.
認識率: .735
予測精度: .966
項目と予測精度 2/4
Reply to the partner’s utterance in the
conversation, by following instructions.
A: I am planning to visit ind...
項目と予測精度 3/4
When you do not catch the word your friend
says, what would you say (A) in the conversation
below.
A: ( ).
B: ...
項目と予測精度 4/4
You want to know the best place
to buy cheap clothes. How would
you ask for suggestions?
認識率: .966
予測精度: .700
発表概要
1. 大規模な英語教育プログラム
で発話評価が要求される。
2. 人がやるのは大変そうだから
自動採点。
3. 項目を選べば自動採点はでき
そう。
Upcoming SlideShare
Loading in …5
×

機能シラバスに基づいた英語教育プログラムにおける発話自動採点システム導入可能性の検討

837 views

Published on

外国語メディア教育学会(LET)第55回研究大会での発表資料

Published in: Education
  • Be the first to comment

  • Be the first to like this

機能シラバスに基づいた英語教育プログラムにおける発話自動採点システム導入可能性の検討

  1. 1. 機能シラバスに基づいた 英語教育プログラムにおける 発話自動採点システム 導入可能性の検討 近藤悠介と石井雄隆
  2. 2. 背景(Tutorial English) •日常的に使用する表現を中心 に発話能力を高める。 • 受講者4人に対しチューター1人のグループ・レッスン • 事前テストによる初級から上級までの5つのレベル分け • ある程度CEFRに準拠 • 個別のフィードバック
  3. 3. 現状と課題 •クラス分け、到達度評価は間 接的に発話能力を評価・測定 している。 •発話能力のテストを実施する ことで妥当性の向上を図る。
  4. 4. 発話評価の導入 •テストの実施・採点に時間がかかる。 •評定者の訓練に時間がかかる。 •信頼性・妥当性の高い複数の評定者の確保 が困難。 •Tutor個人による評価の妥当性? 自動採点
  5. 5. 授業内容 • 準備 • Write down six words about you and your life in the circles below.
  6. 6. 授業内容 • 授業 • Pair work: Look at the words that your partner wrote down in Preparation. Ask questions to find out more information about the words and your partner. • Practice: Take turns reading and listening activity to the statements below. A: I woke up late and missed class again. B: .
  7. 7. Target languageと項目の例 • Where are you up to this weekend? • Do you have any plan for the week end? • Are you busy this week end? • I have to work all weekend. • I’m visiting my grandparents in Osaka. • I have a biology test on Friday. Golden Week is coming up shortly. You are going to ask your friend about his/ her plans.   A: Golden Week is coming up. ( )? B: Well, I have no plans at the moment. I might be visiting my parents in Kumamoto.
  8. 8. 発話自動採点のイメージ y=ax+b… Nice to see you! .wav Score & feedback
  9. 9. 項目とデータ収集 9 • 各Unitで使用される表 現が要求されるDCT を作成 • 各Unitごとに8∼20個 のDCTを作成
  10. 10. 音声の評価 • Tutorial Englishを担当しているTutorが評価 • ひとつの発話に関して3人のTutorが評価 • 3人とも3を1、それ以外を0とした。 スコア 記述 3 発話の意図が伝わる自然な発音、韻律。外国語訛りはほとんど感じ られない。 2 外国語訛りはあるが、発話の意図が十分に伝わる発音、韻律。 1 強い外国語訛りがある発音、韻律で発話の意図が理解できない。 0 声が小さい、雑音が大きいなどで発話が聞き取れない
  11. 11. テキストの評価 • Tutorial Englishを担当しているTutorが評価 • ひとつの発話に関して3人のTutorが評価 • 3人とも3を1、それ以外を0とした。 スコア 記述 3 状況に合った表現が使用されている。 2 意図は理解できるが、状況に合った適切な表現ではない。 1 状況に合っていない(状況を理解していない)。 0 テキストファイルに何も書かれていない。
  12. 12. 単語認識率 •Hidden Markov Model Toolkitを用いて音 声認識機を作成。 • 音響モデルの作成には音素アライメントされた『北風と太陽』の音読 (約1分×100人)を用いてブートストラップ。 • アライメントされていない日本人英語学習者のDCTでの発話(1~5秒 ×20000発話)を用いてモデルを学習 • それぞれの項目に対して本研究で収集したデータから2-gramの言語モ デルを作成。 •項目ごとの認識率の平均値は73.7 (MAX: 100, MIN: 20, SD: 16.8)
  13. 13. 自動採点のイメージ 1 0 01 Item x Item x
  14. 14. もう少し詳しく 録音 フィルタ 音声認識 特徴量抽出 スコア予測 適切な音量、音質で録音されているかどうかをチェックする。 適切でなければもう一度録音する。 音声からテキストへの変換。発話に関する時間情報を得て、 対象とする特徴量を計算する。 得られた特徴量からスコアを予測する。今回はロジスティッ ク回帰。1と判定する確率の下限を60%に。
  15. 15. フィルタ •書き起こしができない(人間が聞き 取れない)発話を採点から除外。 •対象とした発話 • 書き起こしができない(人間が聞き取れない)発話250から ランダムに100発話を抽出 • 書き起こしができた10356発話からランダムに100発話を抽出 • 正解率は84%
  16. 16. 音素アライメントの例 sorry but I’m busy now +その音素がモデルとどれぐらい近いかという指標が得られる。 +ピッチに関する情報も得られる。
  17. 17. 評価値の予測   評定者による評価 発話の特徴量
  18. 18. 提案手法の良いところ •発話に対してゼロイチで点数 が得られる。 •1にする確率の下限を上げて より確信度の高いスコアだけ 採用する。 •テスト理論で分析ができる。
  19. 19. 少しだけ詳細を テキストの評価に関して 19
  20. 20. SpeechRaterSM Zechner, Higgins, Xi, Williamson (2009) 学習者は習熟度によって異なる表現を使っ ているはずなので、語彙の指標は学習者の 習熟度を弁別する指標となるはず。
  21. 21. たとえば、 •以下のタスクで1と2の回答は習 熟度の差を表している。 You want to end your conversation. What would you (A) say in the conversation below? A: ( ). B: See you. 1. Goodbye. 2. Sorry, I have to go now. See you. 使用されている単語が異なる。
  22. 22. 評価値の予測   評定者による評価 発話の特徴量 語数、言語モデルスコア、TF-IDFのコサイン類似度 テキストの評価
  23. 23. 言語モデルスコア 発話されている区間 I I’d a yes I’ll could can please would order want like dish take have I like the chicken of me have to would chicken please dish … chicken please
  24. 24. TF-IDF •情報検索などの分野で利用され る単語に関する重みづけの一種。                   レベルd内に単語tのTF値 単語tのレベルd内での出現回数 レベルd内のすべての単語数 単語tのIDF値 レベル数 単語tが出現するレベル数
  25. 25. コサイン類似度 •ベクトル同士の成す角の近さ を表現する。 単語2 単 語 1 単語3 発話1 モデル発話 発話に含まれる単語のTF-IDF値をベクトルと みなし、受検者とモデル発話のコサイン類似 度を変数とする。
  26. 26. 認識率と予測精度 26 0.00.20.40.60.8 0.00.20.40.60.8 単語認識率 予測精度
  27. 27. 項目と予測精度 1/4 A: Where are you from? B: ( ). What about you? A: I’m from California, USA. 認識率: .735 予測精度: .966
  28. 28. 項目と予測精度 2/4 Reply to the partner’s utterance in the conversation, by following instructions. A: I am planning to visit india next summer. B: ( ). [Show your interest] 認識率: .750 予測精度: .754
  29. 29. 項目と予測精度 3/4 When you do not catch the word your friend says, what would you say (A) in the conversation below. A: ( ). B: It’s encyclopedia. 認識率: .891 予測精度: .983
  30. 30. 項目と予測精度 4/4 You want to know the best place to buy cheap clothes. How would you ask for suggestions? 認識率: .966 予測精度: .700
  31. 31. 発表概要 1. 大規模な英語教育プログラム で発話評価が要求される。 2. 人がやるのは大変そうだから 自動採点。 3. 項目を選べば自動採点はでき そう。

×