職業ごとの行動に関する知識の収集
- 9. ① 職業と紐付けられたユーザの収集
• ソーシャルメディア中でユーザが記載した
プロフィール情報を参照
• 「対象の職業を持つ可能性が高い」と判断できる
ユーザをルールベースで収集
9
東京在住。作家です
看護師。趣味はピアノ!
父は医者です。
夢は公務員。
元アナウンサーです
医者です。ニュース配信中
好きな歌手 YUI!
東京の医者。
内科の医者
です
都内在住の
看護師です。
今回は夜勤を
なんとか乗り越え
ました!
昨日はずっと雨
だったけど、病棟
にいたから気付か
なかった
夜勤は少し疲れた
…
プロフィール
ユーザの投稿
- 19. 評価結果: 手法B
• 評価した24職業 : 職業の紐付け精度と行動の獲得精度に
は相関(r=0.55)が見られた
19
0
20
40
60
80
100
主婦
編集者
記者
エンジニア
薬剤師
カウンセ…
音楽家
看護師
弁護士
劇団員
画家
カメラマン
美容師
栄養士
保育士
公務員
作家
教師
アナウン…
シェフ
歌手
医者
大工
警備員
精
度
(
%
)
手法Bの精度
← 紐付け精度が高い 紐付け精度が低い →
悩みを打ち明ける
栄養士
主観的な内容が多い
今日は○○ホールで
歌わせて頂きます!
歌手
自身の活動について
積極的に投稿
- 26. 補足:Twitterデータの使用方法
• 使用したAPI: gardenhose
⁃ 最近までツイートデータのクロール用に提供されていたAPI
⁃ 言語判定器1で「日本語」と判定されたツイートを収集(毎時
間5万~40万ツイート程度)
⁃ 確実に日本語を収集するため「ひらがな2文字以上」が連続し
ているツイートをしているユーザの投稿を利用
• データの加工方法
⁃ @(ユーザ名) や顔文字、記号は除去
⁃ 次の条件に合致するツイートは使用しない
URLやハッシュタグ(特定のトピックを示す)を含む
RT(リツイート、他者のツイートの引用)
26
1. LanguageGuesser (Lingua)
http://gensen.dl.itc.u-tokyo.ac.jp/LanguageGuesser/LanguageGuesser_ja.html
- 33. 補足:手法Bの精度における
エラー分析 (詳細)
• 行動が獲得できなかった職業
⁃ 探偵・駅員…職業と紐付けられたユーザがほとんど存在
しなかった
• 栄養士, カウンセラー
⁃ 投稿に主観的な内容の多い職業であるため、職業に関係
すると見られる行動がほとんど存在しなかった
エネルギーを感じる (カウンセラー)
悩みを打ち明ける (栄養士)
• 公務員
⁃ 守秘義務が存在するためか、投稿中にはほぼ職業に関係
する投稿が存在しない
33
Editor's Notes
- しかし、直接収集しようとするのはコストが高いため、Webから収集することを考える
- 収集方法が異なることで、異なる行動が得られることを示す
- 知識獲得の観点から、「行動」に関する知識だとこのようないいことがあるよね
他の「」
- 予稿においては図1に対応します
- 疑問:カイ二乗値ってちゃんとやりますか?
- 医者の割合
- 各手法
- まずは、ソーシャルメディア中から対象となるユーザを収集する必要があります
ポイント:割と簡単に収集している
- 何を書くか
簡単な
- 実験設定
評価についてお話します
評価、まずは手法Bでこれをやったからそれを評価しないと
次は、
- 手法Aのデータ:「黒橋・河原研究室で京大格フレーム用に構築した」と口で言う?
----- 会議メモ (2015/07/15(EEE) 10:10) -----
「これは普通に使っていいやつなの?」と言われたら?
- 質問
・推定とかには使えないの?
使えるよ
・推定とか、知識を使った評価をやる予定はあるの?
(ない)この研究では低コストな2つの手法で知識を獲得し、手法ごとにどのように異なる知識が得られるのかを検証することが一番大きな目的
この研究を更に展開させようと思ったらやるとは思う、まだ今後どうするかは決めていない
・述語項構造データってもらえないの?
黒橋研の人に聞いてください
・この研究の限界は?
職業によって適用できない例がよくある
あと、recallを追求するのは難しい。ある職業について、本当に知っていること…Webから得られる知識としては限界がある
・この手法の問題点は?
精度…必ずしもよいとは言えないかも
評価方法…結局一般人に評価させているけど、本職の人には聞かないの?
本当に聞くならそっちの方がいいかも。ただ、今回、クラウドソーシングの評価ポイントとして「すぐには思い付かないが、提示されてみるとそういうのもありえる」という、実際にユーザにとっては有益だと考えられる情報にしている
「カメラマン」は「レタッチ」をする、とあって、実際調べてみるとレタッチは写真の加工技術であることが分かる、単に撮影するだけではなく、
実際にこのくらいの精度は出たものの、弁護士においては「書面を書く」と「書面を作成する」はほぼ同じものとして扱った方がいい
- 製薬会社の人が薬について説明してくれる会っぽい
- 収集方法が異なることで、異なる行動が得られることを示す
- 期待値
- まず、できなかった職業について書いた後で
まず、「概ねできていた」ということと、「できなかった職業もあった」ということ
そして次以降で「取れてきた職業の差を見る必要がある」ということ
- 各手法
- 各手法
- 収集方法が異なることで、異なる行動が得られることを示す
- 各手法
- 各手法
- より顕著な傾向が現れていたのがこちらになります
- 収集方法が異なることで、異なる行動が得られることを示す
- 収集方法が異なることで、異なる行動が得られることを示す