Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

mori b

369 views

Published on

  • Be the first to comment

  • Be the first to like this

mori b

  1. 1. 新聞記事における本文と見出しに現れる 特徴語の調査 Characteristics of Specialized Vocabulary among Titles in Newspaper 複雑系工学講座 調和系工学研究室 4年 森 翔平
  2. 2. 背景 新聞や雑誌など の紙媒体 ブログのタイトル モバイル端末で のインターネット ニュース 見出しの重要性 ・人間が一から見出しを考えるのは大変 ・見出しの適正評価・自動生成を行うことは困難
  3. 3. テキストマイニング分野における取り組み 記事の要約を生成 諸岡祐平,江嵜誠,高木一幸,尾関和彦, “重要文抽出と文簡約を併用した新聞記事の自動要約”, 言語処理学会第10回年次大会発表論文集 pp.436-439, 3月 2004 見出しに含まれている特徴語 が含まれている文を抽出 どのような特徴語が見出しに用いられているのか といった内容を対象にした研究はなされていない 「米中間選挙,全米で開票進む」 「輸入牛肉,未申告部位が混入」 「北海道で竜巻,8人死亡」 「中田はフル出場も得点なし」 : 見出しの長さ,形式を分析 佐藤理史, “13文字で何が伝えられるか:ウェブニュース ボックス見出しの分析”, 言語処理学会第14回年次大会 発表論文集 pp.508-511, 3月 2008
  4. 4. 本研究の目的とアプローチ 見出しに使われる特徴語はどういったものか調査をする 見出し 本文 見出しがどの ような品詞で 構成されてい るのか 見出しの特徴 的な語と本文 の特徴的な語 の関係 見出しに含ま れる特徴語が 本文でどれぐ らい出現する か 新聞の記事 北海道新聞 朝刊・夕刊3カ月分 (2010年10月-12月)の記事 データ数:4万件 見出し 本文 特徴語:名詞,動詞,形容詞,副詞の単語
  5. 5. 検証手法 見出しがどのよう な品詞で構成され ているのか 見出しの特徴語と 本文の特徴語の関 係 見出しに含まれる 特徴語が本文で どれぐらい出現 するか 見出しにしか使われ なかった品詞と本文 全般の品詞の出現 割合を調査 見出しと本文両方 に出現するtf・idf値 で傾向を調査 見出しの特徴語が 本文で使われる比率 検証1 検証2 検証3
  6. 6. 検証手法 見出しがどのよう な品詞で構成され ているのか 見出しに含まれる 特徴語が本文で どれぐらい出現 するか 見出しにしか使われ なかった品詞と本文 全般の品詞の出現 割合を調査 見出しと本文両方 に出現するtf・idf値 で傾向を調査 見出しの特徴語が 本文で使われる比率 検証1 検証2 検証3 見出しの特徴語と 本文の特徴語の関 係
  7. 7. 検証1:見出しと本文の品詞の構成 名詞が大半を 占める 約半分程度の 品詞が動詞
  8. 8. 検証手法 見出しがどのよう な品詞で構成され ているのか 見出しに含まれる 特徴語が本文で どれぐらい出現 するか 見出しにしか使われ なかった品詞と本文 全般の品詞の出現 割合を調査 見出しと本文両方 に出現するtf・idf値 で傾向を調査 見出しの特徴語が 本文で使われる比率 検証1 検証2 検証3 見出しの特徴語と 本文の特徴語の関 係
  9. 9. 検証2:見出しの特徴的な語と本文の特徴的な語の関係 見出しにおける特徴語のtf・idf値 本文における 特徴語のtf・idf値 tf・idf値の計算式            j j k ik ij ij df N idf w w tf log 相関係数 0.189 プロット点が単 語一つに相当
  10. 10. 検証2:見出しの特徴的な語と本文の特徴的な語の関係 見出しにおける特徴語のtf・idf値のランク 本文における 特徴語のtf・idf値 のランク tf・idf値の計算式            j j k ik ij ij df N idf w w tf log 相関係数 0.573
  11. 11. 検証手法 見出しがどのよう な品詞で構成され ているのか 見出しに含まれる 特徴語が本文で どれぐらい出現 するか 見出しにしか使われ なかった品詞と本文 全般の品詞の出現 割合を調査 見出しと本文両方 に出現するtf・idf値 で傾向を調査 見出しの特徴語が 本文で使われる比率 検証1 検証2 検証3 見出しの特徴語と 本文の特徴語の関 係
  12. 12. 検証3:見出しに含まれる特徴語が本文での出現頻度 横軸: の階級値 t bt n n :見出しと本文の両方に現れる特徴語 見出しに現れる特徴語 bt t n n : 階級 累積 確率 頻度 (記事数)
  13. 13. 結論 •本文で使われている単語やその表現と見出しの単語は相違が見られる. •3つの側面(品詞的側面/tf・idfによる特徴量の側面/出現頻度による側面)で調査を行っ た. •品詞的側面 –本文と見出しを構成する単語の品詞は異なる. –見出しには名詞が含まれることを示した. •tf・idfによる特徴量 –本文と見出しで強い相関は見られなかった. –「本文での珍しさが高い」->「見出しが珍しい」というわけではない. –本文において珍しさが高い値が見出しに来るとは限らない. •出現頻度 –見出しで現れている単語は本文でも現れやすい. –2割くらいの記事では本文で現れていない見出しが出現し,「日ハム」「北大」など単語 の圧縮が行われているケースがあった. ※ 本研究で使用した新聞記事は株式会社北海道新聞社から提供して頂きました.

×