• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Analysis of the inter-related keywords and tags among New York Times news articles
 

Analysis of the inter-related keywords and tags among New York Times news articles

on

  • 489 views

Just for Killing time. I love Data Analysis ...

Just for Killing time. I love Data Analysis ...

Statistics

Views

Total Views
489
Views on SlideShare
489
Embed Views
0

Actions

Likes
0
Downloads
4
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Analysis of the inter-related keywords and tags among New York Times news articles Analysis of the inter-related keywords and tags among New York Times news articles Document Transcript

    • 新聞記事数及び登録キーワード数の変遷と経済/社会情勢の関性 1. 序論 ドットコムバブルに盛り上がった 2001 年以降、日本のインターネット普及率は大幅に進み、2011 年現在 77.2%と高い数値を示している。 Fig. 1 インターネット普及率(Google「インターネット利用者数の対人口比」) 国民の余暇の過ごし方をみても、インターネットに費やす時間は年々増加傾向にあり、とくに若年層でその数字は高くなっている。 Fig. 2 インターネットの行為者率と時間量 (NHK 放送局生活時間調査からみたメディア利用の現状と変化~2010 年国民生活時間調査より~) また、インターネットの普及率、インフラ整備が進むとともに、メディアの情報発信方法も多様化してきた。新聞、ラジオ、テレビに次ぐ第4のメディアとして位置づける人も多く、インターネットを介した情報提供も大きく伸びてきており、2011 年現在、多くの企業が情報をインターネット上で無料提供している。(全ての企業が無料でジョ湯法を提供しているわけではなく、日経新聞や Finacial Times, New York TImes のように、有料の購読を
    • 用意している企業もある)。 なかには、New York Times のように独自 API(Application Programming interface)を作成し、ユーザーフレンドリーな情報提供を可能にしている企業もある。API は、記事タイトルから、著者、登録キーワード、イメージまで、ユーザーが大量の情報を即座に取得することだけでなく、大量のデータ分析を行うことも可能にし、巨大なデータを基にした分析・解析は、偏差の少ない統計情報の取得および信頼性・確証性の高いデータ解析結果を取得することにつながる。 本研究では、New York Times の API を利用し、5 万強の記事と 20 万強のキーワードの関係性を調査するとともに、当該キーワードと各国情勢( 政治情勢、経済情勢 etc.)の関係性を明らかにする。特に、先進国と新興国を比較することで、各々の記事数の伸び率および、登録キーワード数の変遷を辿ることに注目していく。 2. 実験方法 Nye York times の API より、2005~2010 年の間に先進国(日本、フランス)、新興国(中国、インド)に関し、投稿された記事の数をカテゴリー別に取得し、各々の記事に登録されたキーワードも合わせて取得する。 それぞれの取得キーワードの種類は country:4カ国 category:6とし、検索 queryは”country category ”(例:”japan art”)にて実行する。 country category japan art china business france economy india science technology politics Table 1 調査対象 Country と Category 3. 実験結果と考察 3.1 先進国/新興国の記事数およびカテゴリー別キーワード登録数の推移 (Fig. 3 ~ 6) 3.1.1 先進国の記事数/カテゴリーの推移 日本、フランスの 2010 年の記事数は 2005 年比でそれぞれ 1.04, 1.24 とそれほど大きな変化はない。 カテゴリー別に見ると、先進国では economy に関してのみ大きな進展が見られる。これは 2008 年度の経済危機によるところが大きく、2008 年以降 economy の記事数は増加傾向
    • にある。一方、technology に関し、記事数は減少傾向にあるのがわかる。また、businessに関し、日本は 2005 年比で大幅に減少しているが、2006 年以降それほど大きな差は見受けられない。2005 年の記事数が大幅に増えている背景として、愛知万博における business面への期待/効果が考えられよう。 3.1.2 新興国の記事数/カテゴリーの推移 中国、インドの 2010 年の記事数は 2005 年比でそれぞれ 1.38, 1.50 と大きく飛躍している。 新興国の記事数の躍進は economy のカテゴリーによるところが大きく、2010 年の記事数を 2005 年比で算出すると、中国で 1.93, インドで 1.92 と高い値をしめしている(なお、先進国 France も 2.30 と高い数値を示している点は留意されたい)。 また、先進国と比較し、politics の記事数も増加傾向にあるのがわかる。technology の記事数も先進国が減少傾向にあるのに対し新興国は増加傾向にある。一方、science に関する記事は、先進国の伸び率を上回りはするものの大きな進展は見受けられない。 3.1.3 記事数の傾向について 2005-2008 年の間、先進諸国の全記事数に大きな変化はみられない。一方、新興国の全記事数は増加傾向にある。また経済危機を迎えた 2009 年以降は、先進諸国で economy に関する記事数が大幅に増加している。これより、記事数は経済成長率が高いほど多くなり(新興国の高い経済成長率)、また、世界レベルの極端な経済情勢の変化(リーマンショック問題等)に応じて変化するものと考えられる。 3.2 各カテゴリーの記事数及びキーワード登録数の推移について (Fig. 3 ~ 9) 3.2.1 Art について 先進国では記事数の増加はみられない一方、新興国の記事数は増加の傾向にあり、経済やビジネスだけでなく、芸術面でも新興国への興味は拡大しているものと考えられる。しかし、先進国に比べ新興国の Art の記事数の割合は business, economy に対して小さい。裏を返すと、先進国は Art に関して興味深いコンテンツを多数保持・提供しているとも考えることが出来る。 3.2.2 Business について リーマンショックが実体経済に巨額の損失を及ぼしたのは、図に示すように(米国yahoo および、日本 yahoo から引用)2008 年度 9 月以降である。2009 年度前半にかけて株価は低迷を極めており、それに伴い、NYT が取り上げる記事の多くが、経済問題と関連づけられて報道されるに至ったと考えられる。 3.2.3 Economy について 新興国は一貫して増加の傾向を示しているのは、高い経済成長率に裏付けられると考え
    • られる。一方、先進国では 2008,2009 年を境に記事数に大きな進展が見られる。これは 2009 年度に、リーマンショック問題に起因する経済問題の記事数が増えたことによるものであろう。また、business の記事数に大きな増加は見られないことは、ビジネスの記事の多くがリーマンショックの記事に由来するものにとってかわったためと考えられる。 3.2.4 Science について 各国とも他のカテゴリーと比較して science の記事割合は小さい。これは、NYT の読者の多くがビジネスの世界で活躍する人達であり、science で取り上げられる記事の多くは、実態経済と直接結びつく内容のものが少なく、NYT としても取り上げにくい(購読者を鑑みて)ためと考えられる。 3.2.5 Technology について 各国とも science のカテゴリーより technology のカテゴリ−のほうが、記事数が多い。とりわけ、新興国の technology の記事数の全カテゴリーに対する割合は高く、新しい技術を「応用できる」「展開できる」場およびその技術の導入による経済面へのインパクトの大きさに、大きな期待をよせているものと考えられる。 3.2.6 Politics について すべての国において、politics が全カテゴリーに占める記事数の割合は小さい。記事数単体でみると、中国の記事数が圧倒的に多い。中国経済は中国政府と密接な関係を持つ傾向にあり、政府の動向が実経済・ビジネスに大きく影響するため、NYT の読者の関心も高いことが推察される。 3.3 New York Times の記者のキーワード登録に関して 一つの記事に登録されるキーワードは、多くても 3 キーワード程度である。この数字は、ソーシャルサービスと比較すると、かなり少ない値であることが伺えよう。日本を代表する動画サービス「ニコニコ動画」のタグ数(キーワード数)と比較しても、非常に少ないことがわかる。これは、New York Times の記者が多数のキーワードを登録することによる情報密度の希薄化を意図的に避けているかはわからない(もしくは、より正確に情報の内容を伝えようと意識しているのかもしれない)。 ※補足  情報密度の算出方法※キーワードの数が増えるに伴い、当該情報の単位情報密度(ID)は希薄する。ID は以下の数式により導出することとする。 ID = CD / N ・・・(1)
    • ここで、CD : コンテンツがもつ情報密度、N : キーワードの数とする。なお、一つ一つのタグに重みはないものとする。 また、各々のサービスが目指すところに大きな違いがある点、知っておくべきであろう。New York Times が顧客とするのは比較的収入の多いビジネスマンであり、ニコニコ動画が顧客とするのは、広く一般ユーザー全般である。これを踏まえると、NYT は、ビジネスに活かしやすい=情報密度の濃い情報を提供することで、他の情報機関に対し競争優位のポジションを獲得することができると考えられる。一方、ニコニコ動画はより多くの視聴者数を獲得することを目的としていると考えられ、登録されるキーワードの数に比例し、ユーザーの検索に引っかかる確率が高くなることからキーワードを多数登録することは理にかなう(ちなみに、ニコニコ動画はキーワード設定数を 10 個までと制限している点、また静止画配信ではなく動画配信が主である点付記しておく)。 ◇◇◇◇◇ 総 括 ◇◇◇◇◇ 従来のような紙面媒体には不向きであった「一つの記事に複数個のキーワードを付けること」は、ニュース記事に限らず、様々な分野で活躍の場を広げている。You tube の動画や Amazon の商品などに、複数のキーワード付けがされているのはよく知られたことだ。 一つの記事、商品に対して、多数のキーワードを設定することは、より包括的なユーザー獲得に繋がるのはまちがいないだが、その一方で、情報の肥大化/タグの乱用により、不適切なタグ付けによりユーザーを混乱させてしまうとも考えられる。これに関する対処方法として、グーグルの検索機能は、複数個のタグが段階的に入力されるに合わせて、ユーザーが取得する情報の密度を変えることに成功している。
    • japan article number 1400 2010 2009 1200 2008 2007 1000 2006 800 2005number 600 400 200 0 art business economy science technology politics japan category number 2800 2010 2400 2009 2008 2000 2007 1600 2006number 2005 1200 800 400 0 art business economy science technology politics Fig. 3 Article number and Registered-keywords number in Japan
    • china article number 1400 2010 2009 1200 2008 1000 2007 2006 800 2005number 600 400 200 0 art business economy science technology politics china registered-keywords number 2800 2010 2400 2009 2008 2000 2007 2006 1600number 2005 1200 800 400 0 art business economy science technology politics Fig .4 Article number and Registered-keywords number in China
    • france article number 1400 2010 2009 1200 2008 1000 2007 2006 800 2005number 600 400 200 0 art business economy science technology politics france registered-keywords number 2800 2010 2400 2009 2008 2000 2007 2006 1600 2005number 1200 800 400 0 art business economy science technology politics Fig.5 Article number and Registered-keywords number in France
    • india article number 1400 2010 2009 1200 2008 1000 2007 2006 800 2005number 600 400 200 0 art business economy science technology politics india registered-keywords number 2800 2010 2009 2400 2008 2000 2007 2006 1600 2005number 1200 800 400 0 art business economy science technology politics Fig. 6 Article number and Registered-keywords number in India
    • japan registered-keywords(N) / article(N) 3 art business2.5 economy science technology 2 politics1.5 10.5 2004 2005 2006 2007 2008 2009 2010 2011 china registered-keywords(N) / article(N) 3 art business2.5 economy science 2 technology politics1.5 10.5 2004 2005 2006 2007 2008 2009 2010 2011 Fig. 7 Registered-keywords/Article in Japan and China
    • france registered-keywords(N) / article(N) 3 art 2.5 business economy science 2 technology politics 1.5 1 0.5 2004 2005 2006 2007 2008 2009 2010 2011 india registered-keywords(N) / article(N) 3 art business2.5 economy science technology 2 politics1.5 10.5 2004 2005 2006 2007 2008 2009 2010 2011 Fig. 8 Registered-keywords/Article in France and India
    • All-Country registered-keywords(N) / article(N) 3 art business2.5 economy science technology 2 politics1.5 10.5 2004 2005 2006 2007 2008 2009 2010 2011 Fig. 9 Registered-keywords/Article in All-country
    • 記事にみるカテゴリーとキーワードの関係性 1. 序論 情報通信インフラが整備され(1990 年代後半)、パーソナルコンピューターを購入することが出来るほどの価格になる(2000 年代前半)とともに、インターネットの世界は、技術面・普及面で大きな進歩を達成することになった。 情報収集のスタイルも大きく変遷した。インターネットが普及する以前は、情報収集の多くは新聞や雑誌といった「紙面」に頼ることが多く(紙面以外では、ラジオやテレビ等があげられる)、情報の多くは「一般大衆向け」にカスタマイズされた情報がほとんどを占めていた。 これら新聞や雑誌、テレビといったメディアが提供する情報に対して、読者・視聴者(ユーザー)は「独自のカテゴリー」をつけることは難しく、新聞・雑誌の切り抜き・編集や、ビデオ分類などを通じてしか独自のカテゴリーをつくることはできなかった。 しかし、パーソナルコンピューター(以下 PC)およびインターネット(以下ネット)環境が急速に整備/普及されるに伴い、ネット上で情報を発信するメディアが多数現れてきた。合わせて、ユーザーは Internet Explorer や Fire Fox といったブラウザを通じ、お好みのサイトや記事の「Book mark」をつくることが可能になった。また、ユーザーは、メディア側が提供する「カテゴリー(およびキーワード、タグ)」を辿ることで、容易に他の情報源にアクセスすることが出来るようになった。加えて、Amazon.com などコマースサイトでは、商品登録が単一カテゴリーではなく複数カテゴリーにまたがって登録できるインフラが整備された。 PC、ネット環境の普及が進むにつれ、ネット世界の技術も大きく進展し、個々人が情報を提供し、個人の間でそれを共有することが可能となるサービスが表れはじめた(代表的なサービスとしてブログがあげられる)。写真共有サイトの Flickir では、投稿する写真に対し、ユーザーは複数個の「キーワードおよびタグ(以下総称としてキーワードとする)」を自由につけることができる。具体的には、パリで撮ったエフェル等の写真に、”パリ”、”エッフェル塔”、”展望台”、”綺麗な景色”、”家族記念”といったキーワードを設定することができる。 キーワード付けの功の面としては、乱雑に溢れる情報を集約させることで、ユーザーに効率的な情報収集を可能にする面があげられる。記事に付けられたキーワードと同じキーワードを持つ情報を容易に取得できることは、ユーザーが関心のある情報を効率的に収集できるという点で、非常に魅力的だ。
    •  一方で、キーワードをつけることによる罪の面も忘れてはいけない。キーワードを限定することで、当該情報を取得するユーザーに対し、一面的な見方を押し付けてしまう可能性は拭えない。とりわけ、ユーザーに対し、大きな影響力を与えうる新聞や雑誌といったメディアが発する情報のキーワード付けには、注目すべきであろう。 また、適切なキーワード付けはユーザーエクスペーリエンスの向上に大きく寄与するのは間違いなく、適切なキーワードをつける習慣を身につけることは、キーワードをつけるユーザーはもちろんのこと、その情報に触れるユーザーの文意理解向上にも繋がる。加えて、普段は興味を示さないようなカテゴリーと結びつけられたキーワードを辿る(カテゴリーを橋渡しするキーワード)ことで、新しい興味や発想が生まれる可能性もある(Fig.0)。 Category A (ex. Politics) keyword (ex. Currency) Category B (ex. Economy) Fig. 0 CategoryA と Category B をつなぐ keyword (タグ) の概念図 そこで、本研究では 2005 年から直近の 2010 年までの New York Times の記事に焦点を当て、一流の記者によるタグ登録の傾向を、国別・カテゴリー別に明らかにするとともに、カテゴリーを隔てて共通するキーワードの存在を明らかにしていく。 2 実験方法 2.1 データ取得方法 Nye York times の API より、2005~2010 年の間に先進国(日本、フランス)、新興国(中国、インド)に関し、投稿された記事をカテゴリー別に取得し、各々の記事に登録されたキーワードを計上していく。 2.2 カテゴリー相関度の分析/解析各々のカテゴリー同士の上位キーワードを比較することで、相関の程度を算出する。相関の程度は以下の Step により判断する。
    •   Step 1: カテゴリー1のキーワード順位を x 軸に、カテゴリー 2 のキーワード順位     を y 軸に設定。  Step 2:カテゴリー1とカテゴリー2のキーワード順位プロットの近似直線     (線形近似:y=ax + b)および、相関係数を算出。近似直線と相関係数および     各々のカテゴリーにおけるキーワード順位 100 位以内のカウント数より、     カテゴリー間の関連度を以下の条件に従い算出する。  近似直線:y=ax+b の係数 a,b 関し、   条件1 a>0.3,   条件2 b<25   条件3 R2>0.2   条件4 キーワードカウント数(Number)>50  の4条件を満たす組み合わせを「相関あり」とみなし、   条件3は満たさないが、   条件3 R2>0.12  を満たす組み合わせを「弱相関あり」とみなす。 2.3 登録キーワードの詳細とベキ乗則 全カテゴリーにおける登録キーワード数およびその順位について、ベキ乗則の関係性の有無を log(登録キーワード数) = log (登録キーワード順位)によって分析する。 3 実験結果および考察 3.1 各国の登録上位キーワードと国ごとの特徴/傾向 3.1.1 全体の特徴/傾向について (Table 1, 2) Art に関しては上位 4 キーワードに国別の変化は無く、キーワード設定に際し、ある程度決まったキーワードが普遍的に使用されているものと考えられる。 business,economy に関しても上位 3 キーワードに大きな変化は無く、経済情勢および国際関係に関係するキーワードが多い。また、20 位以内のキーワードをみると各国の産業形態と関係性の高いキーワードが現れている(後段参照)。 Technology,Science に関して、新興国では Global warming が上位に位置している(両カテゴリーにて 10 位以内)一方、先進国ではそれほど上位に位置していない(フランスに至っては両カテゴリーで 10 位以下となっている)。また、technology に関しては、Computer and Internet のキーワードが全ての国で 2 位以内となっており、各国ともこの分野へ高い関心をもっていると考えられる。 3.1.2 国別の特徴/傾向について (Table 1, 2) 日本特有のキーワードとして、Automobile があげられる。Business, economy, technologyの分野で上位に位置しているのがわかる。また、他国と比べ、business,economy のカテゴ
    • リーで Politics and Government のキーワード順位が低く、経済・ビジネスについて政府との関係性が希薄であると考えられる(裏を返せば政府に頼らず、経済・ビジネスが成り立っていると捉えることもできる)。 フランス特有のキーワードとして、旅行関係のキーワード(Travel および Airplane)、文化・芸術関係のキーワード(Books and Literature および Art)が上位に登録されており、国の産業としても、これらは重要なポジションを占めていると考えられる。加えて、science 分野においても文化・芸術関係のキーワードは上位に位置しており、芸術科学の分野の発展に力を注いでいるものと考えることができる。また、technology のカテゴリーでAtomic Energy がキーワード上位に位置しているのは、原発大国を象徴しているとも捉えられよう。 中国、インドに特徴的なキーワードとして、business,economy カテゴリーでの Oil andGasoline があげられる。両国とも産油国であり、原油は国の経済・ビジネスを支える重要な資源であると同時に、諸外国も両国の産油産業およびその動向に対し、高い関心を示しているものと考えることができる。また、経済成長に伴う温室効果ガスの放出量の増加に対する懸念からか、science のカテゴリーで Global Warming が上位に位置している。
    • JapanNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Travel and Books and Deaths Motion Computers and Fashion and Buildingsart Art Museums Vacations Literature (Obituaries) Pictures Music Sculpture Dancing Photography Architecture Movies Design Theater the Internet Culture Restaurants Automobiles Apparel (Structures) Mergers, Economic International Acquisitions Subprime Oil Conditions and Trade and United States Computers and Stocks and Banks and and Company Travel and Mortgage Books and Politics and Airlines and Executives and Advertising (Petroleum) Recession and Internationalbusiness Trends World Market Economy Automobiles the Internet Bonds Banking Divestitures Reports Vacations Crisis Literature Government Art Airplanes Management and Marketing and Gasoline Depression Relations Third World Economic International Subprime Oil United States and Prices (Fares, Conditions and United States Trade and Stocks and Mortgage Politics and Banks and Recession and (Petroleum) International International Developing Fees and Books andeconomy Trends Economy World Market Bonds Crisis Automobiles Government Banking Interest Rates Depression and Gasoline Relations Relations Currency Labor Credit Environment Countries Rates) Literature International Economic Science and Books andEducation and Medicine and Deaths Global Trade and Conditions and Computers and Politics and United States Colleges and International Children and Motionscience Technology Literature Schools Environment Health (Obituaries) Art Warming World Market Trends the Internet Government Economy Automobiles Space Universities Relations Youth Museums Pictures International Economic United States Oil Computers and Trade and Conditions and United States Stocks and International Science and International Cellular Advertising Global Books and Computer and Atomic Hybrid Company (Petroleum)technology Automobiles the Internet World Market Trends Economy Bonds Relations Technology Relations Environment Telephones Art and Marketing Warming Literature Video Games Weapons Vehicles Reports and Gasoline International Economic United States United States United States Presidential Oil Politics and Trade and Conditions and International International Books and United States Politics and Armament and Deaths Election of Motion (Petroleum) Freedom andpolitics Government World Market Trends Relations Relations Art Literature Economy Elections Government Defense (Obituaries) Sculpture Museums 2008 Pictures and Gasoline Photography Human Rights SoccerchinaNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Economic Travel and Books and Motion Conditions and Deaths Collectors and Home Computers andart Art Museums Vacations Literature Pictures Culture Music Theater Architecture Auctions Sculpture Photography Antiques Movies Trends Restaurants (Obituaries) Collections Furnishings the Internet Mergers, International Economic Acquisitions Oil United States United States Subprime Trade and Conditions and United States Computers and Politics and and Stocks and (Petroleum) Banks and Books and Travel and International Company International Politics and Mortgagebusiness World Market Trends Economy the Internet Government Divestitures Bonds and Gasoline Banking Literature Vacations Automobiles Relations Reports Relations Government Art Environment Crisis Labor Economic International Oil United States Subprime Prices (Fares, United States Conditions and Trade and United States Politics and Stocks and (Petroleum) International Mortgage Banks and International Fees and Recession and Politics and Global Books and Computers andeconomy Trends World Market Economy Government Bonds and Gasoline Relations Crisis Banking Relations Rates) Depression Government Environment Warming Currency Automobiles Literature Interest Rates the Internet Economic International United States United States Science and Books and Global Computers and Education and Conditions and Trade and Colleges and Politics and United States International Medicine and Politics and International Deaths Greenhouse Children andscience Technology Literature Warming the Internet Schools Trends World Market Environment Universities Government Economy Art Relations Health Government Relations (Obituaries) Gas Emissions Youth Museums Mergers, International Economic United States Oil Acquisitions United States Computers and Trade and Conditions and International International United States Stocks and Global (Petroleum) Atomic Politics and Science and Greenhouse and Politics and Company Energy andtechnology the Internet World Market Trends Relations Relations Economy Bonds Warming and Gasoline Environment Weapons Government Automobiles Technology Atomic Energy Gas Emissions Divestitures Government Reports Power Economic United States International United States Oil Presidential United States Politics and Books and Conditions and International Trade and International Politics and United States (Petroleum) Election of Freedom and Computers and Global Olympic Armament and Motion Deathspolitics Government Literature Trends Relations World Market Relations Government Art Economy and Gasoline Elections 2008 Human Rights the Internet Warming Games (2008) Defense Pictures Environment (Obituaries) Table 1 Top 20 registered-keywords in each categories for Japan and China
    • franceNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Books and Travel and Motion Deaths Writing and Cooking and Classicalart Art Literature Museums Vacations Pictures (Obituaries) Photography Theater Movies Sculpture Architecture Music Writers Restaurants Dancing Auctions Antiques Cookbooks History Music Mergers, Economic International Acquisitions United States Subprime Conditions and Travel and Airlines and Computers and Books and Trade and Politics and and Banks and Deaths United States Advertising International Executives and Motion International Mortgagebusiness Trends Vacations Airplanes the Internet Literature World Market Government Art Divestitures Banking (Obituaries) Wines Economy and Marketing Relations Management Restaurants Pictures Relations Crisis Economic International Subprime United States Oil Conditions and Trade and Politics and United States Banks and Mortgage Stocks and International Euro Travel and Recession and Airlines and International (Petroleum) Books and Computers andeconomy Trends World Market Government Economy Banking Crisis Bonds Relations (Currency) Vacations Depression Airplanes Relations and Gasoline Literature Elections Labor the Internet Credit Automobiles United States Books and Deaths Science and Medicine and Politics and Education and Colleges and Motion Writing and Travel and Computers and International Bicycles and Internationalscience Literature Art (Obituaries) Technology Health Museums Government Schools Universities History Pictures Writers Photography Vacations the Internet Relations Bicycling Environment Relations Atomic Energy Mergers, United States Economic International Acquisitions Oil Computers and International Atomic International Books and Conditions and Airlines and Trade and United States Politics and Stocks and and Advertising Travel and Deaths (Petroleum)technology the Internet Atomic Energy Relations Weapons Relations Literature Trends Art Airplanes World Market Economy Automobiles Government Bonds Divestitures and Marketing Vacations (Obituaries) and Gasoline Environment Economic United States United States Presidential International Politics and Books and International Conditions and International Deaths Motion Demonstration Politics and Writing and Election of Trade andpolitics Government Literature Art Elections Relations Trends History Relations Islam (Obituaries) Pictures s and Riots Government Museums Writers Terrorism 2008 World Market Sculpture MoviesindiaNo. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Economic Travel and Books and Motion Children and Conditions and Computers and Deaths Fashion and Writing andart Art Vacations Museums Literature Pictures Music Sculpture Culture Theater Movies Photography Youth Trends the Internet Dancing (Obituaries) Restaurants Apparel Writers Architecture Mergers, Third World Economic International Acquisitions and Oil United States Subprime Conditions and Trade and Computers and United States Politics and Travel and and Books and Stocks and Developing Executives and (Petroleum) Banks and International Motion International Mortgagebusiness Trends World Market the Internet Economy Government Vacations Divestitures Literature Bonds Countries Automobiles Art Management and Gasoline Labor Banking Relations Pictures Relations Crisis Third World Economic International Oil United States Prices (Fares, Subprime United States and Conditions and Trade and United States Politics and (Petroleum) Stocks and International Fees and Global Mortgage Politics and International Developing Books and Recession and Banks and Computers andeconomy Trends World Market Economy Government and Gasoline Bonds Relations Rates) Warming Automobiles Crisis Government Relations Countries Labor Literature Environment Depression Banking the Internet Economic International United States Science and Books and Global Education and Conditions and Computers and Colleges and Politics and Trade and Children and Medicine and Deaths International United States Politics and Greenhousescience Technology Literature Warming Schools Trends the Internet Universities Government Environment Art World Market Youth Health (Obituaries) Relations Economy Theater Government Gas Emissions Music Third World Economic International United States and United States Oil Computers and Conditions and Trade and International International Global United States Politics and Stocks and Atomic Science and Developing Books and Politics and Greenhouse (Petroleum)technology the Internet Trends World Market Relations Relations Warming Economy Government Bonds Labor Weapons Technology Countries Literature Environment Automobiles Atomic Energy Government Gas Emissions and Gasoline Economic United States International United States Presidential Oil United States Politics and Books and Conditions and International Trade and Politics and International Motion Global Election of United States Deaths (Petroleum) Armament andpolitics Government Literature Trends Relations World Market Art Terrorism Government Relations Islam Elections Pictures Warming 2008 Economy (Obituaries) and Gasoline Movies Museums Defense Table 2 Top 20 registered-keywords in each categories for France and India
    •  3.2 近似直線分析 3.2.1 カテゴリーごとの相関関係 国別 (Table 3, 4 , Fig. 1 ~ 32 ) 四カ国に共通する傾向として、Business-economy および Business-technology の二つのカテゴリーは高い相関関係をもつ。一方、新興国(China and India)に特徴的な傾向として、Business-science の関連づけが高い。これは、キーワード「Global warming」「Computerand Internet」のキーワードが頻度高く登録されていることによるものと考えられる。 3.2.2 カテゴリーごとの相関関係 全体 (Table 3, 4 , Fig. 33 ~ 40) 4カ国に共通する傾向として、Business-economy および Business-technology に関しては相関関係をもつ。一方、Economy-science, Economy-technology, Science-politics, Science-technology の4つに関しては、弱い相関をもつことがわかる。 Art に関してはすべてのカテゴリーとの相関関係が希薄である。これは、先の論文で、Art に関しては記事あたりのキーワード数が少ないことからも理解できる(Art の記事にはArt 関連のキーワードしか登録しない傾向にあると考えられる)。すなわち、カテゴリーを隔てて、共通するキーワード登録が乏しく、カテゴリーを横断しうる記事=複数のカテゴリーに属する記事が少ないと考えられる。※Fig. 1 ~ 40 の x 軸, y 軸はそれぞれのカテゴリーにおける登録キーワードの順位を示す。(ex. Fig. 1 であれば、Art-Science 両方で Top100 以内に登録されたキーワードについて、x軸が Art、y 軸が Science の順位である。具体的には「Museum」というキーワードならば、x = 2 (Art のカテゴリーで登録数 2 位), y = 12 (Science のカテゴリーで登録数 12 位)となる。)
    • art-science 120 f(x) = 0.43x + 20.89 R² = 0.21 100 80Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) art-business 120 f(x) = 0.07x + 36.87 R² = 0.01 100 80Business Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Fig. 1 Linear proximation plots of Art-Science, Art-Business in Japan
    • art-technology 120 f(x) = -0.25x + 50.48 R² = 0.06 100 80Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) art-economy 120 f(x) = 0.04x + 44.05 R² = 0 100 80Economy Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Fig. 2 Linear proximation plots of Art-Technology, Art-Economy in Japan
    • art-politics 120 f(x) = 0.03x + 37.54 R² = 0 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) business-science 120 f(x) = 0.23x + 24.74 R² = 0.06 100 80Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) Fig. 3 Linear proximation plots of Art-Politics, Business-Science in Japan
    • business-politics 120 f(x) = 0.15x + 32.71 R² = 0.02 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) business-economy 120 f(x) = 0.57x + 15.96 R² = 0.33 100 80Economy Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N)Fig. 4 Linear proximation plots of Business-Politics, Business-Economy in Japan
    • business-technology 120 f(x) = 0.66x + 14.91 R² = 0.34 100 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) economy-science 120 f(x) = 0.24x + 22.03 R² = 0.08 100 80 Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N)Fig. 5 Linear proximation plots of Business-Technology, Economy-Science in Japan
    • economy-technology 120 f(x) = 0.54x + 19.83 R² = 0.29 100 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N) economy-politics 120 f(x) = 0.28x + 28.03 R² = 0.09 100 80 Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N)Fig. 6 Linear proximation plots of Economy-Technology, Economy-Politics in Japan
    • science-technology 120 f(x) = 0.31x + 29.74 R² = 0.08 100 80Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Sciecne Rank (N) science-politics 120 f(x) = 0.4x + 22.92 R² = 0.15 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Science Rank (N)Fig. 7 Linear proximation plots of Science-Technology, Science-Politics in Japan
    • technology-politics 120 f(x) = 0.22x + 30.7 R² = 0.05 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Technology Rank (N) Fig. 8 Linear proximation plots of Technology-Politics in Japan
    • art-science 120 f(x) = 0.46x + 18.73 R² = 0.23 100 80Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) art-business 120 f(x) = 0.01x + 40.91 R² = 0 100 80Business Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Fig. 9 Linear proximation plots of Art-Science, Art-Business in China
    • art-politics 120 f(x) = 0.19x + 30.19 R² = 0.05 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) art-technology 120 f(x) = -0.2x + 54.55 R² = 0.03 100 80Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Fig. 10 Linear proximation plots of Art-POlitics, Art-Technology in China
    • art-economy 120 f(x) = -0.05x + 45.79 R² = 0 100 80Economy Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) business-science 120 f(x) = 0.43x + 18.48 R² = 0.22 100 80Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) Fig. 11 Linear proximation plots of Art-Economy, Business-Science in China
    • business-politics 120 f(x) = 0.24x + 28.41 R² = 0.06 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) business-economy 120 f(x) = 0.67x + 13.51 R² = 0.46 100 80Economy Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N)Fig. 12 Linear proximation plots of Business-Politics, Business-Economy in China
    • business-technology 120 f(x) = 0.47x + 22.96 R² = 0.24 100 80Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) economy-science 120 f(x) = 0.31x + 26.31 R² = 0.1 100 80 Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N) Fig. 13 Linear proximation plots of Business-Technology, Economy-Science in China
    • economy-technology 120 f(x) = 0.58x + 17.89 R² = 0.34 100 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N) economy-politics 120 f(x) = 0.3x + 29.55 R² = 0.09 100 80 Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N)Fig. 14 Linear proximation plots of Economy-Technology, Economy-Politics in China
    • science-technology 120 f(x) = 0.39x + 27.24 R² = 0.13 100 80Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Science Rank (N) science-politics 120 f(x) = 0.37x + 23.64 R² = 0.13 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Science Rank (N)Fig.15 Linear proximation plots of Science-Technology, Science-Politics in China
    • technology-politics f(x) = 0.23x + 30.7 120 R² = 0.06 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Technology Rank (N) Fig. 16 Linear proximation plots of Technology-Politics in China
    • art-science 120 f(x) = 0.33x + 21.67 R² = 0.13 100 80Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) art-business 120 f(x) = 0.32x + 32.39 R² = 0.1 100 80Business Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Fig. 17 Linear proximation plots of Art-Science, Art-Business in France
    • art-politics 120 f(x) = 0.36x + 23.78 R² = 0.16 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) art-technology 120 f(x) = 0.01x + 38.56 R² = 0 100 80Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Fig. 18 Linear proximation plots of Art-Politics, Art-Technology in France
    • art-economy 120 f(x) = 0.07x + 48.65 R² = 0 100 80Economy Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) business-science 120 f(x) = 0.25x + 23.12 R² = 0.09 100 80Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) Fig. 19 Linear proximation plots of Art-Economy, Business-Science in France
    • business-politics 120 f(x) = 0.11x + 33.09 R² = 0.02 100 80 Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) business-economy 120 f(x) = 0.48x + 23.26 R² = 0.25 100 80 Economy Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N)Fig. 20 Linear proximation plots of Business-Politics, Business-Economy in France
    • business-technology 120 f(x) = 0.46x + 22.08 R² = 0.24 100 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) economy-science 120 f(x) = 0.21x + 27.3 R² = 0.04 100 80 Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N)Fig. 21 Linear proximation plots of Business-Technology, Economy-Science in France
    • economy-technology 120 f(x) = 0.47x + 19.41 R² = 0.21 100 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N) economy-politics 120 f(x) = 0.17x + 33.72 R² = 0.03 100 80 Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N)Fig. 22 Linear proximation plots of Economy-Technology, Economy-Politics in France
    • science-technology 120 f(x) = 0.42x + 22.2 R² = 0.15 100 80Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Science Rank (N) science-politics 120 f(x) = 0.46x + 23.83 R² = 0.17 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Science Rank (N)Fig. 23 Linear proximation plots of Science-Technology, Science-Politics in France
    • technology-politics 120 f(x) = 0.22x + 27.3 R² = 0.05 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Technology Rank (N) Fig. 24 Linear proximation plots of Technology-Politics in France
    • art-science 120 f(x) = 0.35x + 22.36 R² = 0.17 100 80Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) art-business 120 f(x) = 0.08x + 38.24 R² = 0.01 100 80Business Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Fig.25 Linear proximation plots of Art-Science, Art-Business in India
    • art-technology 120 f(x) = -0.13x + 48.81 R² = 0.02 100 80Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) art-economy 120 f(x) = -0.03x + 42.13 R² = 0 100 80Economy Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Fig. 26 Linear proximation plots of Art-Technology, Art-Economy in India
    • art-politics 120 f(x) = 0.11x + 36.88 R² = 0.01 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) business-science 120 f(x) = 0.42x + 17.7 R² = 0.24 100 80Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) Fig.27 Linear proximation plots of Art-Politics, Business-Science in India
    • business-politics 120 f(x) = 0.42x + 24.32 R² = 0.17 100 80Poltics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) business-economy 120 f(x) = 0.66x + 14.11 R² = 0.41 100 80Economy Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N)Fig. 28 Linear proximation plots of Business-Politics, Business-Economy in India
    • business-technology 120 f(x) = 0.61x + 18.19 R² = 0.39 100 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) economy-science 120 f(x) = 0.3x + 21.95 R² = 0.13 100 80 Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N)Fig. 29 Linear proximation plots of Business-Technology, Economy-Science in India
    • economy-technology 120 f(x) = 0.49x + 22.6 R² = 0.25 100 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N) economy-politics 120 f(x) = 0.45x + 22.85 R² = 0.21 100 80 Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N)Fig. 30 Linear proximation plots of Economy-Technology, Economy-Politics in India
    • science-technology 120 f(x) = 0.64x + 19.89 R² = 0.26 100 80Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Science Rank (N) science-politics 120 f(x) = 0.37x + 25.45 R² = 0.11 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Science Rank (N)Fig. 31 Linear proximation plots of Science-Technology, Science-Politics in India
    • technology-politics 120 f(x) = 0.19x + 34.22 R² = 0.03 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Technology Rank (N) Fig. 32 Linear proximation plots of Technology-Politics in India
    • Art-Science 120 f(x) = 0.48x + 17.89 R² = 0.2 100 80Science Rank (N) 60 40 20 0 0 10 20 30 40 50 60 70 80 90 100 Art Rank (N) Art-Business 120 f(x) = 0.2x + 33.61 R² = 0.04 100 80 Business Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Fig. 33 Linear proximation plots of Art-Science, Art-Business in All-country
    • Art-Technology 120 f(x) = -0.27x + 50.59 R² = 0.07 100 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Art-Economy 120 f(x) = -0.18x + 54.81 R² = 0.02 100 80Economy Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N)Fig. 34 Linear proximation plots of Art-Technology, Art-Economy in All-country
    • Art-Politics 120 f(x) = 0.24x + 26.66 R² = 0.08 100 80 Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Art Rank (N) Business-Science 120 f(x) = 0.45x + 16.99 100 R² = 0.26 80Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) Fig. 35 Linear proximation plots of Art-POlitics, Business-Science in All-country
    • Business-Politics 120 f(x) = 0.2x + 31.57 R² = 0.04 100 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) Business-Economy 120 f(x) = 0.61x + 14.77 R² = 0.4 100 80 Economy Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N)Fig. 36 Linear proximation plots of Business-Politics, Business-Economy in All-country
    • Business-Technology 120 f(x) = 0.48x + 20.16 100 R² = 0.25 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Business Rank (N) Economy-Science 120 f(x) = 0.29x + 25.32 100 R² = 0.11 80 Science Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N)Fig. 37 Linear proximation plots of Business-Technology, Economy-Science in All-country
    • Economy-Technology 120 f(x) = 0.36x + 24.78 R² = 0.15 100 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N) Economy-Politics 120 f(x) = 0.2x + 34.6 R² = 0.04 100 80 Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Economy Rank (N)Fig. 38 Linear proximation plots of Economy-Technology, Economy-Politics in All-country
    • Science-Politics 120 f(x) = 0.35x + 24.77 R² = 0.13 100 80 Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Science Rank (N) Science-Technology 120 f(x) = 0.46x + 23.83 R² = 0.17 100 80 Technology Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Science Rank (N)Fig. 39 Linear proximation plots of Science-Politics, Science-Technology in All-country
    • Technology-Politics 120 f(x) = 0.29x + 32.11 100 R² = 0.08 80Politics Rank (N) 60 40 20 0 0 20 40 60 80 100 120 Technology Rank (N) Fig. 40 Linear proximation plots of Technology-Politics in All-country
    • Art-Science japan china france india All-countrya 0.428 0.458 0.33 0.351 0.48b 20.89 18.73 21.67 22.36 17.88R2 0.208 0.23 0.128 0.174 0.203count 44 51 47 46 48Art-Business japan china france india All-countrya 0.073 0.01 0.323 0.081 0.1905b 36.87 40.9 32.39 38.24 33.61R2 0.0057 0.0001 0.102 0.007 0.038count 49 53 50 52 51Art-Technology japan china france india All-countrya -0.025 -0.04 0.006 -0.124 -0.274b 50.484 45.79 38.56 48.81 50.59R2 0.057 0.002 0.000004 0.016 0.074count 39 41 39 41 36Art-Economy japan china france india All-countrya 0.04 -0.2 0.071 -0.029 -0.183b 44.05 54.55 48.65 42.13 54.81R2 0.001 0.034 0.0044 0.0008 0.022count 33 39 35 37 34Art-Politics japan china france india All-countrya 0.028 0.192 0.362 0.107 0.238b 37.54 30.19 23.78 36.88 36.66R2 0.001 0.045 0.164 0.011 0.081count 48 52 50 49 48Business-Science japan china france india All-countrya 0.234 0.43 0.253 0.422 0.453b 24.74 18.48 23.12 17.7 16.99R2 0.056 0.224 0.093 0.237 0.258count 46 57 56 59 56Business-Politics japan china france india All-countrya 0.146 0.244 0.112 0.415 0.195b 32.71 28.41 33.09 24.32 31.57R2 0.023 0.059 0.015 0.167 0.044count 57 60 61 65 64Business-Economy japan china france india All-countrya 0.57 0.067 0.477 0.656 0.61b 15.96 13.51 23.26 14.11 14.77R2 0.333 0.457 0.253 0.41 0.402count 69 72 72 68 72Table 1 Linear-Proximation of Each Category in 4 countries and All-country(Part-1)
    • Business-Technology japan china france india All-countrya 0.664 0.474 0.456 0.614 0.482b 14.91 22.96 22.08 18.19 20.16R2 0.341 0.237 0.236 0.395 0.249count 66 75 71 75 67Economy-Science japan china france india All-countrya 0.244 0.31 0.207 0.3 0.292b 22.03 26.31 27.3 21.95 25.32R2 0.075 0.098 0.045 0.126 0.106count 40 52 46 54 50Economy-Technology japan china france india All-countrya 0.538 0.576 0.467 0.488 0.361b 19.83 17.89 19.41 22.6 24.78R2 0.293 0.339 0.207 0.25 0.146count 64 68 59 72 65Economy-Politics japan china france india All-countrya 0.282 0.301 0.169 0.455 0.196b 28.02 29.55 33.72 22.85 34.6R2 0.091 0.087 0.029 0.208 0.037count 50 57 55 59 56Science-Politics japan china france india All-countrya 0.403 0.393 0.425 0.641 0.353b 22.92 27.24 22.2 19.89 24.78R2 0.148 0.126 0.152 0.262 0.131count 59 60 56 62 65Science-Technology japan china france india All-countrya 0.307 0.366 0.459 0.34 0.459b 29.74 23.64 23.83 25.45 23.83R2 0.081 0.133 0.166 0.114 0.166count 47 63 57 63 57Technology-Politics japan china france india All-countrya 0.217 0.229 0.22 0.18 0.289b 30.7 30.7 27.3 34.22 32.11R2 0.05 0.057 0.05 0.033 0.075count 52 58 55 62 58Table 2 Linear-Proximation of Each Category in 4 countries and All-country(Part-2)
    •  3.3 カテゴリーを橋渡しするキーワード 互いの Category にて上位 20 以内を満たすキーワード(ex. Business で 1 位かつ Economyで 13 位のキーワード)を Table 3 に示す。なお、ここに記されたキーワードは、二つのCategory を橋渡しするキーワードであると本論文では想定する。  ここで米国に関連するキーワード(United States ではじまるキーワード)およびカテゴリーと直結するキーワード(ex. Politics のカテゴリーなら Politics and Government)を除して、それぞれの Category 間のキーワードを明らかにすると、Table 4 のような結果になる。※本論文では、Table 4 に示される各々のキーワードが真にカテゴリーを橋渡しするものであるかについての検証までは行わない。
    • Art- Science Art-Business Art-Economy Art-Technology Art-Politics Business-Economy Business-Science Business-Technology Economic Conditions Economic Conditions Economic ConditionsArt Art Books and Literature Art Art and Trends and Trends and Trends International Trade and International Trade and International Trade andMuseums Books and Literature Museums Museums World Market World Market World Market Computers and the Computers and theBooks and Literature Travel and Vacations Books and Literature Books and Literature United States Economy Internet Internet Computers and the Politics andMotion Pictures Internet Travel and Vacations Motion Pictures Government United States Economy United States Economy Politics and Politics andDeaths (Obituaries) Motion Pictures Deaths (Obituaries) Automobiles Government GovernmentComputers and the Mergers, AcquisitionsInternet Music Books and Literature Books and Literature and Divestitures Deaths (Obituaries) Stocks and Bonds Art Automobiles Photography Banks and Banking International Relations Books and Literature Oil (Petroleum) and United States Theater Gasoline International Relations Stocks and Bonds Architecture International Relations Art United States Oil (Petroleum) and Design International Relations Gasoline Computers and the Subprime Mortgage Internet Crisis International Relations United States International RelationsBusiness-Politics Economy-Science Economy-Technology Economy-Politics Science-Technology Science-Politics Technology-PoliticsEconomic Conditions Economic Conditions Economic Conditions Economic Conditions Economic Conditionsand Trends and Trends and Trends and Trends Books and Literature Books and Literature and TrendsInternational Trade and International Trade and International Trade and International Trade and Science and International Trade andWorld Market World Market World Market World Market Technology Global Warming World MarketUnited States Economy United States Economy United States Economy United States Economy Global Warming Art International RelationsPolitics and Politics and Politics and Politics and Politics andGovernment Government Government Government Art Government United States Economy United States Oil (Petroleum) and Computers and the Economic Conditions United StatesBooks and Literature International Relations Stocks and Bonds Gasoline Internet and Trends International Relations Oil (Petroleum) and United States Politics and International Trade andArt International Relations Gasoline International Relations Government World Market Global WarmingOil (Petroleum) and United States Politics United States Politics andGasoline and Government International Relations International Relations Environment Deaths (Obituaries) Government United States Politics Economic Conditions Oil (Petroleum) andInternational Relations Books and Literature Automobiles and Government and Trends United States Economy GasolineUnited States International Trade andInternational Relations Global Warming International Relations Books and Literature World Market International Relations Books and Literature United States Politics Environment and Government Global Warming United States Economy Museums Art United States Politics United States Politics Books and Literature International Relations and Government and Government United States Politics United States Global Warming and Government International Relations United States Labor International Relations Motion Pictures Environment Table 3 Co-registered keywords within Top 20 between Two categories
    • Art- Science Art-Business Art-Economy Art-Technology Art-Politics Business-Economy Business-Science Business-Technology Computers and the Computers and theMotion Pictures Travel and Vacations Travel and Vacations Motion Pictures Automobiles Internet Internet Computers and the Mergers, AcquisitionsDeaths (Obituaries) Internet Motion Pictures Deaths (Obituaries) Stocks and Bonds Art and DivestituresComputers and theInternet Music Banks and Banking Automobiles Oil (Petroleum) and Deaths (Obituaries) Gasoline Stocks and Bonds Subprime Mortgage Photography Crisis Art Oil (Petroleum) and Theater Gasoline Architecture Design Computers and the InternetBusiness-Politics Economy-Science Economy-Technology Economy-Politics Science-Technology Science-Politics Technology-Politics Oil (Petroleum) andArt Global Warming Stocks and Bonds Gasoline Global Warming Global Warming Global WarmingOil (Petroleum) and Oil (Petroleum) and Computers and the Oil (Petroleum) andGasoline Environment Gasoline Global Warming Internet Deaths (Obituaries) Gasoline Automobiles Environment Museums Global Warming Motion Pictures Labor Environment Table 4 Co-registered keywords within Top 20 between Two categories (After omitting some keywords which have little impact)
    •  3.4 全カテゴリーキーワード分析 (Fig. 41 ~ 48 ) 各々の登録キーワードカウント数(y)は、登録キーワード順位(x)に対してベキ乗則に従うことがわかる(exp(αy) = C・exp(βx))。全体の直線近似の R2 も高い数値(0.9 以上)を示しているが、詳細に観察すると、近似直線は二つの領域:上位 10 位と 10 位以降に分割しているように思われる。そこで、Total keywords count 数の近似直線(Fig. 47)を、上位 10 位と10 位以降に分割したグラフを Fig. 48 に示す。 Fig. 48 より、上位 10 位の近似直線の傾きは 10 位以降のそれよりも緩やか(順位変動に対して)でああることがわかる。このことから NYT の記事における登録キーワードカウント数に関しては、少なくとも二つの領域があるものと考えられる(なお、登録キーワードの階層設定【例えば「Art」と「Picture」の場合、前者の方がより頻繁に用いるキーワード群に含まれると考えられる】の重みは考慮しない)。本論文では上位 10 位のデータに見られる近似直線を「T – Climb (Top - climb)」、10 位以降のデータにみられる近似直線を「M – Climb (Middle-Climb)」と名付ける。 両者を比較すると、本論文においては総じて Top – Climb の傾きの絶対値は M-Climb の傾きの絶対値よりも小さい(変数 x の増加に対しアウトプット y の減少量が小さい)。これは、一律で定義するベキ乗則に期待される数値に対し、現実の数値が乖離していることを意味し、各々のデータプロットの結果(Fig. 41 ~ Fig. 46 )にも見受けられる。乖離する理由としては、 1. 解析データ数の母数が小さい(本論文のキーワード母数:20 万件)。 2. キーワードの階層に応じ、異なるベキ乗則を適用する必要がある。 3. キーワードの登録カウント数にはベキ乗則を適用すべきではない(無理矢理な統計 モデルの適用による誤判断)などが考えられる。
    • Art Academy Awards (Oscars) Spanish Civil War (1936-39) Interior Design and Furnishings Weddings and Engagements World War II (1939-45) International Relations Poetry and Poetsrank Restoration and Rehabilitation Politics and Government Classical Music Antiques Sculpture Art 0 500 1000 1500 2000 number Artt 8 f(x) = -1.02x + 7.58 R² = 0.99 7 6 ln (number) 5 4 3 2 0 1 2 3 4 5 ln (rank) Fig. 41 Keyword-counts and regression line of Art-category
    • Business Taxation United States Armament and Defense Wages and Salaries Factories and Manufacturing Science and Technology News and News Media Energy and PowerRank Apparel Foreign Investments Recession and Depression Company Reports Books and Literature Economic Conditions and Trends 0 200 400 600 800 1000 1200 1400 Number Business 8 f(x) = -0.75x + 7.7 R² = 0.98 7 6ln (number) 5 4 3 0 1 2 3 4 5 ln (rank) Fig. 42 Keyword-counts and regression line of Business-category
    • Economy Entrepreneurship Mutual Funds Olympic Games (2008) Housing and Real Estate Science and Technology Gross Domestic Product Taxation UnemploymentRank Dow Jones Stock Average Energy and Power Credit Computers and the Internet United States Politics and Government Banks and Banking Economic Conditions and Trends 0 1000 2000 3000 Number Economy 9 f(x) = -0.92x + 8.02 8 R² = 0.99 7ln (number) 6 5 4 3 0 1 2 3 4 5 ln (rank) Fig. 43 Keyword-counts and regression line of Economy-category
    • Technology Photography Software Small Business Engineering and Engineers Presidential Election of 2008United Nations Framework Convention on Climate Change Entrepreneurship Motion Pictures Rank Subprime Mortgage Crisis Colleges and Universities Airlines and Airplanes Energy and Power Oil (Petroleum) and Gasoline Stocks and Bonds Computers and the Internet 0 100 200 300 400 500 600 700 800 Number Technology 7 f(x) = -0.75x + 7.14 R² = 0.97 6 ln (number) 5 4 3 0 1 2 3 4 5 ln (rank) Fig. 44 Keyword-counts and regression line of Technology-category
    • Politics Race Stocks and Bonds Carbon Dioxide Finances Automobiles Buddhism Leaders and Leadership AgricultureRank Energy and Power Atomic Weapons Writing and Writers Demonstrations and Riots Islam United States Politics and Government Politics and Government 0 100 200 300 400 500 600 700 800 Number Politics 7 f(x) = -0.87x + 6.89 R² = 0.99 6 5ln (number) 4 3 2 0 1 2 3 4 5 ln (rank) Fig. 45 Keyword-counts and regression line of Politics-category
    • Science Philanthropy Mathematics Language and Languages Food Contamination and Poisoning Computer Security Immigration and Refugees Vietnam War Fish and Other Marine LifeRank PhysicsThird World and Developing Countries Carbon Dioxide Culture International Relations Environment Books and Literature 0 50 100 150 200 250 300 350 Number Science 6 f(x) = -0.82x + 6.6 R² = 0.95 5 ln (number) 4 3 2 0 1 2 3 4 5 ln (rank) Fig. 46 Keyword-counts and regression line of Science-category
    • Total Historic Buildings and Sites Fish and Other Marine Life Inventions and Patents Trade Shows and Fairs Olympic Games Consumer Behavior Censorship Coal Buildings (Structures) AuctionsRank Entrepreneurship Nuclear Weapons Carbon Dioxide Theater Sculpture Medicine and Health Labor Oil (Petroleum) and Gasoline Economic Conditions and Trends 0 1000 2000 3000 4000 5000 6000 7000 Number Total 10 f(x) = -0.76x + 9.09 R² = 0.99 9 8 ln (number) 7 6 5 4 0 1 2 3 4 5 6 ln (rank) Fig. 47 Total-keyword-counts and regression line
    • Total 10 f(x) = -0.62x + 8.84 9 R² = 0.98 8ln (number) 7 6 5 4 0 1 2 3 4 5 6 ln (rank) Total 10 f(x) = -0.82x + 9.31 9 R² = 0.99 8ln (number) 7 6 5 4 0 1 2 3 4 5 6 ln (rank) Fig. 48 Total-keyword-counts and regression line (a):Top 10 (b):After Top 10
    •  M - Climb は、しばしば他の文献等で言及される「Long-Tail(=ベキ乗則に従う商品の売り上げを、販売数 (population)を縦軸に、商品 (product) を横軸にして、販売成績の良いものを左側から順に並べると、あまり売れない商品が右側になだらかに長く伸びるグラフが描かれる[wikipedia 抜粋])」と似た傾向を持つ。 また、各カテゴリー別のキーワードカウント数においても、T-Climb, M-Climb の傾向はみられ、他の文献の売上量と売り上げ順位の調査( Takashi Iba, Masaya Mori“Visualizing and Analyzing Networks of Co-Purchased Books, CDs and DVDs”)データにも散見される。詳細な研究については、今後の課題とし、これ以上の分析は行わないこととする。 ◇◇◇◇◇ 総 括 ◇◇◇◇◇ 各々のカテゴリーに登録されたキーワードから、カテゴリー同士の相関度を導出した。NYT の記事に関しては、広範囲のカテゴリーと相関関係を持つカテゴリーとして、Business があげられる一方、他のカテゴリーと相関関係に乏しいカテゴリーとして Art があげられる。背景には、NYT の読者の多くはビジネスマンであると想定され、記事の多くは Business と関係性の高いものになっているためと考えられる。 また、キーワードの登録数は大まかにはベキ乗則に従うが、詳細に分析すると T-Climb(登録上位のキーワード)と M-Climb (登録上位以外のキーワード)の二つの傾向があることがわかる。今後の課題として、キーワード登録数に関し、より詳細な傾向把握を達成するためには、1 キーワードそのものがもつ包括性(フレームの広さ:図参照)などを考慮した分析が必要となろう。 ◇◇ 参考文献 ◇◇ 1. Google 世界銀行, 世界開発指標 (http://www.google.co.jp/publicdata/explore?ds=d5bncppjof8f9_&hl=ja&dl=ja) 2. NHK 放送文化研究所 生活時間調査 (http://www.nhk.or.jp/bunken/yoron/lifetime/index.html) 3. Takashi Iba, Masaya Mori “Visualizing and Analyzing Networks of Co-Purchased Books, CDs and DVDs” (http://www.ifr.ac.uk/netsci08/Download/CT25_Uzzo_visual/CT252_IBA.pdf) 4. wikipedia Long tail (http://ja.wikipedia.org/wiki/%E3%83%AD %E3%83%B3%E3%82%B0%E3%83%86%E3%83%BC%E3%83%AB)
    • ◇◇◇ 論文1、2を踏まえての今後の課題 ◇◇◇ 今回の調査国は時間的な制約から4カ国に留めてしまったため、調査傾向に偏重が現れているとも考えられる。先進国として、ドイツ、イギリスのデータを追加するとともに、新興国としてブラジル、ロシアのデータを追加していく必要性があろう。 また、T-Climb (Top Climb) の有効性については、他の分野(コマースサイトやソーシャルサービスなど)での登録キーワードおよび商品売り上げ等について、本論文と同様の手法による分析を重ねるとともに、キーワードそのものの包括性を考慮した分析も進める必要があろう。