Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

PGXでつぶやきの類似度によるグラフを生成してみた

532 views

Published on

Oracleのグラフ分析製品であるPGXを使って、Twitterアカウントの類似度のグラフ分析を試してみました。

Published in: Data & Analytics
  • Be the first to comment

PGXでつぶやきの類似度によるグラフを生成してみた

  1. 1. PGXでつぶやきの類似度による グラフを作成してみた。 オーイシ
  2. 2. データについて • Twitterに”#nowplaying”ハッシュタグをつけてつぶやかれ たツイート(2015-04 ~ 2016-05)からアーティスト名を抽 出。 • あるアーティストについて一度でもつぶやいたアカウント (829アカウント)を抜き出し類似度をベクトル空間モデル で算出。 • つぶやきの類似度からアカウントをクラスタリングする。
  3. 3. データのインポート、フィルタ、JSON変換など • Cytoscape.js AND PGXで検索すると↓このエントリが 見つかると思います。 • https://gist.github.com/dogrunjp/4c5781c551a260154 5829b6b0d1e8b02
  4. 4. 可視化 • タブ区切りデータをPGXにインポート。速い! • とりあえず類似度に閾値を設定し、グラフを出力してみ ました。
  5. 5. edge.score < 1 && > 0.7
  6. 6. edge.score < 0.7 && > 0.5
  7. 7. edge.score < 0.5 && > 0.3
  8. 8. こんな分析をしたい。 • 今回は類似度(=エッジのプロパティ)の閾値を変えた グラフを表示しただけなので、PGXのアルゴリズムを使 ったグループ抽出を行いたい。(例)wcc [弱連結成分] アルゴリズムなどがある。 • 時間軸をエッジのプロパティに反映し、時間経過による クラスタの変化を可視化したい。
  9. 9. グラフ分析、オススメします。 • コト(コンテクストを含めたモノゴトの性質)の分析がで きます。 • サイエンス以外の分野でもジャーナリズム、政府統計を使 った提案…などグラフデータ分析でアウトプットの質の向 上が期待できる分野は多いのではないでしょうか。

×