Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20180620 pgx user_group#8

151 views

Published on

Cytoscape で Oracle PGX のデータの可視化

Published in: Technology
  • Login to see the comments

  • Be the first to like this

20180620 pgx user_group#8

  1. 1. Cytoscape で可視化 統計数理研究所 武井 美緒 1
  2. 2. Cytoscape plugin を利用した可視化 • Cytoscape は Open source のグラフ可視化ツール • Cytoscape plugin を利用すると、こんなことができる • PGX がサポートしているグラフ形式のファイルフォーマットの データを読み込んで DB に格納(Oracle Flat File format (.ope, .opv)) • 格納したデータをPGQL可視化 • 各種関数の実行 2
  3. 3. 今回試した環境 • Oracle Database 18c (18.1) • Oracle Spatial and Graph option • PGX 2.5.1 (Oracle DB付属のもの、OTNのPGXではだめ) • patch 27639357 • Cytoscape v3.6.1 (Cytoscape v3.2.1 or above なら動くらしい未検証) • Oracle Spatial and Graph property graph support for Cytoscape for 18.1 • JDK8 3
  4. 4. セットアップ方法(ざっくり) JDKは入れておく 1. Oracle DB インストール(PDB作成(CDBでもきっと大丈夫)) 1. max_string_sizeをEXTENDEDに変更 2. patch 27639357 当てる 2. PDB上にユーザー作成(今回はoracle) 3. Cytoscape インストール 4. Cytoscape plugin 入れてセットアップ ( 以下ブログ参考 https://blogs.oracle.com/oraclespatial/powerful-and-effective-graph-visualization-with- cytoscape-and-oracles-property-graph-database-2) 4
  5. 5. Cytoscape の起動 • PGXをサーバー・モードで起動後、 Cytoscape を起動 (PGX サーバー・モードの起動の仕方は以下参考 https://github.com/oracle4engineer/graph- analytics/wiki/%E3%82%B5%E3%83%BC%E3%83%90%E3%83%BC%E3%83%BB%E3%83%A2%E3%83%BC%E3 %83%89%E3%81%A7%E8%B5%B7%E5%8B%95%E3%81%99%E3%82%8B) 5
  6. 6. PGX グラフデータのインポート 6 インポートすると設定したユーザーに 以下テーブルが作成される ノードのデータ:<Graph name>VT$ エッジのデータ:<Graph name>GE$
  7. 7. PGX グラフデータの可視化 7
  8. 8. 可視化しているデータ 8 • 統計の論文誌に掲載されている1981-2016までの 論文のアブストラクトの文字データ • 事前に上記の論文を20個のトピック (クラスタ)に分ける分析を実施 rank word rank word 1proposed 16sufficient 2approach 17property 3selection 18approaches 4variable 19central 5dimensional 20subspace 6high 21simulation 7dimension 22properties 8article 23dimensionality 9propose 24feature 10screening 25important 11penalized 26inverse 12reduction 27sliced 13penalty 28oracle 14predictors 29directions 15existing 30independence トピック#9の出現確率が高い単語TOP30 このトピックが何を表しているか 知りたいが、 出現確率の高い単語を並べただけ だと解釈が大変
  9. 9. 可視化しているデータ 9 Paper A The smoothly clipped absolute deviation … ANNALS OF STATISTICS bigram smoothly clipped clipped absolute absolute deviation ⋮ • 各トピックの論文のアブストラクトのデータを bigram で取得して、PMIを計算した結果を グラフ化 • PMI • 2つの単語が一緒に起こりやすいかどうかの指標 • 大きい程一緒に起こりやすい 解釈しやすくなら ないかなあ
  10. 10. ノードの表示名の変更 10
  11. 11. エッジの太さの変更 11
  12. 12. In degree の高いノードの抽出とハイライト 12
  13. 13. まとめ • Cytoscape plugin を利用すると • Oracle Flat File フォーマットのファイルを読み込んで可視化 • GUI で次数等の計算ができる • グラフ分析の結果をすぐに視覚的に確認できる • DB にテーブルとして永続的にデータを保持できるので きっと便利 13
  14. 14. おまけ • DBに想定してないタイミングでVT$、GE$テーブルが 作成されるので、以下パッケージを利用してたまに消す • EXECUTE OPG_APIS.DROP_PG(‘<Graph name>'); 14

×