Neo4jは、グラフ理論をデータベースエンジンの設計思想として採用しているDBMS (Data Base Management System)です。特にNeo4jが、他のグラフデータベースに比べ、一目をおいていることは、データ処理にCypherというSQLライクなクエリ言語が使えるということです。Cypherは、関係型データベースでさえ苦手とするとても複雑なジョインが絡む処理や、そもそもSQLではアルゴリズムの限界があるデータ処理にも対応できます。
NTTコミュニケーションズは、Hadoopを利用してマーケッティング向けログ解析システムを開発しました。本解析システムはアクセスログ、クエリログ、クリックログ、CGMデータを解析して特定の商品・サービスに対するインターネットユーザの興味やフィードバックを抽出でき、(1)評判分析、(2)関連語分析、(3)ユーザ興味推定、の3種の解析を行うことができます。本発表では、上記ログ解析システムの機能の他に、Map処理の強化によるシャッフルサイズの削減方法、我々のHadoopクラスタの特徴についても紹介します。
NTT communication developed the Hadoop-based log analysis system for the marketing purpose. This system extract the interest or feedbacks of the specific goods/products, by analyzing the access logs, query logs, click logs and CGM data. The three types of the analysis are supported: 1) reputation analysis, 2) related-word analysis 3) user interest estimation. This session also describes how to reduce the shuffle size, and the specifications of our Hadoop clusters.