第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

1,434 views

Published on

  • Be the first to comment

  • Be the first to like this

第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

  1. 1. 第1008回 ドキッ!分析屋 だらけの、大ザーユー会 ブログの類似記事を表示させてみる (LTのネタが無かったので、今日作った)
  2. 2. 自己紹介 ● 電気通信大学大学院修士一年 ● 早川 敦士(@gepuro) ● 専攻:信頼性工学、品質管理 ● 研究テーマ:オンライン状態監視システムを用 いた保全活動の改善 ● 興味:(データ|テキスト)マイニング、マーケティン グなど
  3. 3. 活動 執筆に関わったり iAnalysis合同会社で、仕事を手伝ったり、 gepulog(http://blog.gepuro.net)でブログを更新し たり。
  4. 4. こんなブログです。
  5. 5. 勉強がてら、 Flask(Pythonのマイクロフレームワーク)で作成 さくらVPS 1Gプランでサービスを動かしてる。 ● きっかけは ○ ノリで独自ドメインを買った ○ wordpressのインストールでコケたので、自分で作った。 データベースは、sqlite3とmemcachedを使ってる。 レスポンスは問題ない。
  6. 6. 完成品は、
  7. 7. 似ているかもしれない記事を表示するが →あまり似てない 何故だ?
  8. 8. 中身は、 1. mecabで単語を切り出す 2. コサイン類似度 以上。 これだけでは、上手くいかないですね。 ● 名詞も形容詞も副詞など全部使ってる。 ● 辞書は追加していない ● ソースコードが書かれている記事に対して、特 殊な処理を行なってない。 ● タグを利用していない。 ● コサイン類似度以外は試していない
  9. 9. 実装方法 裏で、バッチを回してます。 サーバのメモリを節約するために、シェルスクリプト を多用してます。必要な時に、必要なだけリソース を消費する。
  10. 10. 実装方法
  11. 11. 結果は散々だけど、 関連記事を表示させることによって、内部リンクが 増えるので、サイトの滞在時間が伸びると嬉しい。 今後、調査したい。 ● 調査に十分なアクセスがない。 コンテンツを充実させるのが先なのでは?
  12. 12. データだけじゃなくて、 データを分析してアレコレやるだけじゃなくて、 提供するコンテンツの量や質も大事だと気付かさ れました。 今後も、学んだり・感じた事をブログに残していこ う。

×