Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
第1008回 ドキッ!分析屋
だらけの、大ザーユー会
ブログの類似記事を表示させてみる
(LTのネタが無かったので、今日作った)
自己紹介
● 電気通信大学大学院修士一年
● 早川 敦士(@gepuro)
● 専攻:信頼性工学、品質管理
● 研究テーマ:オンライン状態監視システムを用
いた保全活動の改善
● 興味:(データ|テキスト)マイニング、マーケティン
グなど
活動
執筆に関わったり
iAnalysis合同会社で、仕事を手伝ったり、
gepulog(http://blog.gepuro.net)でブログを更新し
たり。
こんなブログです。
勉強がてら、
Flask(Pythonのマイクロフレームワーク)で作成
さくらVPS 1Gプランでサービスを動かしてる。
● きっかけは
○ ノリで独自ドメインを買った
○ wordpressのインストールでコケたので、自分で作った。
データベ...
完成品は、
似ているかもしれない記事を表示するが
→あまり似てない
何故だ?
中身は、
1. mecabで単語を切り出す
2. コサイン類似度
以上。
これだけでは、上手くいかないですね。
● 名詞も形容詞も副詞など全部使ってる。
● 辞書は追加していない
● ソースコードが書かれている記事に対して、特
殊な処理を行なっ...
実装方法
裏で、バッチを回してます。
サーバのメモリを節約するために、シェルスクリプト
を多用してます。必要な時に、必要なだけリソース
を消費する。
実装方法
結果は散々だけど、
関連記事を表示させることによって、内部リンクが
増えるので、サイトの滞在時間が伸びると嬉しい。
今後、調査したい。
● 調査に十分なアクセスがない。
コンテンツを充実させるのが先なのでは?
データだけじゃなくて、
データを分析してアレコレやるだけじゃなくて、
提供するコンテンツの量や質も大事だと気付かさ
れました。
今後も、学んだり・感じた事をブログに残していこ
う。
第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる
Upcoming SlideShare
Loading in …5
×
Upcoming SlideShare
アクションマイニングを用いた最適なアクションの導出
Next
Download to read offline and view in fullscreen.

0

Share

Download to read offline

第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

Download to read offline

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

第1008回 ドキッ!分析屋だらけの、大ザーユー会 - ブログの類似記事を表示させてみる

  1. 1. 第1008回 ドキッ!分析屋 だらけの、大ザーユー会 ブログの類似記事を表示させてみる (LTのネタが無かったので、今日作った)
  2. 2. 自己紹介 ● 電気通信大学大学院修士一年 ● 早川 敦士(@gepuro) ● 専攻:信頼性工学、品質管理 ● 研究テーマ:オンライン状態監視システムを用 いた保全活動の改善 ● 興味:(データ|テキスト)マイニング、マーケティン グなど
  3. 3. 活動 執筆に関わったり iAnalysis合同会社で、仕事を手伝ったり、 gepulog(http://blog.gepuro.net)でブログを更新し たり。
  4. 4. こんなブログです。
  5. 5. 勉強がてら、 Flask(Pythonのマイクロフレームワーク)で作成 さくらVPS 1Gプランでサービスを動かしてる。 ● きっかけは ○ ノリで独自ドメインを買った ○ wordpressのインストールでコケたので、自分で作った。 データベースは、sqlite3とmemcachedを使ってる。 レスポンスは問題ない。
  6. 6. 完成品は、
  7. 7. 似ているかもしれない記事を表示するが →あまり似てない 何故だ?
  8. 8. 中身は、 1. mecabで単語を切り出す 2. コサイン類似度 以上。 これだけでは、上手くいかないですね。 ● 名詞も形容詞も副詞など全部使ってる。 ● 辞書は追加していない ● ソースコードが書かれている記事に対して、特 殊な処理を行なってない。 ● タグを利用していない。 ● コサイン類似度以外は試していない
  9. 9. 実装方法 裏で、バッチを回してます。 サーバのメモリを節約するために、シェルスクリプト を多用してます。必要な時に、必要なだけリソース を消費する。
  10. 10. 実装方法
  11. 11. 結果は散々だけど、 関連記事を表示させることによって、内部リンクが 増えるので、サイトの滞在時間が伸びると嬉しい。 今後、調査したい。 ● 調査に十分なアクセスがない。 コンテンツを充実させるのが先なのでは?
  12. 12. データだけじゃなくて、 データを分析してアレコレやるだけじゃなくて、 提供するコンテンツの量や質も大事だと気付かさ れました。 今後も、学んだり・感じた事をブログに残していこ う。

Views

Total views

1,878

On Slideshare

0

From embeds

0

Number of embeds

723

Actions

Downloads

2

Shares

0

Comments

0

Likes

0

×