SlideShare a Scribd company logo
1 of 59
Download to read offline
トピックモデルを用いた
ブロガー・コミュニティの 収集と俯瞰
牧田健作1 鈴木浩子1 小池大地1 鄭立儀1 宇津呂武仁2 河田容英3 神門典子4

     1 筑波大学大学院 システム情報工学研究科 知能機能システム専攻
           2 筑波大学 システム情報系 知能機能工学域
                    3 (株)ナビックス
                  4 国立情報学研究所




                                            1
目次

 • 背景
 • 概要
     – コミュニティの自動生成
        • にほんブログ村におけるカテゴリーとの比較
        • にほんブログ村におけるカテゴリーへのブロガーの所属との
       比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較
     – コミュニティ拡張性能の評価
 • 手法
 • まとめ・今後の課題
                                    2
目次

 • 背景
 • 概要
     – コミュニティの自動生成
        • にほんブログ村におけるカテゴリーとの比較
        • にほんブログ村におけるカテゴリーへのブロガーの所属との
       比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較
     – コミュニティ拡張性能の評価
 • 手法
 • まとめ・今後の課題
                                    3
本研究の位置づけ




        一般のWebページ




Web空間
        「個人」の意見が書かれているWeb上のメディア
                          が対象 4
本研究の位置づけ
 「個人」の意見が書かれているWeb上のメディアの代表例
        ■マイクロブログ
        ・短文
        ・フォロー・フォロワー関係によってユーザーどうしがリンクしている.



         ■SNS
         ・ユーザーは,知り合いどうしの
          閉じたコミュニティを作っていることが多い
         ・コミュニティに合わせた内容のコンテンツを投稿



         ■ブログ
         ・(比較的)長文
         ・ユーザー間の明確なつながりは無い
         ・不特定多数の読者に読まれることを前提としたコンテンツ

                                        5
関連研究
 Webコミュニティ抽出の研究
 fans          • Webページ間のリンク構造を利用
       centers   した研究が多数行われている。
                        – Hitsアルゴリズム[Kleinberg99]の考
                          え方に基づくもの
                          • 2部グラフによるコミュニティの構築
                            [Kumarら 99][村田01]
                          • コミュニティ間の関係性を考慮したコミュ
                            ニティ構築[豊田01]
                        – 特にブログに着目したもの
                          • ブログのリンクやトラックバックをエッジ
                            としてクラスタリングを行なっているもの[
                            谷口04][内田06])
 2部グラフの構築によるWebコミュニティ
 ([Kumarら 99][村田01])

                                                  6
本研究の位置づけ

 • 本研究ではリンク構造を使わず,ブログ記事内容を
   解析することでのコミュニティ生成を行う

 プログラミングのTipsを   政治の動向を
                 分析しているブロガー      音楽のレビューを
 書いているブロガー                       書いているブロガー




 プログラミング関係の      政治関係の        音楽関係の          7
 話題のコミュニティ       話題のコミュニティ    話題のコミュニティ
にほんブログ村 : 代表的なブロガー・コミュニティ




          ・・・   ・・・   ・・・




                       ・・・   ・・・   ・・・

                                         8
にほんブログ村 : 代表的なブロガー・コミュニティ
にほんブログ村 : 代表的なブロガー・コミュニティ


          登録ブロガー数:約68万人
           カテゴリー数:121個

           これらを「手動」で構成


              ・・・ ・・・ ・・・
   •所属ブロガー数:約68万人→ブロガーが自分でサービスに登録
   •ブロガーのカテゴリーは「にほんブログ村」の運営が決める




     ブロガー数・カテゴリー数ともに,
               ・・・ ・・・ ・・・
         拡張性が乏しい
                                    9
本研究の目的




     拡張性の高い
  ブロガー・コミュニティの生成


                   10
目次

 • 背景
 • 概要
     – コミュニティの自動生成
        • にほんブログ村におけるカテゴリーとの比較
        • にほんブログ村におけるカテゴリーへのブロガーの所属との
       比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較
     – コミュニティ拡張性能の評価
 • 手法
 • まとめ・今後の課題
                                    11
システム全体の概要 ①トピックモデルを用いて,「にほんブログ村」
           に属するブロガーから種コミュニティを生成
 ブロガー空間
                                  ・・・

          ・・・


                                        種コミュニティ

②新たに収集したブロガーを,トピックモデルからの推論によって
ブロガー・コミュニティに追加し,コミュニティを拡張
                            ・・・




    ・・・




                                           12
                                   拡張後のコミュニティ
提案手法と「にほんブログ村」の比較


  カテゴリー    • にほんブログ村におけるブロガー・コミュニ
             ティの構成要素は以下の3点
            – カテゴリー
            – ブロガー
            – カテゴリーへのブロガーの所属
           • 以上の3点における,にほんブログ村との
             比較評価も合わせて行う




    ブロガー
                                    13
目次

 • 背景
 • 概要
     – コミュニティの自動生成
        • にほんブログ村におけるカテゴリーとの比較
        • にほんブログ村におけるカテゴリーへのブロガーの所属との
       比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較
     – コミュニティ拡張性能の評価
 • 手法
 • まとめ・今後の課題                        14
種コミュニティを生成




             15
①トピックモデルを用いて,「にほんブログ村」
     に属するブロガーから種コミュニティを生成

ブロガー空間                               IT
                                 (種コミュニティ)

                           ・・・
                                              メディア・娯楽
     ・・・                    仕事論・人生論          (種コミュニティ)
             勉強・スキルアップ      (種コミュニティ
   199ブロガー
              (種コミュニティ)
              2ブロガー              種コミュニティ
                      技術士試験の対
                      策を書いている
                      ブロガー


                                                   16
にほんブログ村からブロガーを収集

        中の,以下の4カテゴリからブロガーを収集

   企業    ベンチャー   経営       経済




                  ブロガー数:199

                               17
ブロガー・コミュニティを自動生成
       にほんブログ村に属するブロガー集合




                合計ブロガー数 199
                              18
トピックモデルによって
ブロガー集合からコミュニティを生成!




                     19
東日本大震災
政治
                    レストラン・グルメ



経済   国際・外交




             保険・収入・家計
                                 起業支援



               IT                   20
                                親子・家族
東日本大震災
政治
                    レストラン・グルメ



経済   国際・外交

 ブロガー・コミュニティを生成!
    コミュニティ数:36

             保険・収入・家計
                                 起業支援



               IT                   21
                                親子・家族
ブロガー・コミュニティの生成

  トピックz1           トピックz2           トピックz3            トピックz4          トピックz5


     ・・・              ・・・              ・・・                ・・・            ・・・
     ・・・・・・           ・・・・・・           ・・・・・・             ・・・・・・         ・・・・・・
        ・・・・・・           ・・・・・・           ・・・・・・             ・・・・・・         ・・・・・・
   ・・・              ・・・              ・・・                ・・・            ・・・
   ・・・・・・ ・・・       ・・・・・・ ・・・       ・・・・・・ ・・・         ・・・・・・ ・・・     ・・・・・・ ・・・
      ・・・              ・・・              ・・・                ・・・            ・・・




                                                   ブロガーの記事が5記事以上
                                                   あるトピックにブロガーを割り当てる。

                   ・・・
                    ・・・     ・・・
                             ・・・    ・・・
                                     ・・・     ・・・
                                              ・・・    ・・・
                                                      ・・・     ・・・
                                                               ・・・
                     ・・・
                   ・・・        ・・・
                            ・・・       ・・・
                                    ・・・        ・・・
                                             ・・・       ・・・
                                                     ・・・        ・・・
                                                              ・・・
                    ・・・
                     ・・・     ・・・
                              ・・・    ・・・
                                      ・・・     ・・・
                                               ・・・    ・・・
                                                       ・・・     ・・・
                                                                ・・・


                 ブロガーのブログ記事集合
                                                                                     22
10ブロガー      7ブロガー        5ブロガー      11ブロガー      8ブロガー        8ブロガー

   政治        東日本大震災        経済       レストラン・グルメ    国際・外交        企業運営


   12ブロガー      20ブロガー       3ブロガー       2ブロガー      5ブロガー        7ブロガー

保険・収入・家計    人生論・ライフハック   メディア・娯楽     起業支援        親子・家族         IT



   1ブロガー      10ブロガー       6ブロガー       7ブロガー       4ブロガー        8ブロガー

  接客業        法律・制度       時事・社会問題     スポーツ        社会学・思想      建築・住宅


   5ブロガー      9ブロガー        5ブロガー       9ブロガー       2ブロガー        1ブロガー

  就職・転職      株式市場         ネット通販        工業       勉強・スキルアップ    電気・通信


   7ブロガー      15ブロガー       7ブロガー       3ブロガー       10ブロガー       4ブロガー

企業家向けの勉強会      農業          貿易        インテリア      仕事論・人生論        出版


   3ブロガー       2ブロガー
                                コミュニティに所属
                            3ブロガー       3ブロガー      4ブロガー        1ブロガー

  経営戦略         財政        セミナー・勉強会   融資・金融・経営     物流業界       ボディジュエリー

                                したブロガー数 :199                        23
目次

 • 背景
 • 概要
     – コミュニティの自動生成
        • にほんブログ村におけるカテゴリーとの比較
        • にほんブログ村におけるカテゴリーへのブロガーの所属との
       比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較
     – コミュニティ拡張性能の評価
 • 手法
 • まとめ・今後の課題
                                    24
生成されたトピックと「にほんブログ村」のカテゴリの比較


 • 生成されたコミュニティとカテゴリーとの比較

           にほんブログ村に同一内容の
  全トピック数   カテゴリが存在したトピック   割合
  36       36              100.0%

   – 36コミュニティに相当する「にほんブログ村」のカテ
     ゴリーが全て存在した
   – 提案手法においては,にほんブログ村のカテゴリ
     ーに不足が無いことがわかった
                                    25
目次

 • 背景
 • 概要
     – コミュニティの自動生成
      • にほんブログ村におけるカテゴリーとの比較
      • にほんブログ村におけるカテゴリーへのブロガーの所属との比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較

 • 手法
 • まとめ・今後の課題
                                    26
提案手法と「にほんブログ村」の比較
 • コミュニティとブロガーの対応比較
          カテゴリー   カテゴリー      カテゴリー   カテゴリー




ブロガーが所属し
ていたカテゴリーの
     再現率
 15.2%(16/105)

199ブロガーのうち,50ブロ
     ガーを評価




 にほんブログ村のブロガー              にほんブログ村における
                                             27
                          カテゴリーとブロガーの関係
提案手法と「にほんブログ村」の比較
 • コミュニティとブロガーの対応比較
          カテゴリー   カテゴリー      カテゴリー   カテゴリー




 新しく生成されたコ
ミュニティのうち,ブロ
ガーが新しく所属した
 カテゴリーの割合
  60.1%(40/66)

199ブロガーのうち,50ブロ
     ガーを評価




 にほんブログ村のブロガー              にほんブログ村における
                                             28
                          カテゴリーとブロガーの関係
提案手法と「にほんブログ村」の比較
 • コミュニティとブロガーの対応比較
           カテゴリー    カテゴリー      カテゴリー   カテゴリー




 新しく生成されたコ
ミュニティのうち,ブロ
ガーが新しく所属した
 カテゴリーの割合
  60.1%(40/66)
199ブロガーのうち,50ブロガー
       を評価




   にほんブログ村におけるコミュニティとブロガーの関係と
 提案手法におけるコミュニティとブロガーの関係の差異が大きい
 にほんブログ村のブロガー                にほんブログ村における
                                               29
                            カテゴリーとブロガーの関係
目次

 • 背景
 • 概要
     – コミュニティの自動生成
        • にほんブログ村におけるカテゴリーとの比較
        • にほんブログ村におけるカテゴリーへのブロガーの所属との
       比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較
     – コミュニティ拡張性能の評価
 • 手法
 • まとめ・今後の課題                        30
コミュニティを拡張




            31
IT
                                           (種コミュニティ)
ブロガー空間
                                     ・・・
                   勉強・スキルアップ                            メディア・娯楽
         ・・・        (種コミュニティ)
                                      仕事論・人生論          (種コミュニティ)
                   2ブロガー              (種コミュニティ
         199ブロガー

                                技術士試験の
                                             種コミュニティ
                                対策を書いてい
                                るブロガー




                                                             32
全36コミュニ               IT
                     ティ                (種コミュニティ)
ブロガー空間
                                 ・・・
               勉強・スキルアップ
                                                    メディア・娯楽
                (種コミュニティ)
                                  仕事論・人生論          (種コミュニティ)
         ・・・    2ブロガー
                                  (種コミュニティ



                            技術士試験の
                                         種コミュニティ
                            対策を書いてい
                            るブロガー




                                      勉強・スキルアップ
                      技術士試験の           (種コミュニティ)
                      対策を書いて           2ブロガー
                      いるブロガー
                                                         33
ブロガー空間


         ・・・


               ②新たに収集したブロガーを,トピックモ
               デルからの推論によってブロガー・コミュ
               ニティに追加し,コミュニティを拡張
    公務員試験の経
    済学対策を専門
    に教えているブ
    ロガー.


                               勉強・スキルアップ
                      技術士試験     (種コミュニティ)
                      の対策を書     2ブロガー
                      いているブロ
                      ガー                    34
ブロガー空間


         ・・・


               ②新たに収集したブロガーを,トピックモ
               デルからの推論によってブロガー・コミュ
    アクチュアリー    ニティに追加し,コミュニティを拡張
    試験の数学の
    問題の解説を
    しているブロ
    ガー

                                   勉強・スキルアップ
                          技術士試験     (種コミュニティ)
                公務員試験の経   の対策を書     2ブロガー
                済学対策を専門   いているブロ
                に教えているブ   ガー                    35
                ロガー.
ブロガー空間


         ・・・


                   ②新たに収集したブロガーを,トピックモ
                   デルからの推論によってブロガー・コミュ
                   ニティに追加し,コミュニティを拡張
     大学院で経済
     の勉強をして
     いるブロガー.


                                       勉強・スキルアップ
         アクチュアリー                        (種コミュニティ)
                              技術士試験
         試験の数学の     公務員試験の経
         問題の解説を
                              の対策を書     2ブロガー
                    済学対策を専門   いているブロ
         しているブロ     に教えているブ   ガー                    36
         ガー         ロガー.
ブロガー空間


               ・・・

                         ②新たに収集したブロガーを,トピックモ
                         デルからの推論によってブロガー・コミュ
                         ニティに追加し,コミュニティを拡張
                                    ・・・        IT
                                          (拡張後コミュニティ)
勉強・スキルアップ                                                 メディア・娯楽
 (拡張後コミュニティ)
                                                        (拡張後コミュニティ)
 82ブロガー
                                                          仕事論・人生論
                                                        (拡張後コミュニティ)


                                          勉強・スキルアップ
               アクチュアリー              技術士試験  (種コミュニティ)
 大学院で経済        試験の数学の     公務員試験の経   の対策を書   2ブロガー
 の勉強をして        問題の解説を     済学対策を専門   いているブロ
 いるブロガー.       しているブロ     に教えているブ
               ガー         ロガー.
                                    ガー    拡張後のコミュニティ
                                                  37
目次

 • 背景
 • 概要
     – コミュニティの自動生成
        • にほんブログ村におけるカテゴリーとの比較
        • にほんブログ村におけるカテゴリーへのブロガーの所属との
       比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較
     – コミュニティ拡張性能の評価
 • 手法
 • まとめ・今後の課題
                                    38
10ブロガー      7ブロガー        5ブロガー      11ブロガー      8ブロガー        8ブロガー

   政治        東日本大震災        経済       レストラン・グルメ    国際・外交        企業運営


   12ブロガー      20ブロガー       3ブロガー       2ブロガー      5ブロガー        7ブロガー

保険・収入・家計    人生論・ライフハック   メディア・娯楽     起業支援        親子・家族         IT



   1ブロガー      10ブロガー       6ブロガー       7ブロガー       4ブロガー        8ブロガー

  接客業
            ブロガー・コミュニティを拡張
             法律・制度       時事・社会問題     スポーツ        社会学・思想      建築・住宅


   5ブロガー      9ブロガー        5ブロガー       9ブロガー       2ブロガー        1ブロガー

  就職・転職      株式市場         ネット通販        工業       勉強・スキルアップ    電気・通信


   7ブロガー      15ブロガー       7ブロガー       3ブロガー       10ブロガー       4ブロガー

企業家向けの勉強会      農業          貿易        インテリア      仕事論・人生論        出版

                                コミュニティに所属した
                                        3ブロガー
                                  ブロガー数 :199
   3ブロガー       2ブロガー        3ブロガー                  4ブロガー        1ブロガー

  経営戦略         財政        セミナー・勉強会   融資・金融・経営     物流業界       ボディジュエリー

                                                                    39
336ブロガー      219ブロガー      137ブロガー      221ブロガー      272ブロガー       22ブロガー

   政治         東日本大震災        経済         レストラン・グルメ     国際・外交         企業運営


   90ブロガー       238ブロガー      320ブロガー       19ブロガー      126ブロガー       636ブロガー

保険・収入・家計     人生論・ライフハック   メディア・娯楽       起業支援         親子・家族          IT



   5ブロガー       211ブロガー      186ブロガー       181ブロガー      134ブロガー       128ブロガー

  接客業         法律・制度       時事・社会問題       スポーツ         社会学・思想       建築・住宅


   113ブロガー     102ブロガー      90ブロガー        85ブロガー       84ブロガー        81ブロガー

  就職・転職       株式市場         ネット通販          工業        勉強・スキルアップ     電気・通信


   80ブロガー      70ブロガー       70ブロガー        51ブロガー       44ブロガー        41ブロガー

企業家向けの勉強会       農業          貿易          インテリア       仕事論・人生論         出版


   30ブロガー       28ブロガー     コミュニティに所属した
                             26ブロガー        22ブロガー      11ブロガー        15ブロガー

  経営戦略          財政
                          ブロガー数 :3,548(約18倍)40
                          セミナー・勉強会     融資・金融・経営      物流業界        ボディジュエリー
目次

 • 背景
 • 概要
     – コミュニティの自動生成
        • にほんブログ村におけるカテゴリーとの比較
        • にほんブログ村におけるカテゴリーへのブロガーの所属との
       比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較
     – コミュニティ拡張性能の評価
 • 手法
 • まとめ・今後の課題
                                    41
ブロガーの拡張性能の評価
• ブロガーが正しくコミュニティに属しているかどうかを評価。
• 全コミュニティについて,システムが割り当てたブロガーの,
  人手で割り当てた正解ブロガーに対する再現率・適合率を算
  出。




                               4
                          再現率 :  0.57
                               7
                               4
                          適合率 :  0.8
                               5

システムによるブロガーの   人手によるブロガーの
コミュニティへの割り当て   コミュニティへの割り当て         42
評価結果
 • 評価対象ブロガー
  – 「政治」「東日本大震災」「親子・家族」「経済」「保険・収入
    ・家計」「企業運営」「起業支援」の7トピックのtwordsから
    選定した語をクエリとして,検索APIで検索したブロガー
  – 各ブロガーのコミュニティへ属する強さを考慮して,100ブ
    ロガーを選定

   適合率(%)             再現率(%)             F値(%)
   88.7 ( 55 / 62 )   64.7 ( 55 / 85 )   74.8



                                                 43
目次

 • 背景
 • 概要
     – コミュニティの自動生成
        • にほんブログ村におけるカテゴリーとの比較
        • にほんブログ村におけるカテゴリーへのブロガーの所属との
       比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較
     – コミュニティ拡張性能の評価
 • 手法
 • まとめ・今後の課題                        44
①トピックモデルを用いて,「にほんブログ村」
   に属するブロガーから種コミュニティを生成

ブロガー空間              全36コミュニティ             IT
                                      (種コミュニティ)

                                ・・・
                                                   メディア・娯楽
         ・・・                     仕事論・人生論          (種コミュニティ)
                                 (種コミュニティ
    199ブロガー    勉強・スキルアップ
                (種コミュニティ)
                2ブロガー             種コミュニティ
                        技術士試験の対策
                        を書いているブロ
                        ガー



                                                         45
トピックのまとまりを作る手法
    ――LDA(潜在的ディリクレ配分法)[Blei 03]

   ・単語は独立に出現しているのではなく、
   潜在的なトピックを持ち、同じトピックを持つ
   単語は同じ文書に出現しやすい

 トピック : zn
 トピック数 :K
 文書    :d
 語     :w

 ー 入力 : トピック数Kと、文書dの集合

 ー 推定 : トピックznにおける語wの分布
                  ⇒ p( 語w ¦トピックzn )

         文書dにおけるトピックznの分布
                  ⇒ p(トピックzn ¦文書 d) 46
                                  46
トピックznは,
語wの確率分布によって特徴付けられる

 トピックz1               トピックz2                   トピックz3        トピックz4                トピックz5

語 p( 語¦ トピック )        語   p( 語 ¦ トピック )    語 p( 語 ¦ トピック )   語 p( 語 ¦ トピック)        語 p(語 ¦ トピック)

会社 0.049229       ビジネス 0.060352            国民 0.027065       経済    0.017798        原発   0.033248
企業 0.0434         起業 0.042726              政治 0.015292       日本    0.014951        事故   0.015427
利益 0.02472        時代 0.030481              消費税 0.014382      国債    0.013184        東電   0.010059
中小企業 0.018189     成功 0.028284              民主党 0.014005      景気    0.011339        安全   0.009988
従業員 0.012322      独立 0.022903              日本 0.012435       金利    0.010205        電力   0.008878
        ・
        ・                    :                    :                 :                    :




                                 成功                          原発
                 会社                              東電
                                                                              地震
                                          起業                 国民
語w                        利益
                                                      太陽                景気
                                                                                        経済47
                                                                                          47
                 企業         社員            ビジネス                政治                             47
トピックznは,
語wの確率分布によって特徴付けられる

 トピックz1               トピックz2                   トピックz3        トピックz4                トピックz5

語 p( 語¦ トピック )        語   p( 語 ¦ トピック )    語 p( 語 ¦ トピック )   語 p( 語 ¦ トピック)        語 p(語 ¦ トピック)

会社 0.049229       ビジネス 0.060352            国民 0.027065       経済    0.017798        原発   0.033248
企業 0.0434         起業 0.042726              政治 0.015292       日本    0.014951        事故   0.015427
利益 0.02472        時代 0.030481              消費税 0.014382      国債    0.013184        東電   0.010059
中小企業 0.018189     成功 0.028284              民主党 0.014005      景気    0.011339        安全   0.009988
従業員 0.012322      独立 0.022903              日本 0.012435       金利    0.010205        電力   0.008878
        ・
        ・                    :                    :                 :                    :




                                 成功                          原発
                 会社                              東電
                                                                              地震
                                          起業                 国民
語w                        利益
                                                      太陽                景気
                                                                                        経済48
                                                                                          48
                 企業         社員            ビジネス                政治                             48
文書dは,
トピックznの確率分布によって特徴付けられる
                                           トピック   p( トピック ¦ 文書 )
                トピック p( トピック¦ 文書 )
                                           z1     0.19
                z1     0.02                                        トピック   p( トピック¦ 文書 )
                                           z2     0.10             z1      0.24
                z2     0.28
 文書d            z3     0.50
                                           z3
                                           z4
                                                  0.42
                                                  0.01
                                                                   z2      0.09
                z4     0.16                                        z3      0.12
          ・・・                              z5     0.28             z4      0.30
          ・・・
                z5     0.04
                                                                   z5      0.25           ・・・
    ・・・                                                                                   ・・・
    ・・・
                                     ・・・          ・・・
                                     ・・・          ・・・




トピックz1          トピックz2               トピックz3                トピックz4          トピックz5
                                                                                     49
                                                                                     49
文書dは,
トピックznの確率分布によって特徴付けられる
                                           トピック   p( トピック ¦ 文書 )
                トピック p( トピック¦ 文書 )
                                           z1     0.19
                z1     0.02                                        トピック   p( トピック¦ 文書 )
                                           z2     0.10             z1      0.24
                z2     0.28
 文書d            z3     0.50
                                           z3
                                           z4
                                                  0.42
                                                  0.01
                                                                   z2      0.09
                z4     0.16                                        z3      0.12
          ・・・                              z5     0.28             z4      0.30
          ・・・
                z5     0.04
                                                                   z5      0.25           ・・・
    ・・・                                                                                   ・・・
    ・・・
                                     ・・・          ・・・
                                     ・・・          ・・・




トピックz1          トピックz2               トピックz3                トピックz4          トピックz5
                                                                                     50
                                                                                     50
文書を各トピックに分類する
 トピックz1          トピックz2                トピックz3       トピックz4    トピックz5


                                       ・・・
                                       ・・・




                                  トピック p( トピック ¦ 文書 )
                                  z1         0.02
                                  z2         0.28        文書dにおけるトピックzn
                                  z3         0.50        の出現確率をP(zn | d)
                                  z4         0.16        が最大のトピックへ分類

文書d                  ・・・
                                  z5         0.04
            ・・・      ・・・
              ・・・
            ・・・       ・・・   ・・・
      ・・・     ・・・
               ・・・    ・・・   ・・・
      ・・・
               ・・・                                                     51
                                                                       51
ブロガー・コミュニティの生成

  トピックz1           トピックz2           トピックz3            トピックz4          トピックz5


     ・・・              ・・・              ・・・                ・・・            ・・・
     ・・・・・・           ・・・・・・           ・・・・・・             ・・・・・・         ・・・・・・
        ・・・・・・           ・・・・・・           ・・・・・・             ・・・・・・         ・・・・・・
   ・・・              ・・・              ・・・                ・・・            ・・・
   ・・・・・・ ・・・       ・・・・・・ ・・・       ・・・・・・ ・・・         ・・・・・・ ・・・     ・・・・・・ ・・・
      ・・・              ・・・              ・・・                ・・・            ・・・




                                                   ブロガーの記事が5記事以上
                                                   あるトピックにブロガーを割り当てる。

                   ・・・
                    ・・・     ・・・
                             ・・・    ・・・
                                     ・・・     ・・・
                                              ・・・    ・・・
                                                      ・・・     ・・・
                                                               ・・・
                     ・・・
                   ・・・        ・・・
                            ・・・       ・・・
                                    ・・・        ・・・
                                             ・・・       ・・・
                                                     ・・・        ・・・
                                                              ・・・
                    ・・・
                     ・・・     ・・・
                              ・・・    ・・・
                                      ・・・     ・・・
                                               ・・・    ・・・
                                                       ・・・     ・・・
                                                                ・・・


                 ブロガーのブログ記事集合
                                                                                     52
ブロガー空間


               ・・・

                         ②新たに収集したブロガーを,トピックモ
                         デルからの推論によってブロガー・コミュ
                         ニティに追加し,コミュニティを拡張
                           全36コミュニティ   ・・・        IT
                                             (拡張後コミュニティ)
勉強・スキルアップ                                                    メディア・娯楽
 (拡張後コミュニティ)
                                                           (拡張後コミュニティ)
 82ブロガー
                                                             仕事論・人生論
                                                           (拡張後コミュニティ)


                                             勉強・スキルアップ
               アクチュアリー                        (種コミュニティ)
                                       技術士試験
 大学院で経済        試験の数学の     公務員試験の経
               問題の解説を
                                       の対策を書   2ブロガー
 の勉強をして                   済学対策を専門      いているブロ
 いるブロガー.       しているブロ     に教えているブ
               ガー         ロガー.
                                       ガー    拡張後のコミュニティ
                                                     53
推定されたトピックモデルから
   新規文書のトピックを推論

                              新規文書d
               トピック p( トピック¦ 文書 )

 トピックモデル       z1     0.02
               z2     0.28
               z3     0.50
               z4     0.16
               z5     0.04




新規ブロガーの記事に対して,推定されているトピックに対する
出現確率P(zn¦d)が推論される。
                                    54
推定されたトピックモデルから
   新規文書のトピックを推論

                              新規文書d
               トピック p( トピック¦ 文書 )

 トピックモデル       z1     0.02
               z2     0.28
               z3     0.50
               z4     0.16
               z5     0.04




新規ブロガーの記事に対して,推定されているトピックに対する
出現確率P(zn¦d)が推論される。
                                    55
文書を各トピックに分類する
 トピックz1          トピックz2                トピックz3       トピックz4    トピックz5


                                       ・・・
                                       ・・・




                                  トピック p( トピック ¦ 文書 )
                                  z1         0.02
                                  z2         0.28        文書dにおけるトピックzn
                                  z3         0.50        の出現確率をP(zn | d)
                                                         が最大のトピックへ分類
新規文書d                             z4
                                  z5
                                             0.16
                                             0.04
                     ・・・
            ・・・      ・・・
              ・・・
            ・・・       ・・・   ・・・
      ・・・     ・・・
               ・・・    ・・・   ・・・
      ・・・
               ・・・                                                     56
                                                                       56
ブロガー・コミュニティへのブロガーの追加

  トピックz1           トピックz2             トピックz3             トピックz4             トピックz5


     ・・・              ・・・               ・・・                    ・・・              ・・・
     ・・・・・・           ・・・・・・            ・・・・・・                 ・・・・・・           ・・・・・・
        ・・・・・・           ・・・・・・            ・・・・・・                 ・・・・・・           ・・・・・・
   ・・・              ・・・               ・・・                    ・・・              ・・・
   ・・・・・・ ・・・       ・・・・・・ ・・・        ・・・・・・ ・・・             ・・・・・・ ・・・       ・・・・・・ ・・・
      ・・・              ・・・               ・・・                    ・・・              ・・・




                                                    ブロガーの記事が5記事以上
                                                    あるトピックにブロガーを割り当てる。

                   ・・・
                    ・・・       ・・・
                               ・・・      ・・・
                                         ・・・         ・・・
                                                      ・・・         ・・・
                                                                   ・・・     ・・・
                                                                            ・・・
                     ・・・
                   ・・・          ・・・
                              ・・・         ・・・
                                        ・・・            ・・・
                                                     ・・・            ・・・
                                                                  ・・・        ・・・
                                                                           ・・・
                    ・・・
                     ・・・       ・・・
                                ・・・      ・・・
                                          ・・・         ・・・
                                                       ・・・         ・・・
                                                                    ・・・     ・・・
                                                                             ・・・


                 ブロガーのブログ記事集合
                                                                                            57
目次

 • 背景
 • 概要
     – コミュニティの自動生成
        • にほんブログ村におけるカテゴリーとの比較
        • にほんブログ村におけるカテゴリーへのブロガーの所属との
       比較
     – コミュニティの拡張
      • にほんブログ村におけるブロガーとの比較
     – コミュニティ拡張性能の評価
 • 手法
 • まとめ・今後の課題                        58
まとめ・今後の課題


 • ブロガー・コミュニティの自動生成と自動拡張
   の枠組を提案
  – にほんブログ村のカテゴリーに相当するコミュニ
    ティを自動生成
  – にほんブログ村以外のブロガーを収集し,適用す
    ることで,コミュニティを自動拡張

 • 今後の課題
  – コミュニティへのラベル付けの自動化

                         59

More Related Content

Similar to 大規模ブロガー空間からブロガーを収集し、ブロガー・コミュニティを自動生成・自動拡張する

20181009 cmc osaka_vol2
20181009 cmc osaka_vol220181009 cmc osaka_vol2
20181009 cmc osaka_vol2Hideki Ojima
 
2011-06-19 saveMLAK ウィキチュートリアル
2011-06-19 saveMLAK ウィキチュートリアル2011-06-19 saveMLAK ウィキチュートリアル
2011-06-19 saveMLAK ウィキチュートリアルYuka Egusa
 
ソーシャルメディアの企業利用事例の考察・整理/CRMとの連動活用への提言
ソーシャルメディアの企業利用事例の考察・整理/CRMとの連動活用への提言ソーシャルメディアの企業利用事例の考察・整理/CRMとの連動活用への提言
ソーシャルメディアの企業利用事例の考察・整理/CRMとの連動活用への提言玉腰泰三 個人事務所
 
マキコミの技術@新潟
マキコミの技術@新潟マキコミの技術@新潟
マキコミの技術@新潟masaki ishitani
 
スライドシェア用20110407 [互換モード]途上国における自立支援と持続可能な支援について
スライドシェア用20110407 [互換モード]途上国における自立支援と持続可能な支援についてスライドシェア用20110407 [互換モード]途上国における自立支援と持続可能な支援について
スライドシェア用20110407 [互換モード]途上国における自立支援と持続可能な支援についてTakayuki Kitamura
 
Beyonds social layer(1)
Beyonds social layer(1) Beyonds social layer(1)
Beyonds social layer(1) Kohei Kumazawa
 

Similar to 大規模ブロガー空間からブロガーを収集し、ブロガー・コミュニティを自動生成・自動拡張する (7)

CommunityBootCamp
CommunityBootCampCommunityBootCamp
CommunityBootCamp
 
20181009 cmc osaka_vol2
20181009 cmc osaka_vol220181009 cmc osaka_vol2
20181009 cmc osaka_vol2
 
2011-06-19 saveMLAK ウィキチュートリアル
2011-06-19 saveMLAK ウィキチュートリアル2011-06-19 saveMLAK ウィキチュートリアル
2011-06-19 saveMLAK ウィキチュートリアル
 
ソーシャルメディアの企業利用事例の考察・整理/CRMとの連動活用への提言
ソーシャルメディアの企業利用事例の考察・整理/CRMとの連動活用への提言ソーシャルメディアの企業利用事例の考察・整理/CRMとの連動活用への提言
ソーシャルメディアの企業利用事例の考察・整理/CRMとの連動活用への提言
 
マキコミの技術@新潟
マキコミの技術@新潟マキコミの技術@新潟
マキコミの技術@新潟
 
スライドシェア用20110407 [互換モード]途上国における自立支援と持続可能な支援について
スライドシェア用20110407 [互換モード]途上国における自立支援と持続可能な支援についてスライドシェア用20110407 [互換モード]途上国における自立支援と持続可能な支援について
スライドシェア用20110407 [互換モード]途上国における自立支援と持続可能な支援について
 
Beyonds social layer(1)
Beyonds social layer(1) Beyonds social layer(1)
Beyonds social layer(1)
 

More from utsuro_lab

ご当地グルメを題材とする4択クイズの生成
ご当地グルメを題材とする4択クイズの生成ご当地グルメを題材とする4択クイズの生成
ご当地グルメを題材とする4択クイズの生成utsuro_lab
 
シナリオを情報源とする映画の要約
シナリオを情報源とする映画の要約シナリオを情報源とする映画の要約
シナリオを情報源とする映画の要約utsuro_lab
 
機械学習による球面リバーシ(オセロ)AIの開発
機械学習による球面リバーシ(オセロ)AIの開発機械学習による球面リバーシ(オセロ)AIの開発
機械学習による球面リバーシ(オセロ)AIの開発utsuro_lab
 
各プレーヤー視点での役職確定情報に基づく人狼ログ・ダイジェストの作成
各プレーヤー視点での役職確定情報に基づく人狼ログ・ダイジェストの作成各プレーヤー視点での役職確定情報に基づく人狼ログ・ダイジェストの作成
各プレーヤー視点での役職確定情報に基づく人狼ログ・ダイジェストの作成utsuro_lab
 
ウォーゲーム:StarCraftの戦略推薦
ウォーゲーム:StarCraftの戦略推薦ウォーゲーム:StarCraftの戦略推薦
ウォーゲーム:StarCraftの戦略推薦utsuro_lab
 
乳幼児の認知発達を誘発する売れ筋絵本を推薦する
乳幼児の認知発達を誘発する売れ筋絵本を推薦する乳幼児の認知発達を誘発する売れ筋絵本を推薦する
乳幼児の認知発達を誘発する売れ筋絵本を推薦するutsuro_lab
 
社会センサーとしての検索エンジンを用いて市場シェアを予測しよう
社会センサーとしての検索エンジンを用いて市場シェアを予測しよう社会センサーとしての検索エンジンを用いて市場シェアを予測しよう
社会センサーとしての検索エンジンを用いて市場シェアを予測しようutsuro_lab
 
球面リバーシ(オセロ)
球面リバーシ(オセロ)球面リバーシ(オセロ)
球面リバーシ(オセロ)utsuro_lab
 
ゲーム攻略サイトを網羅的に収集し、攻略情報を集約する
ゲーム攻略サイトを網羅的に収集し、攻略情報を集約するゲーム攻略サイトを網羅的に収集し、攻略情報を集約する
ゲーム攻略サイトを網羅的に収集し、攻略情報を集約するutsuro_lab
 
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究utsuro_lab
 
「みんなが調べた」のに「Wikipediaには書いてない」ことを集約・俯瞰する
「みんなが調べた」のに「Wikipediaには書いてない」ことを集約・俯瞰する「みんなが調べた」のに「Wikipediaには書いてない」ことを集約・俯瞰する
「みんなが調べた」のに「Wikipediaには書いてない」ことを集約・俯瞰するutsuro_lab
 
検索エンジン・エンハンスト・サジェスト・・・サジェストを補足する
検索エンジン・エンハンスト・サジェスト・・・サジェストを補足する検索エンジン・エンハンスト・サジェスト・・・サジェストを補足する
検索エンジン・エンハンスト・サジェスト・・・サジェストを補足するutsuro_lab
 
音声を検索するための索引付け方式の紹介(専門家向け)
音声を検索するための索引付け方式の紹介(専門家向け)音声を検索するための索引付け方式の紹介(専門家向け)
音声を検索するための索引付け方式の紹介(専門家向け)utsuro_lab
 
音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)utsuro_lab
 
ニュース・ツイッター間の対応を考慮したバースト・トピックの同定
ニュース・ツイッター間の対応を考慮したバースト・トピックの同定ニュース・ツイッター間の対応を考慮したバースト・トピックの同定
ニュース・ツイッター間の対応を考慮したバースト・トピックの同定utsuro_lab
 
時系列トピックのバーストを同定するシステムの紹介 (初心者向け)
時系列トピックのバーストを同定するシステムの紹介 (初心者向け)時系列トピックのバーストを同定するシステムの紹介 (初心者向け)
時系列トピックのバーストを同定するシステムの紹介 (初心者向け)utsuro_lab
 
大規模ブロガー空間において、関心事項ごとのコミュニティを発見する
大規模ブロガー空間において、関心事項ごとのコミュニティを発見する大規模ブロガー空間において、関心事項ごとのコミュニティを発見する
大規模ブロガー空間において、関心事項ごとのコミュニティを発見するutsuro_lab
 
質問・回答サイトにおけるトラブル相談事例の分析
質問・回答サイトにおけるトラブル相談事例の分析質問・回答サイトにおけるトラブル相談事例の分析
質問・回答サイトにおけるトラブル相談事例の分析utsuro_lab
 
Wikipediaの知識を総動員して、話題の分布を俯瞰する
Wikipediaの知識を総動員して、話題の分布を俯瞰するWikipediaの知識を総動員して、話題の分布を俯瞰する
Wikipediaの知識を総動員して、話題の分布を俯瞰するutsuro_lab
 
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術utsuro_lab
 

More from utsuro_lab (20)

ご当地グルメを題材とする4択クイズの生成
ご当地グルメを題材とする4択クイズの生成ご当地グルメを題材とする4択クイズの生成
ご当地グルメを題材とする4択クイズの生成
 
シナリオを情報源とする映画の要約
シナリオを情報源とする映画の要約シナリオを情報源とする映画の要約
シナリオを情報源とする映画の要約
 
機械学習による球面リバーシ(オセロ)AIの開発
機械学習による球面リバーシ(オセロ)AIの開発機械学習による球面リバーシ(オセロ)AIの開発
機械学習による球面リバーシ(オセロ)AIの開発
 
各プレーヤー視点での役職確定情報に基づく人狼ログ・ダイジェストの作成
各プレーヤー視点での役職確定情報に基づく人狼ログ・ダイジェストの作成各プレーヤー視点での役職確定情報に基づく人狼ログ・ダイジェストの作成
各プレーヤー視点での役職確定情報に基づく人狼ログ・ダイジェストの作成
 
ウォーゲーム:StarCraftの戦略推薦
ウォーゲーム:StarCraftの戦略推薦ウォーゲーム:StarCraftの戦略推薦
ウォーゲーム:StarCraftの戦略推薦
 
乳幼児の認知発達を誘発する売れ筋絵本を推薦する
乳幼児の認知発達を誘発する売れ筋絵本を推薦する乳幼児の認知発達を誘発する売れ筋絵本を推薦する
乳幼児の認知発達を誘発する売れ筋絵本を推薦する
 
社会センサーとしての検索エンジンを用いて市場シェアを予測しよう
社会センサーとしての検索エンジンを用いて市場シェアを予測しよう社会センサーとしての検索エンジンを用いて市場シェアを予測しよう
社会センサーとしての検索エンジンを用いて市場シェアを予測しよう
 
球面リバーシ(オセロ)
球面リバーシ(オセロ)球面リバーシ(オセロ)
球面リバーシ(オセロ)
 
ゲーム攻略サイトを網羅的に収集し、攻略情報を集約する
ゲーム攻略サイトを網羅的に収集し、攻略情報を集約するゲーム攻略サイトを網羅的に収集し、攻略情報を集約する
ゲーム攻略サイトを網羅的に収集し、攻略情報を集約する
 
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
ウェブ検索者の情報要求観点の集約と俯瞰に関する研究
 
「みんなが調べた」のに「Wikipediaには書いてない」ことを集約・俯瞰する
「みんなが調べた」のに「Wikipediaには書いてない」ことを集約・俯瞰する「みんなが調べた」のに「Wikipediaには書いてない」ことを集約・俯瞰する
「みんなが調べた」のに「Wikipediaには書いてない」ことを集約・俯瞰する
 
検索エンジン・エンハンスト・サジェスト・・・サジェストを補足する
検索エンジン・エンハンスト・サジェスト・・・サジェストを補足する検索エンジン・エンハンスト・サジェスト・・・サジェストを補足する
検索エンジン・エンハンスト・サジェスト・・・サジェストを補足する
 
音声を検索するための索引付け方式の紹介(専門家向け)
音声を検索するための索引付け方式の紹介(専門家向け)音声を検索するための索引付け方式の紹介(専門家向け)
音声を検索するための索引付け方式の紹介(専門家向け)
 
音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)音声を検索するための索引付け方式の紹介(初心者向け)
音声を検索するための索引付け方式の紹介(初心者向け)
 
ニュース・ツイッター間の対応を考慮したバースト・トピックの同定
ニュース・ツイッター間の対応を考慮したバースト・トピックの同定ニュース・ツイッター間の対応を考慮したバースト・トピックの同定
ニュース・ツイッター間の対応を考慮したバースト・トピックの同定
 
時系列トピックのバーストを同定するシステムの紹介 (初心者向け)
時系列トピックのバーストを同定するシステムの紹介 (初心者向け)時系列トピックのバーストを同定するシステムの紹介 (初心者向け)
時系列トピックのバーストを同定するシステムの紹介 (初心者向け)
 
大規模ブロガー空間において、関心事項ごとのコミュニティを発見する
大規模ブロガー空間において、関心事項ごとのコミュニティを発見する大規模ブロガー空間において、関心事項ごとのコミュニティを発見する
大規模ブロガー空間において、関心事項ごとのコミュニティを発見する
 
質問・回答サイトにおけるトラブル相談事例の分析
質問・回答サイトにおけるトラブル相談事例の分析質問・回答サイトにおけるトラブル相談事例の分析
質問・回答サイトにおけるトラブル相談事例の分析
 
Wikipediaの知識を総動員して、話題の分布を俯瞰する
Wikipediaの知識を総動員して、話題の分布を俯瞰するWikipediaの知識を総動員して、話題の分布を俯瞰する
Wikipediaの知識を総動員して、話題の分布を俯瞰する
 
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Recently uploaded (14)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

大規模ブロガー空間からブロガーを収集し、ブロガー・コミュニティを自動生成・自動拡張する

  • 1. トピックモデルを用いた ブロガー・コミュニティの 収集と俯瞰 牧田健作1 鈴木浩子1 小池大地1 鄭立儀1 宇津呂武仁2 河田容英3 神門典子4 1 筑波大学大学院 システム情報工学研究科 知能機能システム専攻 2 筑波大学 システム情報系 知能機能工学域 3 (株)ナビックス 4 国立情報学研究所 1
  • 2. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との 比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 – コミュニティ拡張性能の評価 • 手法 • まとめ・今後の課題 2
  • 3. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との 比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 – コミュニティ拡張性能の評価 • 手法 • まとめ・今後の課題 3
  • 4. 本研究の位置づけ 一般のWebページ Web空間 「個人」の意見が書かれているWeb上のメディア が対象 4
  • 5. 本研究の位置づけ 「個人」の意見が書かれているWeb上のメディアの代表例 ■マイクロブログ ・短文 ・フォロー・フォロワー関係によってユーザーどうしがリンクしている. ■SNS ・ユーザーは,知り合いどうしの 閉じたコミュニティを作っていることが多い ・コミュニティに合わせた内容のコンテンツを投稿 ■ブログ ・(比較的)長文 ・ユーザー間の明確なつながりは無い ・不特定多数の読者に読まれることを前提としたコンテンツ 5
  • 6. 関連研究 Webコミュニティ抽出の研究 fans • Webページ間のリンク構造を利用 centers した研究が多数行われている。 – Hitsアルゴリズム[Kleinberg99]の考 え方に基づくもの • 2部グラフによるコミュニティの構築 [Kumarら 99][村田01] • コミュニティ間の関係性を考慮したコミュ ニティ構築[豊田01] – 特にブログに着目したもの • ブログのリンクやトラックバックをエッジ としてクラスタリングを行なっているもの[ 谷口04][内田06]) 2部グラフの構築によるWebコミュニティ ([Kumarら 99][村田01]) 6
  • 7. 本研究の位置づけ • 本研究ではリンク構造を使わず,ブログ記事内容を 解析することでのコミュニティ生成を行う プログラミングのTipsを 政治の動向を 分析しているブロガー 音楽のレビューを 書いているブロガー 書いているブロガー プログラミング関係の 政治関係の 音楽関係の 7 話題のコミュニティ 話題のコミュニティ 話題のコミュニティ
  • 8. にほんブログ村 : 代表的なブロガー・コミュニティ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 8
  • 9. にほんブログ村 : 代表的なブロガー・コミュニティ にほんブログ村 : 代表的なブロガー・コミュニティ 登録ブロガー数:約68万人 カテゴリー数:121個 これらを「手動」で構成 ・・・ ・・・ ・・・ •所属ブロガー数:約68万人→ブロガーが自分でサービスに登録 •ブロガーのカテゴリーは「にほんブログ村」の運営が決める ブロガー数・カテゴリー数ともに, ・・・ ・・・ ・・・ 拡張性が乏しい 9
  • 10. 本研究の目的 拡張性の高い ブロガー・コミュニティの生成 10
  • 11. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との 比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 – コミュニティ拡張性能の評価 • 手法 • まとめ・今後の課題 11
  • 12. システム全体の概要 ①トピックモデルを用いて,「にほんブログ村」 に属するブロガーから種コミュニティを生成 ブロガー空間 ・・・ ・・・ 種コミュニティ ②新たに収集したブロガーを,トピックモデルからの推論によって ブロガー・コミュニティに追加し,コミュニティを拡張 ・・・ ・・・ 12 拡張後のコミュニティ
  • 13. 提案手法と「にほんブログ村」の比較 カテゴリー • にほんブログ村におけるブロガー・コミュニ ティの構成要素は以下の3点 – カテゴリー – ブロガー – カテゴリーへのブロガーの所属 • 以上の3点における,にほんブログ村との 比較評価も合わせて行う ブロガー 13
  • 14. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との 比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 – コミュニティ拡張性能の評価 • 手法 • まとめ・今後の課題 14
  • 16. ①トピックモデルを用いて,「にほんブログ村」 に属するブロガーから種コミュニティを生成 ブロガー空間 IT (種コミュニティ) ・・・ メディア・娯楽 ・・・ 仕事論・人生論 (種コミュニティ) 勉強・スキルアップ (種コミュニティ 199ブロガー (種コミュニティ) 2ブロガー 種コミュニティ 技術士試験の対 策を書いている ブロガー 16
  • 17. にほんブログ村からブロガーを収集 中の,以下の4カテゴリからブロガーを収集 企業 ベンチャー 経営 経済 ブロガー数:199 17
  • 18. ブロガー・コミュニティを自動生成 にほんブログ村に属するブロガー集合 合計ブロガー数 199 18
  • 20. 東日本大震災 政治 レストラン・グルメ 経済 国際・外交 保険・収入・家計 起業支援 IT 20 親子・家族
  • 21. 東日本大震災 政治 レストラン・グルメ 経済 国際・外交 ブロガー・コミュニティを生成! コミュニティ数:36 保険・収入・家計 起業支援 IT 21 親子・家族
  • 22. ブロガー・コミュニティの生成 トピックz1 トピックz2 トピックz3 トピックz4 トピックz5 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ブロガーの記事が5記事以上 あるトピックにブロガーを割り当てる。 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ブロガーのブログ記事集合 22
  • 23. 10ブロガー 7ブロガー 5ブロガー 11ブロガー 8ブロガー 8ブロガー 政治 東日本大震災 経済 レストラン・グルメ 国際・外交 企業運営 12ブロガー 20ブロガー 3ブロガー 2ブロガー 5ブロガー 7ブロガー 保険・収入・家計 人生論・ライフハック メディア・娯楽 起業支援 親子・家族 IT 1ブロガー 10ブロガー 6ブロガー 7ブロガー 4ブロガー 8ブロガー 接客業 法律・制度 時事・社会問題 スポーツ 社会学・思想 建築・住宅 5ブロガー 9ブロガー 5ブロガー 9ブロガー 2ブロガー 1ブロガー 就職・転職 株式市場 ネット通販 工業 勉強・スキルアップ 電気・通信 7ブロガー 15ブロガー 7ブロガー 3ブロガー 10ブロガー 4ブロガー 企業家向けの勉強会 農業 貿易 インテリア 仕事論・人生論 出版 3ブロガー 2ブロガー コミュニティに所属 3ブロガー 3ブロガー 4ブロガー 1ブロガー 経営戦略 財政 セミナー・勉強会 融資・金融・経営 物流業界 ボディジュエリー したブロガー数 :199 23
  • 24. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との 比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 – コミュニティ拡張性能の評価 • 手法 • まとめ・今後の課題 24
  • 25. 生成されたトピックと「にほんブログ村」のカテゴリの比較 • 生成されたコミュニティとカテゴリーとの比較 にほんブログ村に同一内容の 全トピック数 カテゴリが存在したトピック 割合 36 36 100.0% – 36コミュニティに相当する「にほんブログ村」のカテ ゴリーが全て存在した – 提案手法においては,にほんブログ村のカテゴリ ーに不足が無いことがわかった 25
  • 26. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 • 手法 • まとめ・今後の課題 26
  • 27. 提案手法と「にほんブログ村」の比較 • コミュニティとブロガーの対応比較 カテゴリー カテゴリー カテゴリー カテゴリー ブロガーが所属し ていたカテゴリーの 再現率 15.2%(16/105) 199ブロガーのうち,50ブロ ガーを評価 にほんブログ村のブロガー にほんブログ村における 27 カテゴリーとブロガーの関係
  • 28. 提案手法と「にほんブログ村」の比較 • コミュニティとブロガーの対応比較 カテゴリー カテゴリー カテゴリー カテゴリー 新しく生成されたコ ミュニティのうち,ブロ ガーが新しく所属した カテゴリーの割合 60.1%(40/66) 199ブロガーのうち,50ブロ ガーを評価 にほんブログ村のブロガー にほんブログ村における 28 カテゴリーとブロガーの関係
  • 29. 提案手法と「にほんブログ村」の比較 • コミュニティとブロガーの対応比較 カテゴリー カテゴリー カテゴリー カテゴリー 新しく生成されたコ ミュニティのうち,ブロ ガーが新しく所属した カテゴリーの割合 60.1%(40/66) 199ブロガーのうち,50ブロガー を評価 にほんブログ村におけるコミュニティとブロガーの関係と 提案手法におけるコミュニティとブロガーの関係の差異が大きい にほんブログ村のブロガー にほんブログ村における 29 カテゴリーとブロガーの関係
  • 30. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との 比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 – コミュニティ拡張性能の評価 • 手法 • まとめ・今後の課題 30
  • 32. IT (種コミュニティ) ブロガー空間 ・・・ 勉強・スキルアップ メディア・娯楽 ・・・ (種コミュニティ) 仕事論・人生論 (種コミュニティ) 2ブロガー (種コミュニティ 199ブロガー 技術士試験の 種コミュニティ 対策を書いてい るブロガー 32
  • 33. 全36コミュニ IT ティ (種コミュニティ) ブロガー空間 ・・・ 勉強・スキルアップ メディア・娯楽 (種コミュニティ) 仕事論・人生論 (種コミュニティ) ・・・ 2ブロガー (種コミュニティ 技術士試験の 種コミュニティ 対策を書いてい るブロガー 勉強・スキルアップ 技術士試験の (種コミュニティ) 対策を書いて 2ブロガー いるブロガー 33
  • 34. ブロガー空間 ・・・ ②新たに収集したブロガーを,トピックモ デルからの推論によってブロガー・コミュ ニティに追加し,コミュニティを拡張 公務員試験の経 済学対策を専門 に教えているブ ロガー. 勉強・スキルアップ 技術士試験 (種コミュニティ) の対策を書 2ブロガー いているブロ ガー 34
  • 35. ブロガー空間 ・・・ ②新たに収集したブロガーを,トピックモ デルからの推論によってブロガー・コミュ アクチュアリー ニティに追加し,コミュニティを拡張 試験の数学の 問題の解説を しているブロ ガー 勉強・スキルアップ 技術士試験 (種コミュニティ) 公務員試験の経 の対策を書 2ブロガー 済学対策を専門 いているブロ に教えているブ ガー 35 ロガー.
  • 36. ブロガー空間 ・・・ ②新たに収集したブロガーを,トピックモ デルからの推論によってブロガー・コミュ ニティに追加し,コミュニティを拡張 大学院で経済 の勉強をして いるブロガー. 勉強・スキルアップ アクチュアリー (種コミュニティ) 技術士試験 試験の数学の 公務員試験の経 問題の解説を の対策を書 2ブロガー 済学対策を専門 いているブロ しているブロ に教えているブ ガー 36 ガー ロガー.
  • 37. ブロガー空間 ・・・ ②新たに収集したブロガーを,トピックモ デルからの推論によってブロガー・コミュ ニティに追加し,コミュニティを拡張 ・・・ IT (拡張後コミュニティ) 勉強・スキルアップ メディア・娯楽 (拡張後コミュニティ) (拡張後コミュニティ) 82ブロガー 仕事論・人生論 (拡張後コミュニティ) 勉強・スキルアップ アクチュアリー 技術士試験 (種コミュニティ) 大学院で経済 試験の数学の 公務員試験の経 の対策を書 2ブロガー の勉強をして 問題の解説を 済学対策を専門 いているブロ いるブロガー. しているブロ に教えているブ ガー ロガー. ガー 拡張後のコミュニティ 37
  • 38. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との 比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 – コミュニティ拡張性能の評価 • 手法 • まとめ・今後の課題 38
  • 39. 10ブロガー 7ブロガー 5ブロガー 11ブロガー 8ブロガー 8ブロガー 政治 東日本大震災 経済 レストラン・グルメ 国際・外交 企業運営 12ブロガー 20ブロガー 3ブロガー 2ブロガー 5ブロガー 7ブロガー 保険・収入・家計 人生論・ライフハック メディア・娯楽 起業支援 親子・家族 IT 1ブロガー 10ブロガー 6ブロガー 7ブロガー 4ブロガー 8ブロガー 接客業 ブロガー・コミュニティを拡張 法律・制度 時事・社会問題 スポーツ 社会学・思想 建築・住宅 5ブロガー 9ブロガー 5ブロガー 9ブロガー 2ブロガー 1ブロガー 就職・転職 株式市場 ネット通販 工業 勉強・スキルアップ 電気・通信 7ブロガー 15ブロガー 7ブロガー 3ブロガー 10ブロガー 4ブロガー 企業家向けの勉強会 農業 貿易 インテリア 仕事論・人生論 出版 コミュニティに所属した 3ブロガー ブロガー数 :199 3ブロガー 2ブロガー 3ブロガー 4ブロガー 1ブロガー 経営戦略 財政 セミナー・勉強会 融資・金融・経営 物流業界 ボディジュエリー 39
  • 40. 336ブロガー 219ブロガー 137ブロガー 221ブロガー 272ブロガー 22ブロガー 政治 東日本大震災 経済 レストラン・グルメ 国際・外交 企業運営 90ブロガー 238ブロガー 320ブロガー 19ブロガー 126ブロガー 636ブロガー 保険・収入・家計 人生論・ライフハック メディア・娯楽 起業支援 親子・家族 IT 5ブロガー 211ブロガー 186ブロガー 181ブロガー 134ブロガー 128ブロガー 接客業 法律・制度 時事・社会問題 スポーツ 社会学・思想 建築・住宅 113ブロガー 102ブロガー 90ブロガー 85ブロガー 84ブロガー 81ブロガー 就職・転職 株式市場 ネット通販 工業 勉強・スキルアップ 電気・通信 80ブロガー 70ブロガー 70ブロガー 51ブロガー 44ブロガー 41ブロガー 企業家向けの勉強会 農業 貿易 インテリア 仕事論・人生論 出版 30ブロガー 28ブロガー コミュニティに所属した 26ブロガー 22ブロガー 11ブロガー 15ブロガー 経営戦略 財政 ブロガー数 :3,548(約18倍)40 セミナー・勉強会 融資・金融・経営 物流業界 ボディジュエリー
  • 41. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との 比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 – コミュニティ拡張性能の評価 • 手法 • まとめ・今後の課題 41
  • 42. ブロガーの拡張性能の評価 • ブロガーが正しくコミュニティに属しているかどうかを評価。 • 全コミュニティについて,システムが割り当てたブロガーの, 人手で割り当てた正解ブロガーに対する再現率・適合率を算 出。 4 再現率 :  0.57 7 4 適合率 :  0.8 5 システムによるブロガーの 人手によるブロガーの コミュニティへの割り当て コミュニティへの割り当て 42
  • 43. 評価結果 • 評価対象ブロガー – 「政治」「東日本大震災」「親子・家族」「経済」「保険・収入 ・家計」「企業運営」「起業支援」の7トピックのtwordsから 選定した語をクエリとして,検索APIで検索したブロガー – 各ブロガーのコミュニティへ属する強さを考慮して,100ブ ロガーを選定 適合率(%) 再現率(%) F値(%) 88.7 ( 55 / 62 ) 64.7 ( 55 / 85 ) 74.8 43
  • 44. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との 比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 – コミュニティ拡張性能の評価 • 手法 • まとめ・今後の課題 44
  • 45. ①トピックモデルを用いて,「にほんブログ村」 に属するブロガーから種コミュニティを生成 ブロガー空間 全36コミュニティ IT (種コミュニティ) ・・・ メディア・娯楽 ・・・ 仕事論・人生論 (種コミュニティ) (種コミュニティ 199ブロガー 勉強・スキルアップ (種コミュニティ) 2ブロガー 種コミュニティ 技術士試験の対策 を書いているブロ ガー 45
  • 46. トピックのまとまりを作る手法 ――LDA(潜在的ディリクレ配分法)[Blei 03] ・単語は独立に出現しているのではなく、 潜在的なトピックを持ち、同じトピックを持つ 単語は同じ文書に出現しやすい トピック : zn トピック数 :K 文書 :d 語 :w ー 入力 : トピック数Kと、文書dの集合 ー 推定 : トピックznにおける語wの分布 ⇒ p( 語w ¦トピックzn ) 文書dにおけるトピックznの分布 ⇒ p(トピックzn ¦文書 d) 46 46
  • 47. トピックznは, 語wの確率分布によって特徴付けられる トピックz1 トピックz2 トピックz3 トピックz4 トピックz5 語 p( 語¦ トピック ) 語 p( 語 ¦ トピック ) 語 p( 語 ¦ トピック ) 語 p( 語 ¦ トピック) 語 p(語 ¦ トピック) 会社 0.049229 ビジネス 0.060352 国民 0.027065 経済 0.017798 原発 0.033248 企業 0.0434 起業 0.042726 政治 0.015292 日本 0.014951 事故 0.015427 利益 0.02472 時代 0.030481 消費税 0.014382 国債 0.013184 東電 0.010059 中小企業 0.018189 成功 0.028284 民主党 0.014005 景気 0.011339 安全 0.009988 従業員 0.012322 独立 0.022903 日本 0.012435 金利 0.010205 電力 0.008878 ・ ・ : : : : 成功 原発 会社 東電 地震 起業 国民 語w 利益 太陽 景気 経済47 47 企業 社員 ビジネス 政治 47
  • 48. トピックznは, 語wの確率分布によって特徴付けられる トピックz1 トピックz2 トピックz3 トピックz4 トピックz5 語 p( 語¦ トピック ) 語 p( 語 ¦ トピック ) 語 p( 語 ¦ トピック ) 語 p( 語 ¦ トピック) 語 p(語 ¦ トピック) 会社 0.049229 ビジネス 0.060352 国民 0.027065 経済 0.017798 原発 0.033248 企業 0.0434 起業 0.042726 政治 0.015292 日本 0.014951 事故 0.015427 利益 0.02472 時代 0.030481 消費税 0.014382 国債 0.013184 東電 0.010059 中小企業 0.018189 成功 0.028284 民主党 0.014005 景気 0.011339 安全 0.009988 従業員 0.012322 独立 0.022903 日本 0.012435 金利 0.010205 電力 0.008878 ・ ・ : : : : 成功 原発 会社 東電 地震 起業 国民 語w 利益 太陽 景気 経済48 48 企業 社員 ビジネス 政治 48
  • 49. 文書dは, トピックznの確率分布によって特徴付けられる トピック p( トピック ¦ 文書 ) トピック p( トピック¦ 文書 ) z1 0.19 z1 0.02 トピック p( トピック¦ 文書 ) z2 0.10 z1 0.24 z2 0.28 文書d z3 0.50 z3 z4 0.42 0.01 z2 0.09 z4 0.16 z3 0.12 ・・・ z5 0.28 z4 0.30 ・・・ z5 0.04 z5 0.25 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ トピックz1 トピックz2 トピックz3 トピックz4 トピックz5 49 49
  • 50. 文書dは, トピックznの確率分布によって特徴付けられる トピック p( トピック ¦ 文書 ) トピック p( トピック¦ 文書 ) z1 0.19 z1 0.02 トピック p( トピック¦ 文書 ) z2 0.10 z1 0.24 z2 0.28 文書d z3 0.50 z3 z4 0.42 0.01 z2 0.09 z4 0.16 z3 0.12 ・・・ z5 0.28 z4 0.30 ・・・ z5 0.04 z5 0.25 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ トピックz1 トピックz2 トピックz3 トピックz4 トピックz5 50 50
  • 51. 文書を各トピックに分類する トピックz1 トピックz2 トピックz3 トピックz4 トピックz5 ・・・ ・・・ トピック p( トピック ¦ 文書 ) z1 0.02 z2 0.28 文書dにおけるトピックzn z3 0.50 の出現確率をP(zn | d) z4 0.16 が最大のトピックへ分類 文書d ・・・ z5 0.04 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 51 51
  • 52. ブロガー・コミュニティの生成 トピックz1 トピックz2 トピックz3 トピックz4 トピックz5 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ブロガーの記事が5記事以上 あるトピックにブロガーを割り当てる。 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ブロガーのブログ記事集合 52
  • 53. ブロガー空間 ・・・ ②新たに収集したブロガーを,トピックモ デルからの推論によってブロガー・コミュ ニティに追加し,コミュニティを拡張 全36コミュニティ ・・・ IT (拡張後コミュニティ) 勉強・スキルアップ メディア・娯楽 (拡張後コミュニティ) (拡張後コミュニティ) 82ブロガー 仕事論・人生論 (拡張後コミュニティ) 勉強・スキルアップ アクチュアリー (種コミュニティ) 技術士試験 大学院で経済 試験の数学の 公務員試験の経 問題の解説を の対策を書 2ブロガー の勉強をして 済学対策を専門 いているブロ いるブロガー. しているブロ に教えているブ ガー ロガー. ガー 拡張後のコミュニティ 53
  • 54. 推定されたトピックモデルから 新規文書のトピックを推論 新規文書d トピック p( トピック¦ 文書 ) トピックモデル z1 0.02 z2 0.28 z3 0.50 z4 0.16 z5 0.04 新規ブロガーの記事に対して,推定されているトピックに対する 出現確率P(zn¦d)が推論される。 54
  • 55. 推定されたトピックモデルから 新規文書のトピックを推論 新規文書d トピック p( トピック¦ 文書 ) トピックモデル z1 0.02 z2 0.28 z3 0.50 z4 0.16 z5 0.04 新規ブロガーの記事に対して,推定されているトピックに対する 出現確率P(zn¦d)が推論される。 55
  • 56. 文書を各トピックに分類する トピックz1 トピックz2 トピックz3 トピックz4 トピックz5 ・・・ ・・・ トピック p( トピック ¦ 文書 ) z1 0.02 z2 0.28 文書dにおけるトピックzn z3 0.50 の出現確率をP(zn | d) が最大のトピックへ分類 新規文書d z4 z5 0.16 0.04 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 56 56
  • 57. ブロガー・コミュニティへのブロガーの追加 トピックz1 トピックz2 トピックz3 トピックz4 トピックz5 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ブロガーの記事が5記事以上 あるトピックにブロガーを割り当てる。 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ブロガーのブログ記事集合 57
  • 58. 目次 • 背景 • 概要 – コミュニティの自動生成 • にほんブログ村におけるカテゴリーとの比較 • にほんブログ村におけるカテゴリーへのブロガーの所属との 比較 – コミュニティの拡張 • にほんブログ村におけるブロガーとの比較 – コミュニティ拡張性能の評価 • 手法 • まとめ・今後の課題 58
  • 59. まとめ・今後の課題 • ブロガー・コミュニティの自動生成と自動拡張 の枠組を提案 – にほんブログ村のカテゴリーに相当するコミュニ ティを自動生成 – にほんブログ村以外のブロガーを収集し,適用す ることで,コミュニティを自動拡張 • 今後の課題 – コミュニティへのラベル付けの自動化 59