SlideShare a Scribd company logo
新着論文レビューを
テキストマイニング3.0:
            Q
    YOU CAN (NOT) CONNECT.




  @tabris2012 & @gackelNL
※新着論文レビューは(ほぼ)関係ありません
シリーズものなのでご了承ください
PLAY
BACK
前々回

 新着論文レビューを
テキストマイニング1.0:

     序
PLAY
BACK
タグ
タグを整理しよう
タグを7項目に分類
[分野]に関するタグの一覧
前回

 新着論文レビューを
テキストマイニング2.0:

     破
詳しくは統合TVで昨年の収穫祭をご覧ください
今回

 新着論文レビューを
テキストマイニング3.0:
     Q
自己紹介
自己紹介
@tabris2012
@gackelNL
牧場でのお仕事



   http-//everystockphoto.s3.amazonaws.com/animal_freisian_meadow_14161_o
自然言語処理




         http://www.oreilly.co.jp/books/9784873114705/
しぜんげんご-しょり【自然言語処理】

<natural language processing> 人間が日常的に使っている自然言語を
コンピュータに処理させる一連の技術であり、人工知能と言語学の一
分野である。「計算言語学」(computational linguistics)も同じ意味
であるが、前者は工学的な視点からの言語処理をさすのに対して、後
者は言語学的視点を重視する手法をさす事が多い。データベース内の
情報を自然言語に変換したり、自然言語の文章をより形式的な(コン
ピュータが理解しやすい)表現に変換するといった処理が含まれる。




                                          出典:wikipedia
4歳の時、母親の「思い出に残るように」という理由で[1]子役デビュー。CM(サントリー緑水など)や雑誌を中心に活動した。ドラマや映画にも出演して
いたが、名前の付かないような役が多かった。




役名をもらい、本格的に女優業を始めたのは1997 - 1999年頃から。映画デビューは大林宣彦監督作品『あの、夏の日 / とんでろ、じいちゃん』(1999年)
で、その後、ピチレモンのモデル(ピチモ)として毎月レギュラーで登場して人気を得た。2001年、映画初主演の『害虫』で、第23回ナント三大陸映画祭

コンペティション部門主演女優賞を受賞(映画公開は2002年)。2002年には、『EUREKA』で第16回高崎映画祭最優秀新人女優賞を受賞した。またこの
年は、BS-iの『ケータイ刑事 銭形愛』で連続テレビドラマ初主演した。2003年、初舞台で主演をつとめたミュージカル『星の王子さま』(演出:白井晃)
で、第41回ゴールデン・アロー賞演劇新人賞を受賞。同年、アニメ『魔法遣いに大切なこと』で声優初挑戦。その後も、アニメの映画やドラマ、ドキュメ
ンタリーのナレーションなど、声に関わる仕事もしている。
                                                                                  文書や音声をコン
2005年、中島美嘉とダブル主演を務めた『NANA-ナナ-』が、2005年度実写邦画観客動員数第2位、興行収入40億円の大ヒットとなりブレイクのきっかけと




                                                                                   ピュータで処理
なった。2006年、NHKの連続テレビ小説『純情きらり』ではヒロイン・有森桜子役を演じ、同作で第44回ゴールデン・アロー賞放送賞(ドラマ部門)を受
賞した。




2008年、NHK大河ドラマ『篤姫』で、主人公の篤姫を演じる。放送開始時の年齢22歳1か月は、大河ドラマの主役としては歴代最年少(それまでは『義
経』の滝沢秀明の23歳9か月が最年少であった)である。




2012年、『ゴーイング マイ ホーム』で10年ぶりに民放ドラマに出演をする。
牧場の日常




  http://everystockphoto.s3.amazonaws.com/grass_food_netherlands_903134_o.jpg
楽しんでやってます
TOGOFARM
       M
:3.01

        You can (not) connect.
西暦2012年9月
今年もトーゴーの日があるのよねー
とうごう-の-ひ【 トーゴーの日】


 科学技術振興機構(JST)バイオサイエンスデータベース
 センター(NBDC)では、毎年10月5日を「トーゴーの
 日」とし、ライフサイエンス分野のデータベース統合に
 まつわる問題をともに考え、議論を深めるシンポジウム
 を、情報・システム研究機構 ライフサイエンス統合デー
 タベースセンター、医薬基盤研究所、農業生物資源研究
 所、産業技術総合研究所と共同で開催している。<季 秋>




                    http://events.biosciencedbc.jp/sympo/togo2012/details
ポスター間の相関を調べてみない?




       http://s3.amazonaws.com/estock/fspid11/10/04/79/0/child-elijah-portrait-1004790-o.jpg
http://s3.amazonaws.com/estock/fspid11/16/76/78/2/bokeh-experiment-family-1676782-o.jpg
要旨集
データベース
データ

          情報系の単語が多め

統合
                                                         検索
     解析
             情報
              http-//everystockphoto.s3.amazonaws.com/keyboard_laptop_computer_1394_o.jpg
とりあえず中身を見てみよう



         http://www.flickr.com/photos/basykes/3051615925/sizes/l/in/photostream/
MeCab

日本語の文章を単語ごとに分割し、
  品詞を推定してくれるソフト




         http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
化合
                      物
タ
ー
    デ



              配 列            ゲノム

         ポスターごとに名詞の抽出
転写
                            ス
                           ー
             疾患




                          ベ
    シー
        ケン               タ
          サー
                     ー
ところでポスター同士の近さって、なに?




       http-//everystockphoto.s3.amazonaws.com/carnival_fasching_germany_728163_o
?
http-//everystockphoto.s3.amazonaws.com/carnival_fasching_germany_728163_o
そ
の
1
週
間
後
¦
¦
@tabris2012と@gackelNLが互いに相談
 することなく、独立に問題に取りかかる

                    ※二人は同じ学科の同期です。

       http://s3.amazonaws.com/everystockphoto/fspid30/18/81/27/8/mauritius-nature-trek-1881278-o
@tabris2012の考え

 同じ生物用語が多く含まれる
ポスター同士は似ているだろう


       @gackelNLの考え

      特徴的な単語の出現傾向が似ている
        ポスターは似ているだろう
        http://s3.amazonaws.com/everystockphoto/fspid30/18/81/27/8/mauritius-nature-trek-1881278-o
@tabris2012の考え

 同じ生物用語が多く含まれる
ポスター同士は似ているだろう




        http://s3.amazonaws.com/everystockphoto/fspid30/18/81/27/8/mauritius-nature-trek-1881278-o
@tabris2012:同じ生物用語が多く含まれる
      ポスター同士は似ているだろう

ポスターA   ポスターB      ポスターC

 ゲノム     ゲノム       タンパク質
  考慮     データ        植物
 糖尿病      疾患        近年
 さまざま     記述        普及
  疾患      NGS       発現
@tabris2012:同じ生物用語が多く含まれる
      ポスター同士は似ているだろう

ポスターA   ポスターB      ポスターC

 ゲノム     ゲノム       タンパク質
  考慮     データ        植物
 糖尿病      疾患        近年
 さまざま     記述        普及
  疾患      NGS       発現
@tabris2012:同じ生物用語が多く含まれる
      ポスター同士は似ているだろう

ポスターA   ポスターB      ポスターC

 ゲノム     ゲノム       タンパク質
  考慮     データ        植物
 新着論文レビューで学習した非生物用語を削除
          疾患
  糖尿病               近年
 さまざま     記述        普及
  疾患      NGS       発現
@tabris2012:同じ生物用語が多く含まれる
      ポスター同士は似ているだろう

ポスターA   ポスターB      ポスターC

 ゲノム     ゲノム       タンパク質
  考慮     データ        植物
 糖尿病      疾患        近年
 さまざま     記述        普及
  疾患      NGS       発現
@tabris2012:同じ生物用語が多く含まれる
      ポスター同士は似ているだろう

ポスターA   ポスターB      ポスターC

 ゲノム     ゲノム       タンパク質
  考慮      データ       植物
   共有する単語数を「相関スコア」とする
  糖尿病      疾患       近年
 さまざま      記述       普及
  疾患      NGS       発現
@tabris2012:同じ生物用語が多く含まれる
      ポスター同士は似ているだろう



  ポスターA          0

                         ポスターC
    2

        ポスターB        0


                総当たりでスコア付け
@gackelNLの考え

特徴的な単語の出現傾向が似ている
  ポスターは似ているだろう
http://s3.amazonaws.com/everystockphoto/fspid30/18/81/27/8/mauritius-nature-trek-1881278-o
@gackelNL:特徴的な単語の出現傾向が似て
     いるポスターは似ているだろう

   全ポスターに含まれる名詞一覧を作成


ポスターA                  ポスターC
          ポスターB


   ゲノム   タンパク質    疾患     様々
   近年     発表      植物     記述
   検索    データ      普及     一般
@gackelNL:特徴的な単語の出現傾向が似て
     いるポスターは似ているだろう

 各ポスターに単語が何個含まれているか調べる


          ポスターA ポスターB ポスターC
   ゲノム      5     4     0
  タンパク質     1     0     5
   疾患       3     2     0
   様々       0     2     2
   近年       0     1     1
@gackelNL:特徴的な単語の出現傾向が似て
     いるポスターは似ているだろう


  tf-idf



ポスターに多く含まれ
ている単語は特徴的
             多くの文書に含まれている
              単語は特徴的でない
@gackelNL:特徴的な単語の出現傾向が似て
     いるポスターは似ているだろう

    各ポスターの各単語のtf-idfを計算


          ポスターA ポスターB ポスターC
   ゲノム     0.3   0.2    0
  タンパク質    0.1    0    0.8
   疾患      0.6   0.4    0
   様々       0    0.2   0.2
   近年       0    0.1   0.1
@gackelNL:特徴的な単語の出現傾向が似て
     いるポスターは似ているだろう

         ポスター間の類似度を計算

AとBの類似度
          ポスターA ポスターB   ポスターC
   ゲノム     0.3   0.2      0
  タンパク質    0.1    0      0.8
   疾患      0.6   0.4      0
   様々       0    0.2     0.2
   近年       0    0.1     0.1
@gackelNL:特徴的な単語の出現傾向が似て
     いるポスターは似ているだろう

         ポスター間の類似度を計算

AとBの類似度
          ポスターA ポスターB      ポスターC
   ゲノム        0.3   0.2     0
                          単語同士掛け
  タンパク質   +   0.1   0       0.8
                          て足し合わせる
   疾患     +   0.6   0.4      0
   様々     +   0     0.2     0.2
   近年     +   0     0.1   = 0.30
                             0.1
結果は視覚的にしたい


     http-//everystockphoto.s3.amazonaws.com/nerina_animal_eyes_8244_o
各々のスコアを基に
ネットワークを描画




            http-//s3.amazonaws.com/estock/fspid9/24/77/20/0/snagged-network-flickr-2477200-o
Cytoscape
   Cytoscape




          http://www.cytoscape.org/screenshots.html
遺伝子ネットワークなど、生物
 分野でよく使われるソフト




                 遺
統合TVを見て使い方を勉強
そ
の
3
週
間
後
¦
¦
両者ともに   完
        成
@tabris2012版
@gackelNL版
図        @tabris2012版




互いに上手くいっているところと悪いところがある



@gackelNL版
2つを合体させて互いの長所を伸ばそう!




        http://www.flickr.com/photos/78855484@N03/7223384344/sizes/m/in/photostream/
適当に互いのスコアを足し合わせ




       http://s3.amazonaws.com/estock/fspid10/10/13/24/2/train-play-child-1013242-o.jpg
ここ2倍してみるー?




http://upload.wikimedia.org/wikipedia/commons/3/3a/Kongo_Rishiki_%28Guardian_Deity%29_at_the_Central_Gate_of_Horyuji.jpg
30足すー?




         http-//upload.wikimedia.org/wikipedia/commons/9/9d/HoryujiStatue0321.jpg
そ
の
2
日
後
¦
¦
完成
似たテーマの人を色付け




      http://s3.amazonaws.com/estock/fspid1/46500/ralston-painter-neworleans-46576-o.jpg
10月5日
銀座
銀座
大盛況



実際の写真持ってる?
閉幕
ビール




      http://www.flickr.com/photos/jirka_matousek/8485824529/lightbox/
だらっ




  http://everystockphoto.s3.amazonaws.com/cats_floor_newlens_43999_o.jpg
http-//everystockphoto.s3.amazonaws.com/Peanut_sleepyhead_sleepy_9971_o.jpg
TOGOFARM
       M
:3.02

        You can (not) connect.
そ
の
2
週
間
後
¦
¦
分生のポスターもやりましょう



       http://www.flickr.com/photos/departmentofed/8535831647/sizes/l/in/photostream/
ぶんせい【分生】

「日本分子生物学学会」の略称。→日本分子生物学会
にほん-ぶんしせいぶつ-がっかい【日本分子生物学会】


 分子生物学の研究・教育の推進を目的とする日本の学会。1978年、初代会長
 の渡邊格らを中心として会員約600人で設立された。従来の細胞学・生化学等
 と異なり、生体分子の物理化学的性質に基づいて生命の原理を明らかにする
 ことを目的として設立されたが、1990年代には生物学・医学・農学等の様々
 な分野に分子生物学的方法論が浸透したため会員は急増し、現在は会員数1万
 人を超える大規模学会となっている。
 特に日本生化学会とは研究分野および会員に関して重なる部分が多いことか
 ら、しばしば合同大会を開催している。その他隣接分野の学会としては、日本
 生物物理学会、日本生物工学会、日本細胞生物学会、日本植物細胞分子生物
 学会、日本遺伝学会、日本農芸化学会、日本薬学会などがある。




                               出典:wikipedia
IT企画
悩み




悩み
要旨集重いよ...
これ全部読むの?


    http://everystockphoto.s3.amazonaws.com/thinking_think_telaviv_1422426_o.jpg
見たいものをすぐに見つけたい




     http-//s3.amazonaws.com/everystockphoto/fspid20/43/20/69/pablopiedra-holder-hand-432069-o.jpg
トーゴーの日のようなネットワーク図の出番!
しかし




 http://everystockphoto.s3.amazonaws.com/lightning_storm_thunder_1411768_o.jpg
ポスター数4000枚
様々な分野にまたがる




   http://s3.amazonaws.com/everystockphoto/fspid31/53/43/69/7/everystockphoto-5343697-o.jpg
日本語と英語の要旨+英語キーワード
どうしよう...



  http://s3.amazonaws.com/everystockphoto/fspid31/46/23/02/0/sweat-nervous-light-4623020-o.jpg
協力して役割分担しよう!
  @tabris2012:日本語要旨担当
@gackelNL:英語要旨、キーワード担当
日本語編
 by tabris2012
第壱話




      涙
トーゴーの日と同じことやればいいんでしょ




          http://everystockphoto.s3.amazonaws.com/self_portrait_model_903873_o.jpg
できた!
どこに注目すればいいの...!?
涙の画像




 http://s3.amazonaws.com/estock/fspid10/10/04/79/6/child-girl-alyra-1004796-o.jpg
もっと局所的な相関
 に注目したい!
細かい調整を簡単にやりたい




       http://everystockphoto.s3.amazonaws.com/apple_kitten_97448_o.jpg
代わりのソフトを探さなきゃ...




       http://s3.amazonaws.com/estock/fspid3/347900/highway163-sunrise-utah-347944-o.jpg
第弐話
新
た
な
出会い、そして
Graphviz

Graphviz
Rubyを使って操作できる



            http://www.ruby-lang.org/ja/
各ポスターについてのネットワーク
    図を作成しよう!



        http://www.flickr.com/photos/perspicacious/3207784151/sizes/l/in/photostream/
ポスターAの場合

    L           F                       M
                        B           G
                                            N
        E           A
                            C
                                    H           O
            D
    J
                                I               P
K
深さ
                3           F
    L                           2                       M
                                            2
                                    B               G   3
                                1                               N
                                                        3
            E                   A
                    2       1           C 2                     3
                                    1               H               O
                        D
    J           2                       2
                                                            3
        3
                                                I                   P
K
Aからの相関数 = 3

    L            F                           M
                             B           G
                     1                           N
        E            A
                 3               C
                         2               H           O
             D
    J
                                     I               P
K
ポスターAの場合

    L           F                       M
                        B           G
                                            N
        E           A
                            C
                                    H           O
            D
    J
                                I               P
K
ポスターAの場合

    L          F                   M
                   B           G
          「相関数」が多くなるときは、               N
        E    「深さ」を減らす
                A
                       C
                               H           O
           D
    J
                           I               P
K
ポスターAの場合

    L           F                       M
                        B           G

        E           A
                            C
                                    H
            D
    J
                                I
K
ポスターAの場合

    L           F               M
                    B       G

        E       バランスを保つ
                  A
                     C
                            H
            D
    J
                        I
K
できたよ!



  http://s3.amazonaws.com/estock/fspid10/23/98/14/9/bike-canada-helmet-2398149-o.jpg
実際のプログラミング方法はwikiで
 http://g86.dbcls.jp/ tabris2012/
用語 選
   抜
  第参話
マウス
                        in
             RN
        子      A
    遺 伝
                              写
            共有単語がメジャー
                             転
タ
 ンパ
             な単語ばかり




                              D
    ク




                         N
        細胞

                           A
よく出てくる生物用語
   単語       生物用語スコア
   DNA        91321
   細胞         77757
   RNA        52753
 タンパク         31392
 遺伝子          29283
 マウス          28432
     in       27478
  mRNA        26486
   転写         22986
タンパク質         18127
  protein     16593
   p53        16290
    cell      12072
   PCR        11982
    ES        11967
よく出てくる生物用語
   単語        生物用語スコア
   DNA         91321
   細胞          77757
   RNA         52753
 タンパク  よく出る単語が共有
               31392
 遺伝子           29283
されやすく、特徴的な共有
 マウス           28432
     in        27478
  mRNA 単語の影響が薄まる
               26486
   転写          22986
タンパク質          18127
  protein      16593
   p53         16290
    cell       12072
   PCR         11982
    ES         11967
よく出てくる生物用語
   単語       生物用語スコア
   DNA        91321
   細胞         77757
   RNA        52753
 タンパク         31392
 遺伝子          29283
 マウス単語が多すぎて計算 28432
     in       27478
  mRNAが終わらない!!26486
   転写         22986
タンパク質         18127
  protein     16593
   p53        16290
    cell      12072
   PCR        11982
    ES        11967
よく出てくる生物用語
       単語     生物用語スコア
       DNA      91321
       細胞       77757
       RNA      52753
     タンパク       31392
     遺伝子        29283
・出現するポスター数が一定数以上の単語を削除
     マウス        28432
         in     27478
・生物用語スコアが一定以下の単語を削除
      mRNA      26486
       転写       22986
    タンパク質       18127
      protein   16593
       p53      16290
        cell    12072
       PCR      11982
        ES      11967
計算結果
TOGOFARM
       M
:3.03

        You can (not) connect.
英語編
by @gackelNL
MeSH、
      導
第壱話
      入
英語は分かち書き
yeast                        suggest
               that
                                             but
          is                 the
                                             a
                      cell
 neuron

スペースの所で区切れば単語が取り出せる!

                 we                protein
  ratio

          as                 distance
                                                 gene
                      key
yeast                        suggest
              that
                                            but
         is                 the
                     cell                   a
neuron

でもその中から生物用語を抜き取りたい

                we                protein
 ratio

         as                 distance
                                                gene
                     key
MeSH
MeSH
メッシュ 【MeSH】

 <Medical Subject Headings> ある概念、事象を表す用語は必ずしもひとつで
 はなく、同義語や類義語が存在する。そのため、複数の著者が書いた論文などを取
 り扱うデータベースでは、同義語や類義語を統制し、標準化することが検索の網羅
 性、精度を上げるために重要な役割を果たす。 MeSHは、MEDLINE に収録されて
 いる論文の主題を表すために使用される米国国立医学図書館(NLM)が作成した生
 物医学用語の定義、索引語である。収録対象となる論文を各分野の専門家が通読
 し、各論文に内容に見合った適切な索引語が付与されている。約15000語の医学用
 語が採用されており、毎年一部が更新されている。MeSHを使うことにより、
 MEDLINE検索の効率がよくなる。例えば、「がん」を表す言葉として、論文中で
 は、cancer, tumor, carcinoma, neoplasms等、様々な用語が使われる。MeSHでは
 neoplasmsを採用しており、cancerのみで検索するとtumorを使用している論文は
 検索にかからない。neoplasmsを使うことにより重要な論文の検索漏れを防止する
 ことができる。


                                    日本薬学会 薬学用語解説より
                                     http://www.pharm.or.jp/dictionary/wiki.cgi?MeSH
生物用語を統一して木構造にしたもの


                     Man
Homo Sapiens



          ‘Humans’
                     Human
 Modern Man
生物用語を統一して木構造にしたもの


                 Biology
               (生物カテゴリー)


  Archaea      Eukaryota       Bacteria
  (古細菌)         (真核生物)         (真正細菌)



       Fungi    Animal     Plants
       (菌類)      (動物)      (植物)

                                          ※イメージです
生物用語を統一して木構造にしたもの

           細菌感染症と真菌症
生物用語を統一して木構造にしたもの

            細菌感染症と真菌症




   3桁ずつに区分されている
MeSHの一覧

A : Anatomy (解剖)
B : Organisms (生物)
C : Diseases (疾患)
D : Chemicals & Drugs (化学物質と薬物)
E : Analytical, Diagnostic & Therapeutic Techniques & Equipment (分析・診断・治療の技術・機器)
F : Psychiatry & Psychology (精神医学・心理学)
G : Biological Sciences (生物科学)
H : Natural Sciences (自然科学)
I : Anthropology, Education, Sciology & Social Phenomena (人類学・教育・社会学・社会現象)
J : Technology, Industry, Agriculture (工業技術・産業・農業)
K : Humanities (人文科学)
L : Information Science (情報科学)
M : Persons (人間)
N : Health Care (保健医療)
V : Publication Characteristics (出版特性)
Z : Geographic Locations (地理)
MeSHの一覧

A : Anatomy (解剖)
B : Organisms (生物)
C : Diseases (疾患)
D : Chemicals & Drugs (化学物質と薬物)
E : Analytical, Diagnostic & Therapeutic Techniques & Equipment (分析・診断・治療の技術・機器)
F : Psychiatry & Psychology (精神医学・心理学)
G : Biological Sciences (生物科学)
       MeSHにある単語のみを生物用語と見なす
H : Natural Sciences (自然科学)
I : Anthropology, Education, Sciology & Social Phenomena (人類学・教育・社会学・社会現象)
J : Technology, Industry, Agriculture (工業技術・産業・農業)
K : Humanities (人文科学)
L : Information Science (情報科学)
M : Persons (人間)
N : Health Care (保健医療)
V : Publication Characteristics (出版特性)
Z : Geographic Locations (地理)
ア   第弐話
ブ
ストラクト解
      析
アブストラクトに含まれる生物用語を調査

     MeSH用語               出現ポスター数   出現総回数
           role             1207     1674
    gene expression          835     2489
           cells             808     2080
  play and playthings        714      796
          mice               537     1097
 social control, formal      517      680
        proteins             472      951
          genes              441      933
         in vitro            382      485
    carrier proteins         369      869
アブストラクトに含まれる生物用語を調査

     MeSH用語              出現ポスター数 出現総回数
           role             1207       1674
    gene expression         835        2489
                              role、play、
           cells            808        2080
                        controlなどの生物用語と言
  play and playthings       714         796
                         えない単語も含まれている
          mice              537        1097
 social control, formal      517        680
        proteins            472         951
          genes             441         933
         in vitro           382        485
    carrier proteins        369         869
アブストラクトに含まれる生物用語を調査

     MeSH用語             出現ポスター数   出現総回数
           role           1207     1674
    gene expression        835     2489
           cells           808     2080
  play and playthings      714      796
          mice 遺伝子関連の用語が多い 537     1097
 social control, formal    517      680
        proteins           472      951
          genes            441      933
         in vitro          382      485
    carrier proteins       369      869
MeSH用語のアドレスごとに分類

             MeSHアドレス                     ポスター数   総回数
G05 : genetic phenomena                    2906   25663
A11 : cells                                2795   18435
D12 : amino acids, peptides, and proteins  2500   15801
E05 : investigative techniques             2446   12288
G02 : chemical phenomena                   2245   18289
F01 : behavior and behavior mechanisms     2072   4207
B01 : eukaryota                            1918   7196
G04 : cell physiological phenomena         1597   6259
I01 : social sciences                      1485   3299
G07 : physiological phenomena              1431   4317
MeSH用語のアドレスごとに分類

             MeSHアドレス                     ポスター数   総回数
G05 : genetic phenomena                    2906   25663
A11 : cells                                2795   18435
D12 : amino acids, peptides, and proteins  2500   15801
E05 : investigative techniques             2446   12288
G02 : chemical phenomena                   2245   18289
F01 : behavior and behavior mechanisms     2072    4207
B01 : eukaryota                            1918    7196
G04 : cell physiological phenomena         1597   6259
I01 : social sciences                      1485    3299
G07 : physiological phenomena              1431   4317
MeSH用語のアドレスごとに分類

             MeSHアドレス                     ポスター数   総回数
G05 : genetic phenomena                    2906   25663
A11 : cells                                2795   18435
D12 : amino acids, peptides, and proteins  2500   15801
                      G(生物科学に関する用語)
E05 : investigative techniques             2446   12288
G02 : chemical phenomenaが圧倒的に多い            2245   18289
F01 : behavior and behavior mechanisms     2072    4207
B01 : eukaryota                            1918    7196
G04 : cell physiological phenomena         1597   6259
I01 : social sciences                      1485    3299
G07 : physiological phenomena              1431   4317
例えばG05の単語 (genetic phenomena)

         MeSH用語                総回数
       gene expression         2489
            genes               933
        base sequence           604
          phenotype             518
           mutation             463
       dna replication          427
       genes, essential         412
      dna methylation           382
  transcriptional activation    382
       genes, regulator         379
例えばA11の単語 (cells)

  MeSH用語             総回数
       cells         2080
    stem cells        772
     cell line        537
 cells, cultured      393
 epithelial cells     379
    germ cells        373
    chromatin         344
     neurons          331
    hela cells        330
celluar structures    225
詳しいデータはブログで公開しています
    http://d.hatena.ne.jp/gackel/
キーワード
第参話 解
    析
ポスターには、5つまで好きなキーワードを付けられる




• 全体の95%にあたる3633人がキーワードを付与
• のべ15000個以上のキーワードが付与されてい
 る。(平均一人当たり4つ程度)
人気キーワード

キーワード           個数
 drosophila     95
    cancer      87
transcription   78
 epigenetics    69
  apoptosis     68
  chromatin     63
mitochondria    58
     p53        52
   meiosis      49
  c.elegans     47
キーワードとタイトルの関係

   キーワード                         タイトルに出てくるMeSH用語
 drosophila (95)               role (67)                   cells (67)             gene expression (62)

    cancer (87)               cells (125)             genes, neoplasm (87)        gene expression (49)

                                                    promoter regions, genetic
transcription (78)     transcription factors (95)
                                                              (58)
                                                                                        cells (57)

 epigenetics (69)        gene expression (68)         dna methylation (62)            histones (55)

  apoptosis (68)           apoptosis (130)                 cells (80)                 cell death (47)

  chromatin (63)            chromatin (94)                histones (75)             nucleosomes (61)

mitochondria (58)     mitochondrial proteins (72)      mitochondria (69)        genes, mitochondrial (54)

     p53 (52)              genes, p53 (81)                 cells (41)                 apoptosis (33)

   meiosis (49)      chromosome segregation (61)          meiosis (48)             chromosomes (44)

  c.elegans (47)             neurons (34)            calcium signaling (26)     sensory receptor cells (26)
キーワードとタイトルの関係

   キーワード                        タイトルに出てくるMeSH用語
 drosophila (95)              role (67)                   cells (67)             gene expression (62)

    cancer (87)              cells (125)             genes, neoplasm (87)        gene expression (49)

                                                   promoter regions, genetic
transcription (78)    transcription factors (95)
                                                             (58)
                                                                                       cells (57)

 epigenetics (69)       gene expression (68)         dna methylation (62)            histones (55)

  apoptosis (68)          apoptosis (130)                 cells (80)                 cell death (47)

  chromatin (63)           chromatin (94)                histones (75)             nucleosomes (61)

mitochondria (58)    mitochondrial proteins (72)      mitochondria (69)        genes, mitochondrial (54)

     p53 (52)             genes, p53 (81)                 cells (41)                 apoptosis (33)

                      chromosome segregation
   meiosis (49)               (61)
                                                         meiosis (48)              chromosomes (44)

  c.elegans (47)            neurons (34)            calcium signaling (26)     sensory receptor cells (26)
キーワードとタイトルの関係

   キーワード                     タイトルに出てくるMeSH用語
 drosophila (95)           role (67)                  cells (67)           gene expression (62)

    cancer (87)           cells (125)           genes, neoplasm (87)       gene expression (49)

                                              promoter regions, genetic
transcription (78) transcription factors (95)
                                                         (58)
                                                                                 cells (57)

                キーワードはタイトルに含まれて (55)
 epigenetics (69)    gene expression (68)       dna methylation (62)           histones

  apoptosis (68) いる用語を使うことが多い cell death (47)
                        apoptosis (130)               cells (80)

  chromatin (63)        chromatin (94)              histones (75)           nucleosomes (61)

mitochondria (58) mitochondrial proteins (72)    mitochondria (69)      genes, mitochondrial (54)

     p53 (52)           genes, p53 (81)               cells (41)              apoptosis (33)

                   chromosome segregation
   meiosis (49)               (61)
                                                    meiosis (48)            chromosomes (44)

  c.elegans (47)         neurons (34)          calcium signaling (26)   sensory receptor cells (26)
キーワード同士の共起

  一緒に書きやすいキーワードのペア

キーワード1        キーワード2          両方を含むポスター
chromatin     nucleosome         12
chromatin       histone          11
chromatin     transcription      11
centromere    kinetochore        11
 histone      nucleosome          9
proteasome     ubiquitin          9
chromatin     epigenetics         9
キーワード同士の共起

  一緒に書きやすいキーワードのペア

キーワード1        キーワード2          両方を含むポスター
chromatin     nucleosome         12
chromatin       histone          11
chromatin     transcription      11
centromere    kinetochore        11
 histone      nucleosome          9
proteasome     ubiquitin          9
chromatin     epigenetics         9
キーワード同士の共起

  一緒に書きやすいキーワードのペア

キーワード1        キーワード2        両方を含むポスター
chromatin     nucleosome       12
chromatin      histone         11
       chromatin、nucleosome、
chromatin   transcription 11
       histoneが特に固まって出やすい
centromere   kinetochore 11
 histone      nucleosome        9
proteasome     ubiquitin        9
chromatin     epigenetics       9
第四話

ポ
ス
ター間解析
アブストラクトに含まれる生物用語を調査

     MeSH用語              出現ポスター数 出現総回数
           role             1207       1674
    gene expression         835        2489
                              role、play、
           cells            808        2080
                        controlなどの生物用語と言
  play and playthings       714         796
                         えない単語も含まれている
          mice              537        1097
 social control, formal      517        680
        proteins            472         951
          genes             441         933
         in vitro           382        485
    carrier proteins        369         869
MeSHの一覧

A : Anatomy (解剖)
B : Organisms (生物)
C : Diseases (疾患)
D : Chemicals & Drugs (化学物質と薬物)
E : Analytical, Diagnostic & Therapeutic Techniques & Equipment   (分析・診断・治療の技術・機器)

F : Psychiatry & Psychology (精神医学・心理学)
G : Biological Sciences (生物科学)
H : Natural Sciences (自然科学)
I : Anthropology, Education, Sciology & Social Phenomena (人類学・教育・社会学・社会現象)
J : Technology, Industry, Agriculture (工業技術・産業・農業)
K : Humanities (人文科学)
L : Information Science (情報科学)
M : Persons (人間)
N : Health Care (保健医療)
V : Publication Characteristics (出版特性)
Z : Geographic Locations (地理)
MeSHの一覧

A : Anatomy (解剖)
B : Organisms (生物)
C : Diseases (疾患)
D : Chemicals & Drugs (化学物質と薬物)
E : Analytical, Diagnostic & Therapeutic Techniques & Equipment   (分析・診断・治療の技術・機器)

F : Psychiatry & Psychology (精神医学・心理学)
G : Biological Sciences (生物科学)
                      A、B、C、D、G、Lの
H : Natural Sciences (自然科学)
                     用語のみを生物用語とした
I : Anthropology, Education, Sciology & Social Phenomena (人類学・教育・社会学・社会現象)
J : Technology, Industry, Agriculture (工業技術・産業・農業)
K : Humanities (人文科学)
L : Information Science (情報科学)
M : Persons (人間)
N : Health Care (保健医療)
V : Publication Characteristics (出版特性)
Z : Geographic Locations (地理)
各ポスターの単語をMeSH木の上にマップ


      ポスターAに含まれる
         生物用語




  ポスターA            ポスターB
ずれを計算し、類似度とする


         ずれを計算




 ポスターA           ポスターB
パラメータいじいじ



   http://s3.amazonaws.com/estock/fspid10/26/96/91/9/animals-computer-night-2696919-o.jpg
どんなネットワークが「正しい」のか?
評価基準がないので、ぐだぐだ

       http://everystockphoto.s3.amazonaws.com/aspen_99540_o.jpg
気分転換に
 気分転換に




  http://s3.amazonaws.com/estock_dev/fspid9/69/19/82/vacances-floride-voyage-691982-o.jpg
ミススペルの調査




       http://morguefile.com/archive/display/3303
単純に長さが4以上で、1文字違いの単語が全文書中に
     存在すればミススペル候補とした。




 become (62回) & became (35回) → 1.77倍

 their (873回) & theor (1回) → 873倍


          候補の中から、出現回数の比が大きい
           ものはミススペルの可能性が高い
単純に長さが4以上で、1文字違いの単語が全文書中に
       存在すればミススペル候補とした。

    単語1          単語2        単語1の出現数   単語2の出現数     比
   expression   exression    3661        1      3661
     cells       cellsn      6827        2      3413.5
     cells        calls      6827        2      3413.5
     these       theses      3369        1      3369
     these       theme       3369        1      3369
    protein      ptotein     2686        1      2686
    protein     2protein     2686        1      2686
    protein      protien     2686        1      2686
     genes       gene8       2479        1      2479
    proteins    protains     1922        1      1922
     found       sound       1864        1      1864
    results     results1     1824        1      1824
   however      howevre      1736        1      1736
     these        tease      3369        2      1684.5
単純に長さが4以上で、1文字違いの単語が全文書中に
       存在すればミススペル候補とした。

    単語1          単語2        単語1の出現数   単語2の出現数     比
   expression   exression    3661        1      3661
     cells       cellsn      6827        2      3413.5
     cells        calls      6827        2      3413.5
     these       theses      3369        1      3369
     these       theme       3369        1      3369
    protein      ptotein     2686        1      2686
    protein     2protein     2686        1      2686
    protein      protien     2686        1      2686
     genes       gene8       2479        1      2479
    proteins    protains     1922        1      1922
    found        sound       1864        1      1864
    results     results1     1824        1      1824
   however      howevre      1736        1      1736
     these        tease      3369        2      1684.5
単純に長さが4以上で、1文字違いの単語が全文書中に
       存在すればミススペル候補とした。

    単語1          単語2        単語1の出現数   単語2の出現数     比
   expression   exression    3661        1      3661
     cells       cellsn      6827        2      3413.5
     cells        calls      6827        2      3413.5
     these       theses      3369        1      3369
     these       theme       3369        1      3369
   スペルが難しい単語のミスはそれほど多
   protein ptotein  2686 1 2686
   protein 2protein 2686 1 2686
   くなく、単純なタイプミスがかなり多い
   protein protien  2686 1 2686
     genes       gene8       2479        1      2479
    proteins    protains     1922        1      1922
    found        sound       1864        1      1864
    results     results1     1824        1      1824
   however      howevre      1736        1      1736
     these        tease      3369        2      1684.5
書いた文章は見直しましょうね




      http://s3.amazonaws.com/estock/fspid2/106400/students-teachers-classroom-106481-o.jpg
第伍話

破壊と創造、
    合
    成
@tabris2012のスコアと
@gackelNLのスコアを足し合わせる




           http://www.flickr.com/photos/dcoetzee/6773892821/sizes/l/in/photostream/
ちょこちょこ微調整


http://everystockphoto.s3.amazonaws.com/apple_computer_jordi_1574_o.jpg
計算結果
計算結果




キーとなるMeSH用語
12月10日
完成
完成!
12月11日
博多

 http://www.city.fukuoka.lg.jp/showcase/phiciran/db_phlist_2_4.html
4日間に渡って開催
HPに掲載されました
HPにも載ったよ!
HPにも載ったよ!
ポスター間の類似度に
大きく寄与したMeSH用語
IT企画の公式アカウントにも取り上げて頂きました
最終話

近づきたいよ
君の理想に
頂いたコメント


   http://www.flickr.com/photos/koalazymonkey/3342173345/sizes/o/in/photostream/
関係が可視化されているのは分かりやすい
関係が可視化されているのは分かりやすい




   やったかいがあります!見ていた
    だきありがとうございます。
他の分野で似たような技術を使っている人
   が結びつけられていて良かった
他の分野で似たような技術を使っている人
   が結びつけられていて良かった




  普段は見づらい関係を見るのが目的
    だったので良かったです。
赤字でキーワードが書いてあったのが良かった
赤字でキーワードが書いてあったのが良かった




  前日にドタバタして入れたものですが、
     形になって良かったです。
相関がビミョー(́・ω・`)
相関がビミョー(́・ω・`)




情報系の単語が多く混じる場合が難しかっ
たです。単語だけでなく文脈も考慮した手
   法を考える必要があります。
ノードをクリックしたら、そのポスターを中
心にしたネットワーク図に飛べたら良かった
ノードをクリックしたら、そのポスターを中
心にしたネットワーク図に飛べたら良かった



      1週間後にできました...
    ファイル形式の問題で分生では
       できませんでした。
総監督 
坊農秀雅

助監督 
仲里猛留

生活指導 
大田達郎
CAST


 プログラマA 
@tabris2012

 プログラマB 
@gackelNL
製作

統合牧場
予告
k el NL
         @ g ac
    業 す る
卒


          http-//s3.amazonaws.com/everystockphoto/fspid20/14/96/place-martyrs-square-1496-o.jpg
新た
  な牧
     場メ
       ンバ
         ーは
                             現れ
                                るの
                                   か
          http://www.flickr.com/photos/usarmyafrica/4360425224/sizes/l/in/photostream/
テキストを解析したいものよ、集え!



        http://www.flickr.com/photos/mdgovpics/8491371951/sizes/l/in/photostream/
今、契約の時
次回
シン シュウカクサ ¦
  ・      イ:¦
西暦2014年3月公開予定
つづく

More Related Content

Featured

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
 

Featured (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

2013_shuukakusai