Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

複数時点の単語出現頻度を 扱う時系列データモデリング

607 views

Published on

ソーシャルメディアの普及に伴い、様々な情報がインターネット上で共有されている。この結果、様々な社会現象および自然現象をインターネット上の情報から把握できるようになっている。特に、感染症に関するサーベイランス(現状把握技術)は、かつてない即時性から大きく注目されている。本研究では、ソーシャルメディア上で話題として取り上げられることが最も多い感染症の一つであるインフルエンザを題材に、従来のような現状把握だけでなく、流行予測を行うことを目指す。まず、実際に感染症が流行する前に、感染症の予防に関する情報が共有されていることに注目し、インフルエンザの流行を早期に示すような語を自動的に検出する。次に、実際の流行と任意の単語の相互相関係数を計算し、適切な時間ギャップの分だけタイムシフトした単語頻度を用いてモデルを構築し、患者数の予測を行う。この相互相関係数によるタイムシフトは、現状予測モデルの自然な拡張であるととともに、インフルエンザのみならず、あらゆる感染症の予測に適応可能な手法である。2012年8月から2016年1月までの、インフルエンザに関連する770万発言を用いた実験の結果、現状の患者数を相関係数平均0.93で推定し、1週間先の患者数を相関係数平均0.91、3週間先の患者数を相関係数平均0.76で予測することができた。この結果は、現状推定については、本邦における最高精度である。予測については、初めての試みであり、今後の適応範囲の拡大、および、実用化が望まれる。

Published in: Science
  • Be the first to comment

  • Be the first to like this

複数時点の単語出現頻度を 扱う時系列データモデリング

  1. 1. 0123456789 2 ! #$%'()*+(,+(
  2. 2. 0123456789 2 ! #$%'()*+(,+( -./001245 789:;8=?@AB
  3. 3. 0123456789
  4. 4. ! 01234 01234 #01234 $%7'()* +, -#./012345678 9 :;= ?@@A@@5( ?@@BC@@5(
  5. 5. 01 23 45 67 89
  6. 6. 9 89 8 ! #$% $% '()*+,3 -
  7. 7. Ҙ 0 12345 789
  8. 8. 0 !# $%'()*+,- ./01123455678 9:;=5 ?@A4BCD@EFGHIJKL ./01123 !# $MNOJP QH !# $%'(RS@TKU
  9. 9. Ҙ 0123456789
  10. 10. ! ! ! 36#$% '()*+,-./ 123456789:7 ;=?@A=BCDEF '()GHI JKLM 16NO8P3Q3R MSTUVW'()X H=DYZ[/ 1]^_`a cdef ^ghijgklmn^opqrstuhviwxgy z{|}~{‚ƒ„…†…{……‡ˆ‰Š‰‡‹ Œ„{|{…Ž†{‘ˆ‰ŠŠ‡‹ ’` “”
  11. 11. 012 4567859
  12. 12. 4 2
  13. 13. 4 !#$% 4'(6)#$% *+,-./0
  14. 14. 0 12345678 9 5
  15. 15. 5 85 !#$ !
  16. 16. ' 9
  17. 17. 㹰қ 0123456789
  18. 18. ! 01234 01234 #01234 $%7'()* +, -#./012345678 9 :;= ?@@A@@5 ?@@BC@@5
  19. 19. 㹰қ 01 23 45 67 89
  20. 20. 9 89 8 ! #$% $% '()*+,3 -.
  21. 21. 謀қ 0 23456789
  22. 22. !#$% '( )) *+,
  23. 23. 㸀ҝ 01234567 9
  24. 24. 2345679 !#$%'()*+,-./*01,23452+615*704584396.1*8:; ,11/,+67*+=+./*01656+,1,5?@AB C!DE F$!GHGI! C!?E J$!?@ABI! K6L9=L61,K54..K455,L61*48MNOPQR?S TUI V?WX YZ[Y]^_`aPbbbP^cdef MNOPQR?S /*011/,3452g,914514+67*+*h,K54..K455,L61*48ijkE lmnopq^OrW smntpq^OrW suuusmnvpq^OrW w TUI T$xUyz{|}~€‚ƒ„}‚{…†Xlijosuuusij‡ˆ‡w345‘’“”•–—˜™9š›œž39Ÿ 
  25. 25. 㸀ҝ 0123456789
  26. 26. 0 ! ! ! 36#$% '()*+,-./ 123456789:7 ;=?@A=BCDEF '()GHI JKLM 16NO8P3Q3R MSTUVW'()X H=DYZ[/ 1]^_`a cdef ^ghijgklmn^opqrstuhviwxgy z{|}~{‚ƒ„…†…{……‡ˆ‰Š‰‡‹ Œ„{|{…Ž†{‘ˆ‰ŠŠ‡‹ ’“”•–—˜™š
  27. 27. 㸀ҝ 01 23 45 67 89
  28. 28. 9 89 8 ! #$% $% '()*+,3 -.
  29. 29. 㸀ҝ 012345789 8
  30. 30. 3 5 !789 #$%73' ()5*+,*-./0*+,1-,/23-45/26789:; 73'5?@?A BCD EFGH#$%73'#IJ KLMNOP5QRASTUVVW#XYZ[]^_`a b12345cdefghijkl_mn 789 8
  31. 31. opq(orst#mn[^_u vw()#xyzopq(k{|5 ~€‚ƒ„…†„‡ˆ„‡ˆ‰„Š†„‹ˆ‰Œˆ‹„~€‚ƒ‡…†„‹ˆ„‡ˆ‰„Š†„Žˆ‰Œˆ‹„~€‚ƒ‹…†„Žˆ„‡ˆ‰„Š†„Œˆ‰Œˆ‡Ž 
  32. 32. ժ䎀 01 23456789
  33. 33. 234567 !#$ %#'()* !++, -.//0 -.//01 2345673 !89#$ :;8*9= ?@A ?@A1 BCD
  34. 34. 0123456789
  35. 35. ! #$% ' '# #% $ #$ ()* + # % #$ #$# !, $ $ ### $$ ' ' ()* +, %% ## ' ## ' $ % -./12/34/5672.892/3 : ;=?@ABC=?@CDEF?GHIJKLI
  36. 36. 01 23456 7849 6
  37. 37. 7849 6 7849 60 7849 6 7849 60 7849 6
  38. 38. 289 7849 60 7849 6
  39. 39. 7849 6 499 1 0 1 1 1
  40. 40. 495 8
  41. 41. 1 0
  42. 42. 1 11 499
  43. 43. 0 111 495 8 11 11 !#$!%!'()$*+$!% , -./012345/012567819:;=; ?@ABCDEFGHIHJKLM
  44. 44. 012345678
  45. 45. !#$% '$()* '$+ '$,+( '$(* '$,,' '$,) '$() -.%/ 0% '$'' '$, '$(' '$* '$, '$(') '$()( 1 '$) '$', '$) '$((( '$)) '$+ '$ + -.%/ 0%1 '$** '$(( '$+' '$(,( '$+, '$) '$ * 234674894:;73=748 ? @ABCDEFGHBCDEHIJKDLMNOPQN
  46. 46. 012345678
  47. 47. !#$% $'() $* + $,+' $'*) $,, $,( $'( -.%/ 0% $* $*, $'* $* ) $,* $'( $'(' 1 $*( $*, $*( $''' $*(( $*+ $*+ -.%/ 0%1 $*)) $'*' $*+ $',' $*+, $*(* $*) 234674894:;73=748 ? @ABCDEFGHBCDEHIJKDLMNOPQN
  48. 48. 01234 67849
  49. 49. 849
  50. 50. !#$%#'!#$( !#$(#'!#$% !#$(#'!#$) !#$)#'!#$( !#$)#'!#$% !#$%#'!#$)
  51. 51. 01 23 45 67 89
  52. 52. 9 89 8 ! #$% $% '()*+,3 --
  53. 53. 壀ҝ 0121456789
  54. 54. 4568 !
  55. 55. # $%6 '()*+,./0()123,40*5*/6()127,46 89 456789 : : ;=8?@A B B C 27.271+:B 8;=8?@AEFG 456789 8 HIJ
  56. 56. KLMN :
  57. 57. 壀ҝ 0123456789
  58. 58. 01 !3#7 $%' ()*+0,./0)*123,40+5+/6)*127,46 89 012:; = = 5?@ABCD E E F 27.2710=E 85?@ABCDGHI 012:;45JK93LMNO7 =
  59. 59. 壀ҝ 01 23 45 67 89
  60. 60. 9 89 8 ! #$% $% '()*+,3 -.
  61. 61. 壀ҝ 01 2345678
  62. 62. #$%8'()*+,-./051 273 45$6#$7 89:;=(?@()*+,A(BB27CDEFG 4H7=IJKLMNO(;=,P1QRSTUUV/27 4#$%H7;=, WTUXY /27F , Z[ ]^_`abc27de(2f,gh ?i67j'()*+-.
  63. 63. 壀ҝ 01234563789
  64. 64. ! ! ! ! #$%'()*+,$%-./0*1234/0*14567*8 9:;=:
  65. 65. 壀ҝ 01 23 45 67 89
  66. 66. 9 89 8 ! #$% $% '()*+,3 -.
  67. 67. 壀ҝ 0123457829 4
  68. 68. 089 57829 4 0123457829 4
  69. 69. 089 57829 4 0123457829 4
  70. 70. 089 57829 4 0123457829 4
  71. 71. 089 57829 4 0123457829 4
  72. 72. 089 57829 4 0123457829 4
  73. 73. 089 57829 4
  74. 74. 壀ҝ 0123456789
  75. 75. 壀ҝ 012456789
  76. 76. !#$ %' ())*+,,-./01)234/5.6,710*89: ;=?@ BCDEEF GHIJKLMNOPQRSTU=V
  77. 77. 壀ҝ 01 2345679 4
  78. 78. 6 2 79 4
  79. 79. 6 !#$ 7% 7
  80. 80. 壀ҝ 0123457829 4
  81. 81. 089 57829 4 0123457829 4
  82. 82. 089 57829 4 0123457829 4
  83. 83. 089 57829 4 0123457829 4
  84. 84. 089 57829 4 0123457829 4
  85. 85. 089 57829 4 0123457829 4
  86. 86. 089 57829 4
  87. 87. 壀ҝ 0123456789
  88. 88. 壀ҝ 012456789
  89. 89. ! !
  90. 90. 壀ҝ 012356789
  91. 91. 3 3
  92. 92. 壀ҝ 0122345789
  93. 93. 1
  94. 94. 壀ҝ 01234156789
  95. 95. 8 !#8$%'()*+, -./01(2345678945:6;= ?@#ABCDEFGH IJKCEFLMEFNOPQRSTUV*D+ WXYZ[]^^_`abc= defghijklmnomprstiuv Swx !#AB [y0z{|}+~(€8‚+a ƒ„……†‡ˆˆ‰‰‰Š‰„‹ŠŒ…ˆŽŒ‘’…“ˆ”‘’…•„…•ˆ”•–——ˆˆ ˜™šš›œ žŸ
  96. 96. ң 01 23 45 67 89
  97. 97. 9 89 8 ! #$% $% '()*+,3 -. /0123567869:;=2;2?

×