第6回インターネットと運用技術シンポジウム WIPセッション

1,706
-1

Published on

第 6 回インターネットと運用技術シンポジウム (IOTS2013) の WIP (Work In Progress) セッションの発表資料です。3 本の発表を 1 つにまとめています。3 本の内訳は以下の通り。

1. 広域分散仮想化基盤のストレージ評価の最新動向
2. 動的な広域ライブマイグレーションが可能な環境における課金モデルの検討
3. 大阪大学における仮想化基盤の設計とその増強計画

Published in: Technology, Business
0 Comments
8 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,706
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
22
Comments
0
Likes
8
Embeds 0
No embeds

No notes for slide

第6回インターネットと運用技術シンポジウム WIPセッション

  1. 1. 広域分散仮想化基盤の ストレージ評価の 最新動向 The latest results of a distributed storage system for a widely distributed virtualization infrastructure 2013/12/12 IOTS2013 WIP 柏崎 礼生 Cybermedia Center Osaka University
  2. 2. い何そ うにん の使な かえ性 ねる能 とで ど博 ー士 し論 た文 は も う や め て ! 難問そ が題も あ設そ る定も に
  3. 3. 本発表は (3つ合計で) 179pまで あるぞ
  4. 4. DR Disaster Recovery
  5. 5. 1978
  6. 6. Sun Information Systems
  7. 7. mainframe hot site
  8. 8. 80- 90
  9. 9. Realtime Processing
  10. 10. POS point of sales
  11. 11. 90- 00
  12. 12. the Internet
  13. 13. 2001.9.11 September 11 attacks
  14. 14. 2003.8.14 Northeast blackout of 2003
  15. 15. in Japan
  16. 16. 2011.3.11 The aftermath of the 2011 Tohoku earthquake and tsunami
  17. 17. BCP Business Continuity Plan
  18. 18. 群馬 Gunmma prefecture
  19. 19. 石狩 Ishikari City
  20. 20. 2つで 十分ですよ No, four. Two, two, four.
  21. 21. 2011
  22. 22. 学際大規模情報基盤 共同利用・共同研究拠点
  23. 23. 2012
  24. 24. 国立情報学研究所
  25. 25. Trans-Japan Inter-Cloud Testbed
  26. 26. 北見工大 University of the Ryukyus SINET 最長 Kitami Institute of Technology 琉球大学 Cybermedia Center Osaka University
  27. 27. XenServer 6.0.2 CloudStack 4.0.0 CloudStack 4.0.0 XenServer 6.0.2
  28. 28. problems
  29. 29. shared storage
  30. 30. ≒50ms
  31. 31. RTT > 100ms
  32. 32. Storage XenMotion Live Migration without shared storage > XenServer 6.1
  33. 33. VSA vSphere Storage Appliance
  34. 34. WIDE cloud different translate
  35. 35. Distributed Storage
  36. 36. requirement
  37. 37. 120000 120000 Kbytes/sec 100000 80000 60000 40000 20000 064 100000 High Random R/W Performance 80000 60000 40000 20000 0 16384 4096 1024 256 1024 409616384 65536 262144 16 1.04858e+06 4.1943e+06 File size in 2^n KBytes 1.67772e+07 4 6.71089e+07 256 64 Record size in 2^n Kbytes
  38. 38. POSIX準拠 interface protocl NFS, CIFS, iSCSI
  39. 39. RICC Regional InterCloud Committee
  40. 40. Distcloud 広域分散仮想化環境プロジェクト
  41. 41. Con$idential Global VM migration is also available by sharing "storage space" by VM host machines. Real time availability makes it possible. Actual data copy follows. (VM operator need virtually common Ethernet segment and fat pipe for memory copy) live migration of VM between distributed areas after Migration TOYAMA site Copy to DR-sites TOKYO site before Migration Copy to DR-sites OSAKA site Copy to DR-sites real time and active-active features seem to be just a simple "shared storage". Live migration is also possible between DR sites (it requires common subnet and fat pipe for memory copy, of course)
  42. 42. Con$idential Front-end servers aggregate client requests (READ / WRITE) so that, lots of back-end servers can handle user data in parallel & distributed manner. Both of performance & storage space are scalable, depends on # of servers. clients front-end (access server) back-end (core server) read blocks READ req. WRITE req. write blocks Access Gateway (via NFS, CIFS or similar) scalable performance & scalable storage size by parallel & distributing processing technology
  43. 43. backend (core servers) block File block block block block block block block block Meta Data consistent hash
  44. 44. Con$idential 1. assign a new unique ID for any updated block (to ensure consistency). 2. make replication in local site (for quick ACK) and update meta data. 3. make replication in global distributed environment (for actual data copies). back-end (multi-sites) Most important ! the key for "distributed replication" (2) create 2 copies in local for each user data, write META data, ant returns ACK (1) assign a new unique ID for any updated block, so that, ID ensures the consistency a file, consisted from many blocks (1) (1') multiplicity in multi-location, makes each user data, redundant in local, at first, 3 distributed copies, at last. (3-b) remove one of 2 local blocks, in a future. (3-b) (3-a) (3-a) make a copy in different location right after ACK. (3-a)
  45. 45. NFS CIFS iSCSI
  46. 46. r=2 ACK r=1 write r=0 redundancy =3
  47. 47. r=2 e=0 r=0 e=1 r=1 e=0 r = -1 e=2 ACK dundancy =3 external
  48. 48. VM Hypervisor 10Gbps 1/4U server x4 Cisco UCS
  49. 49. !   !   !   SINET4 !   !   EXAGE / Storage !   !   RICC Copyright © 2012 Yoshiaki Kitaguchi, All right reserved.
  50. 50. 広島大学 大阪大学 金沢大学 国立情報学研究所
  51. 51. SINET4 L2VPN, L3VPN 10Gbps 825km 829km 440km 316km 223km SINET4 417km 274km RICC Copyright © 2012 Yoshiaki Kitaguchi, All right reserved.
  52. 52. iozone -aceI a: full automatic mode c: Include close() in the timing calculations e: Include flush (fsync,fflush) in the timing calculations I: Use DIRECT IO if possible for all file operations.
  53. 53. write 120000 16384 100000 120000 Kbytes/sec 100000 60000 1024 40000 80000 256 20000 60000 0 64 40000 20000 064 16 16384 4096 1024 256 1024 409616384 65536 262144 16 1.04858e+06 4.1943e+06 File size in 2^n KBytes 1.67772e+07 4 6.71089e+07 64 64 4 256 1024 4096 1638465536 1.04858e+06 262144 4.1943e+066.71089e+07 1.67772e+07 256 Record size in 2^n Kbytes File size in 2^n KBytes Record size in 2^n Kbytes 4096 80000
  54. 54. write rewrite read reread 100 100 100 80 60 40 60 40 20 20 0 80 10MB 100MB 1GB 0 10GB Throughput (MB/sec) 120 Throughput (MB/sec) 120 Throughput (MB/sec) 120 100 Throughput (MB/sec) 120 80 60 40 20 10MB 100MB 1GB 0 10GB random read 60 40 20 10MB 100MB File size File size 80 1GB 0 10GB random write bkwd read 1GB 10GB record rewrite 100 100 100 80 60 40 20 0 80 60 40 20 10MB 100MB 1GB 0 10GB Throughput (MB/sec) 120 Throughput (MB/sec) 120 Throughput (MB/sec) 120 100 Throughput (MB/sec) 100MB File size 120 80 60 40 10MB 100MB 1GB 0 10GB 10MB 100MB File size stride read fwrite 1GB 10GB 100 0 Throughput (MB/sec) 100 Throughput (MB/sec) 100 20 80 60 40 20 10MB 100MB 1GB File size 10GB 0 100MB 1GB File size 10MB 100MB 1GB legend 従来方式 Exage/Storage 広域対応 Exage/Storage 80 60 40 20 10MB 0 File size 120 40 40 fread 120 60 60 File size 120 80 80 20 20 File size Throughput (MB/sec) 10MB File size 10GB 0 10MB 100MB 1GB File size 10GB 10GB
  55. 55. SINET4 Hiroshima University EXAGE L3VPN SINET4 Kanazawa University EXAGE L3VPN
  56. 56. SINET4 Kanazawa University EXAGE L3VPN SINET4 NII EXAGE L3VPN
  57. 57. Read (before migration) Read (after migration) Write (before migration) Write (after            migration)              Through put (MB/sec ) propo sed metho d shared NFS
  58. 58. 提案手法 Read マイグレーション 開始 NFS Read 遅延による スループットの 低下
  59. 59. 提案手法 Write NFS Write
  60. 60. SC2013 2013/11/17∼22 @Colorado Convention Center
  61. 61. 中川郁夫 Ikuo Nakagawa @Osaka Univ, INTEC Inc.
  62. 62. 市川昊平 Kouhei Ichikawa@NAIST
  63. 63. We have been developing a widely distributed cluster storage system and evaluating the storage along with various applications. The main advantage of our storage is its very fast random I/O performance, even though it provides a POSIX compatible file system interface on the top of distributed cluster storage.
  64. 64. 当初の予定
  65. 65. 下條真司 Shinji Shimojo @Osaka Univ, NICT
  66. 66. 面白く ないよね!
  67. 67. 本番
  68. 68. 本番 折り返し RTT=244ms 1Gbps
  69. 69. 2.4万km 広島 大西洋 The Atlantic Hiroshima
  70. 70. ブロックデータは ローカルにある
  71. 71. メタデータは 広域非対応 consistent hash
  72. 72. (s) 17.9 201.6 175.4 Read 400.6 Write I/O read : write 25.4 MB/s 20.9 MB/s dd 60 70MB/s(read), 50 60MB/s(write) 36
  73. 73. 国際回線を 使用した マイグレーション
  74. 74. 国際回線上での 広域分散ストレージ のアクセス試験
  75. 75. DCダウン時の DR実現検証
  76. 76. 来年は 米国に拠点を
  77. 77. Future Works
  78. 78. 経路最適化
  79. 79. 【今後の展開】仮想計算機の流動性向上に向けて VM VM migration VM 18
  80. 80. 拠点間マイグレーションにおける経路最適化の実現 Layer VM L2 + L2 VPLS, IEEE802.1ad PB(Q-in-Q), IEEE802.1ah(Mac-in-Mac) L2 over L3 IP VXLAN, OTV, NVGRE ( L3 IP L3 SDN ID/Locator OpenFlow ID Locator LISP IP L4 L7 IP MAT, NEMO, MIP(Kagemusha) mSCTP SCTP DNS + Reverse NAT IP ( L2 / L3 SCTP Dynamic DNS VM Reverse NAT L2 / L3 IP 21
  81. 81. 4th RICC workshop @Okinawa 2014/3/27(Thu)∼28(Fri)
  82. 82. go to next stage
  83. 83. 動的な広域ライブ マイグレーションが 可能な環境における 課金モデルの検討 A Consideration of accounting model based on an availability of a dynamic wide area live migration. 2013/12/12 IOTS2013 WIP 柏崎 礼生 Cybermedia Center Osaka University
  84. 84. ど博 ー士 し論 た文 は で言査 すっ読 かたで やじ出 だゃす ーなっ いて も う や め て ! ななそ いるん だわな ろけ世 うが界 ボ に ケ
  85. 85. もし途絶時間が 無視可能な時間で マイグレーション できたなら…
  86. 86. VMの所在に頓着 しなくてもいい
  87. 87. Available supplies Frequency x cores VMの所在に頓着 してもいい time `
  88. 88. 課金は?
  89. 89. おもしろくない…
  90. 90. 4 cores 8GB memory 40GB storage 仮想マシン Virtualized Machines (VMs) 仮想化サーバ Virtualization Servers interface ユーザ Users クラウド事業者 Cloud Service Provider
  91. 91. Frequency Frequency ≒ cores Real demand Imaginary demand time 仮想マシン サービス Virtualized Machines (VMs) ユーザ IT services 4 cores 8GB memory 40GB storage Users Frequency cores time Imaginary resource cores クラウド事業者 仮想化サーバ Frequency Virtualization Servers cores time Cloud Service Provider Available supplies time ユーザがバカであればあるほど の見積もり誤りが大きいほど 儲けが大きい
  92. 92. Frequency Frequency Real demand time Frequency cores time Frequency Real demand Frequency cores cores Real demand time cores Frequency res Real demand cores Real demand time cores Real demand time Real demand time time
  93. 93. ユーザ Users ユーザは複数のサービスを構築 する。 サービスはユーザにエクスペリ user experience 構築 エンスを提供する。 エクスペリエンスは、サービスが要求 する単位時間あたりのリソース量に対 サービス IT services する、実際に提供されたリソース量の 比によって表現される。
  94. 94. ユーザ Users サービス IT services リソース 提供 リソース 要求 仮想マシン Virtualized Machines (VMs) ユーザは複数の仮想マシン (VM)を確保し、VM上で複数 のサービスが動作する。 サービスはVMにリソースを要 求し、VMはサービスにリソー スを提供する。 Per day periodicity Frequency x cores Frequency x cores Per week periodicity Frequency x cores time (day) time (sec) Per year periodicity Frequency x cores time (sec) time (week)
  95. 95. 提供 要求 仮想マシン Virtualized Machines (VMs) 仮想化サーバ上で複数のVMが 動作する。 VMは仮想化サーバにリソース リソース 提供 リソース 要求 を要求し、仮想化サーバはVM にリソースを提供する。 VMが要求するリソース量はVM 仮想化サーバ Virtualization Servers が持つ複数のサービスが要求す るリソース量の累計。
  96. 96. 拠点は複数の仮想化サーバを保 仮想化サーバ Virtualization Servers 有する。 仮想化サーバは拠点に電力を要 求し、拠点は仮想化サーバに電 電力提供 メンテ命令 増強 拠点 Datacenter 電力 要求 力を提供する他、仮想化サーバ のON/OFFの管理 (メンテナン ス)、および仮想化サーバの増 強を施す。
  97. 97. 電力提供 メンテ命令 増強 電力 要求 拠点 Datacenter 電力提供 課金 電力要求 電力供給 Power Supplyer 電力供給は複数の拠点に対して 電力を供給し、課金する。 拠点は電力供給に電力を要求し、 電力使用量を支払う。要求する 電力量は仮想化サーバが要求す る電力量の累計である。
  98. 98. implementation of simulator
  99. 99. Array 仮想マシン ユーザ Virtualized Machines (VMs) Users Frequency x cores サービス Require user experience Supply time (msec) Frequency IT services Per day periodicity Frequency x cores cores time (msec) Per week periodicity 仮想化サーバ Frequency x cores Virtualization Servers time (day) Per year periodicity 拠点 Frequency x cores Datacenter time (week) time
  100. 100. 拠点 Datacenter Virtualization Servers 仮想マシン Virtualized Machines (VMs) Migration 仮想化サーバが ダウンする時は 事前に マイグレーション 仮想化サーバ Supply Virtualization Servers 仮想マシン Virtualized Machines (VMs) 仮想化サーバ Virtualization Servers worsen UX time (msec) リソースの潤沢な Migration 仮想化サーバに 動的に マイグレーション Available supplies Frequency Maintainance Mode 仮想化サーバ Require Frequency x cores cores
  101. 101. strategy of migration
  102. 102. ティム ラフガーデン Tim Roughgarden (1975∼)
  103. 103. Selfish routing and the price of anarchy (2006)
  104. 104. ジョン ナッシュ John Forbes Nash Jr. (1928∼)
  105. 105. 非協力ゲーム non-cooperative game
  106. 106. ビッグデータの 利活用のための システム研究等
  107. 107. アカデミック
 クラウド構築に
 係るシステム研究
  108. 108. 懐疑的
  109. 109. 伽藍 Cathedral バザール bazaar
  110. 110. HPC
  111. 111. cloud
  112. 112. データセンタ 事業者との 共同研究
  113. 113. より強力なAPI
  114. 114. より知的な課金
  115. 115. go to next stage
  116. 116. 大阪大学における 仮想化基盤の設計と その増強計画 A design and a project of virtualization infrastructure in Osaka University 2013/12/12 IOTS2013 WIP 柏崎 礼生 Cybermedia Center Osaka University
  117. 117. 飽きた も う や め て !
  118. 118. キャンパスクラウド Campus Cloud Computing Environment
  119. 119. 600 nm 3900 processor clock rate (MHz) 22 Intel 4004 process rule (nm) 108KHz Changes of clock rate of Intel Microprocessors
  120. 120. core beckton xeon westmere ivy bridge sandy bridge Dunnington Core Core 2 i7 Duo Changes of number of cores on Intel core series and Xeon processor Cybermedia Center Cyber Media Center Osaka University
  121. 121. サーバ集約の利点 電源設備 施設A ネットワーク 経費削減 冷房設備 経費削減 TCOの 削減 経費削減 計算機センター 経費増大 施設C 施設B Cyber Media Center Osaka University
  122. 122. migration
  123. 123. DMZ segment Firewall Load Balancer core switches service segment managed segment
  124. 124. 8000 40 Number of joined organizations Number of user accounts on the campus mail system 35 7000 30 6000 25 5000 20 4000 15 3000 10 2000 5 1000 0 Number of joined organizations Number of user accounts on the campus mail system 9000 2012 April 2012 July 2012 Oct. 2013 Jan. 2013 April 2013 July 2013 Oct. 0 Cybermedia Center Osaka University
  125. 125. 164cores/96cores 284GB/432GB 5.3TB/3.6TB
  126. 126. サーバ集約で削減される電力使用料金 ▲¥約?万/年 (¥数十万∼百万?)
  127. 127. 物理コア 仮想コア : 1.7 1
  128. 128. averaged monthly changes of CPU usage ratio on Osaka university campus cloud system CPU usage ratio 20 15 10 5 0 2013/10/19 17:00 2013/10/24 1:00 2013/10/28 9:00 2013/11/1 17:00 2013/11/6 1:00 time 2013/11/10 9:00 2013/11/14 17:00 Cybermedia Center Osaka University
  129. 129. サイバーメディア センター ITコア棟 cybermedia center datacenter
  130. 130. プライベートクラウドに さよならを Cybermedia Center Osaka University
  131. 131. ピーター ドラッカー Peter Drucker (1909∼2005)
  132. 132. 行政の大罪 The deadly sins in public administration (1980)
  133. 133. 2 /6 つ つのうち の大罪を犯した 国家プロジェクトは失敗する
  134. 134. (1) 高邁な目標 The first thing to do make sure that a program will not have results is to have a lofty objective.
  135. 135. (2) 優先順位の不在 The second strategy guarantee to produce non-performance is to try to do several things at once. It is to refuse to establish priorities and to stick to them
  136. 136. (3) 肥大の美学 The third deadly sin of the public administrator is to believe that fat is beautiful, despite the obvious fact that mass does not work.
  137. 137. (4) 根拠なき信念 Don t experiment, be dogmatic
  138. 138. (5) 経験に学ばず Make sure that you cannot learn from experience is the next prescription for non-perfomance in public administration.
  139. 139. (6) 止まらない The last of administrator s deadly sins is the most damning and the most common: the inability of abandon.
  140. 140. 大鑑巨砲主義
  141. 141. 伊四〇〇
  142. 142. 設計方針 design principle
  143. 143. (1) 卑俗な目標 物理的・予算的・精神的な余裕を 生むための節約基盤
  144. 144. (2) 仮想化基盤 第一目標は将来のパブリッククラウドへの 移行のための「ただの通過儀礼」
  145. 145. (3) 最低限の規模 物理コア数、メモリは 現環境をほぼ踏襲 (補助記憶容量は増大)
  146. 146. (4) 分相応 背伸びはする 分は弁える
  147. 147. (5) 経験は作る 今まで計測を怠ってきたのならば これからきっちり計測をすれば良い
  148. 148. (6) 2.5年ごと 計測に基づいた妥当性のある需要予測と それに基づく増強・縮退計画
  149. 149. PLAN1 PLAN3 PLAN2 ODINS VLAN Firewalls 10GbE L2 switches Load Balancers Software Firewall Software Load Balancer L3 switches Software Router VM segment VM segment VLAN VM host segment management segment VM host segment management segment Storage Segment management segment Storage Segment management segment
  150. 150. VMware NSX
  151. 151. VMware VSAN
  152. 152. 目標 400仮想コアの集約
  153. 153. 物理コア 仮想コア : 4 1 or more
  154. 154. 96cores/4U 512GB memory 20TB
  155. 155. DR Disaster Recovery
  156. 156. Distcloud 広域分散仮想化環境プロジェクト
  157. 157. ウダシティ
  158. 158. セバスチアン スラン Sebastian Burkhard Thrun (1967∼)
  159. 159. 50年以内に 10個の教育機関 しかなくなる
  160. 160. Oxford Cambridge Harvard MIT Stanford Princeton (three online Universities) Brigham Young University
  161. 161. Angus Maddison, The World Economy A Millennial perspective, Historical Statistics (2007)
  162. 162. The world s top 10 economies 1820 China India France 28.7% 16.0% 5.4% U.K. Prussia 1999 2009 24.3% 8.7% 8.6% 2050 U.S. 30.0% Japan 14.5% Germany 6.6% U.S. Japan China China U.S. India 32.7% 17.8% 17.4% 5.2% 4.9% U.K. France 4.7% 4.7% Germany 5.7% France 4.6% Brazil Mexico Japan Austria Spain 3.1% 1.9% 1.9% Italy China Spain 3.8% 3.8% 2.0% U.K. Italy Brazil 3.7% 3.6% 2.7% Russia 4.0% Indonesia 3.2% Japan 3.1% U.S. Russia 1.8% 1.7% Canada Mexico 2.1% 1.6% Spain Canada 2.5% 2.3% U.K. 2.4% Germany 2.3% 5.3% 4.3% From: BK Suh, Mega Trends: An External View , Cisco Connect 2013
  163. 163. 阪大のモットー motto of Osaka University
  164. 164. 地域に生き 世界に伸び Live locally, grow globally.
  165. 165. 地域に世界に 生き伸びろ Survive, locally or globally.
  166. 166. そういえば任期が 2014/3/31まで なので… Cybermedia Center Osaka University
  167. 167. 転職先 探しています
  168. 168. おあとが よろしい ようで

×