Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
OSvの概要と実装 
Takuya ASADA <syuu@cloudius-systems> 
Cloudius Systems
自己紹介 
• Software Engineer at Cloudius Systems 
• FreeBSD developer (bhyve, network stack..) 
• Software Designで「ハイパーバイザの作り...
Cloudius Systemsについて 
• OSvの開発母体(フルタイムデベロッパで開発) 
• Office:Herzliya, Israel 
• CTO : Avi Kivity → Linux KVMのパパ 
• 他の開発者:元Re...
1, OSvの概要
OSvとは? 
• OSvは単一のアプリケーションをハイパーバイザ・IaaSでLinuxOSな 
しに実行するための新しい仕組み 
• より効率よく高い性能で実行 
• よりシンプルに管理しやすく 
• オープンソース(BSDライセンス)、コミ...
7SLFDOORXG6WDFN 
標準的なIaaSスタック 
$SSOLFDWLRQ 
5XQWLPH 
2SHUDWLQJ6VWHP 
+SHUYLVRU 
+DUGZDUH 
3URWHFWLRQ 
DQG 
DEVWUDFWLRQ 
• ...
RQWDLQHUV 
コンテナ技術 
$SSOLFDWLRQ 
5XQWLPH 
$SSOLFDWLRQ 
5XQWLPH 
2SHUDWLQJ6VWHP 
+DUGZDUH 
Ɣ KLJKVLPSOLFLW 
Ɣ KLJKUHVRXUFHHI...
³/LEUDU26´ 
ライブラリOS 
$SSOLFDWLRQ 
5XQWLPH26 
$SSOLFDWLRQ 
5XQWLPH26 
+SHUYLVRU 
+DUGZDUH 
• コンテナと比較して高い 
Ɣ KLJKVLPSOLFLW 
...
OSv=ライブラリOS 
• OSを利用するために呼び出すLinux APIをライ 
ブラリのような形式で提供 
• 言語ランタイムはなるべく改造しないで移植可 
能にする 
• API提供に必要な機能は実装 
• フルサイズのOSとは構造の異...
動作環境 
• ハイパーバイザ 
• KVM 
• Xen 
• VMware 
• VirtualBox 
• IaaS 
• Amazon EC2 
• Google Compute 
Engine
対応アーキテクチャ 
• x86_64(32bit非サポート) 
• aarch64
対応アプリ 
(Java) 
• OpenJDK7,8 
• Tomcat 
• Cassandra 
• Jetty 
• Solr 
• OpenDaylight 
• Gitblit 
• Clojure 
• JRuby(Ruby on...
対応アプリ 
(Java以外) 
• Ruby 
• WEBRick 
• Ruby on Rails 
• Publify(Railsベースのブログエンジン) 
• mruby 
• lua 
• Node.js
何が動くの? 
(ネイティブアプリ) 
• haproxy 
• memcached 
• MySQL 
• LevelDB 
• SQLite 
• twemproxy
フットプリント 
(ディスクイメージサイズ) 
• mruby = 14MB 
• Ruby = 48MB 
• OpenJDK = 77MB
フットプリント 
(最低メモリ使用量) 
• mruby = 65MB 
• Ruby = 75MB 
• OpenJDK = 110MB
ブート時間 
• 1秒(DHCP、ZFS初期化込み)
OSvの基本的な機能 
• Linuxアプリとの限定的な互換性 
• ファイルシステム(ZFS) 
• TCP/IP(IPv4のみ)
OSvをプログラムから操作 
「REST API」 
• REST API経由でOSvに任意の操作を実行 
• 従来のOS:コマンド実行やファイルの編集で設 
定を変更 
(手動が基本、シェルスクリプトなどで自動化) 
OSv:APIで設定を変...
OSvを対話的に操作 
「Lua CLI」 
• 簡易的なシェル機能を実現 
• 全ての機能をREST API上に実装 
• デフォルトではOSv上で実行されるが、リモー 
トホストで実行してSSH代わりに使用可能
初期化スクリプトを 
サーバからダウンロード&実行 
「Cloud Init」 
• ネットワーク上からYAMLをダウンロードしてき 
て、ダウンロードしたファイルに記述されてい 
るREST APIを順次実行
OSv GUI 
• WebベースのGUI 
• OSの負荷、JVMのリソース情報、アプリの 
statisticsなどの統計情報を表示 
• Virtual applianceとしてOSvを使うことを前 
提にCassandra, memca...
簡易デプロイツール 
「Capstan」 
• 色々なアプリがインストールされたOSvのVMイ 
メージを、コンパイルなどの難しい作業なしに手 
軽に実行するツール 
• Linux, Mac, Windowsで動作 
• VirtualBox...
クラウドへのデプロイ 
• Amazon EC2 
• AMIを配布中 
• Google Compute Engine 
• capstanからアップロード可能
2, OSvの実装
OSvの設計(1) 
• OSvは複数のメモリ空間を持たない 
メモリ空間は全プロセス&カーネルで共通 
• OSvはカーネルとユーザプロセス間で権限のモード切替を行わない 
従って,カーネルの機能はlibc経由の関数コールで実現 
• メモリ...
OSvの設計(2) 
• これにより、TLBミスやモード切替のコスト 
を削減しパフォーマンスを上げることが出来 
る 
• (JVMによる制限が無ければ)ユーザプロセ 
スからデバイスが丸見え 
• むしろ「アプリからvirtioを直接扱うこ...
OSvの構成要素 
• C++11でスクラッチから書かれたカーネルの主な部分 
• メモリマネージャ、スケジューラ、ELFローダ、ドライバ、VFS、 
ramfs、ACPI、システムコール、libc関数(一部) 
• FreeBSDからの移植 ...
OSvの構造 
Java apps 
OpenJDK 
OSv kernel 
ZFS 
TCP/ 
IP 
FBSD code 
CLI 
COM 
port 
virtio-blk 
virtio-net 
sched 
uler 
lib...
デバイスドライバ 
• 仮想マシン専用なので準仮想化デバイス+最低限のデバイスをサポート 
• virtio-blk, virtio-net, virtio-scsi, virtio-rng 
• vmware-pvscsi, vmxnet3 ...
Linuxとの互換性 
• Fedora向けのOpenJDKバイナリが動作するレベ 
ル 
• glibcの全関数が提供されている訳ではない 
• musl-libcから必要に応じてAPIが移植されてきて 
いる 
• 今まで必要無かったAPI...
アプリケーション 
• OSvが提供するlibcの範囲で動き、-fPIC(-shared)でビルドされて 
いる必要がある(最近PIE Executablesをサポート) 
• アプリの実行=現在のメモリ空間へのapp.soのロードとmain関...
アプリ実行イメージ 
_lib = elf::get_program()-get_library(_command); 
_main = _lib-lookupint (int, char**)(“main); 
_main();
複数アプリケーションの 
実行 
• プロセスは1つだが、スレッドを新し 
く作ってapp.soをロード&実行する事 
で複数アプリを実行する事は可能 
• 但し、空間が共有されるため同じプロ 
グラムを2インスタンス起動する事が 
出来ない
JVMマルチテナント 
• 1つのVMでは通常1つのmainメソッドを含むプログラム 
しか実行出来ない 
• OSvは単一プロセスなので1つのJavaアプリしか起動出 
来ない 
• クラスローダ周りでトリックを行って、複数のmainメ 
ソ...
libc 
• ユーザ空間/カーネル空間の区別は存在しない 
• libcはカーネルにstatic linkされている 
• libcがシステムコールの役割を果たす 
• システムコールはごく一部の例外を除いて実装さ 
れていない(バイナリ互換...
Unix user 
• シングルプロセスOSなので、シングルユーザ前 
提になっている 
• ユーザ周りのlibc APIはstubになっている 
• 権限を下げて動こうとする一部アプリで動作エ 
ラーを起こすことがあり、パッチが必要
ディスクイメージ 
• cmdlineにブートパラメータ 
が直接書き込まれている 
• loader.elfはELFバイナリ 
bootfsにramfsを含む 
• 殆どのファイルはZFSに置 
かれる 
MBR (boot16.S) 01 ...
cmdline 
• カーネルへの引数と起動するユーザプログラム 
を指定 
• 例: 
--ip=eth0,10.0.0.2,255.255.255.0  
—defaultgw=10.0.0.1  
—nameserver=10.0.0.1...
ramfs 
• カーネルイメージに埋め込まれているファイルシ 
ステム 
• ディスクに書き戻されないが書き込み可能 
• 現在はlibzfs.soなどZFS関係のバイナリのみが置 
かれている(ZFSはカーネルにスタティックリン 
クされて...
ZFS 
• OSvのルートファイルシステムとして用いられて 
いる 
• アプリケーションなどは全てこちらに配置され 
る
/dev 
• 互換性のためだけに一部提供 
• アプリケーションから使用されるもの 
• console, null, random, urandom 
• ファイルシステムとブロックデバイス 
• ram0, vblk0, vblk0.1,...
/proc 
• 互換性のためだけに一部提供 
• 0/maps, 0/stat 
• mounts 
• self/ - 0/
2.1, ネットワークの 
高速化
net channel(1) 
• Linuxで提案されていたネットワークスタックの改善案 
• Socket APIはプロセスのCPUで動き、パケット受 
信処理はソフト割り込みがスケジュールされたCPU 
で動くため、ロック競合とキャッシュ...
net channel(2) 
• OSvではこれを実装(TCPのみ) 
• TCPコネクション確立時にpacket classifierにルールを登録 
• ドライバでpacket classifierを呼び出し 
マッチしたらnet_cha...
net channel bench results 
orig-1vcpu vjnc-1vcpu orig-4vcpu vjnc-4vcpu 
TCP MAERTS 36571.80 38833.18 30570.87 37904.51 
TC...
zerocopy TX/RX 
• Socket APIを通してネットワークIOを行うと必 
ずコピーが発生してしまう 
• 独自APIを追加することでゼロコピーを実現 
• OSvはプロセスとメモリ空間が共有されている 
のでゼロコピーの実現...
zerocopy API 
• ssize_t zcopy_tx(int sockfd, struct zmsghdr *zm); 
• void zcopy_txclose(struct zmsghdr *zm); 
• ssize_t zc...
zerocopy bench result 
• HostOS - KVM上のOSvで計測 
• Normal RX: 57.8 Gbps 
• Normal TX: 57.6 Gbps 
• Zerocopy RX: 72.4Gbps (≒1...
PF filter 
• FreeBSDネットワークスタックにはパケットフィルタ 
用のフックが存在 
• これをユーザプログラムから直接呼び出し 
int pfil_add_hook(int (*func)(void *, struct 
m...
net channel from app 
• ※テスト実装無し 
• net channel APIをユーザプログラムから直接呼 
び出し 
• ほぼnetmap/DPDKなどと同じことが実現可能 
• これに限らず、OSvの独自APIを呼び...
virtio-app 
• ※テスト実装無し 
• ドライバをバイパスして直接virtio-netにアクセ 
スすることも可能 
• 実装コストはnet_channelやPF filterより更に上 
がるが、限界まで性能をだすことが出来ると考...
2.2 メモリ管理
メモリ管理 
• 汎用OSと同様の仮想メモリシステムを実装 
• mmapによるアプリケーションからのメモリ要 
求をサポート(CassandraなどのアプリはJVM 
をバイパスしてJNIでmmapを行っている) 
• 大きなマッピング要求で...
malloc() 
• malloc()はカーネルとユーザアプリで共通のメ 
モリプールからメモリが割り当てられる 
• リクエストサイズ別に複数のプールを持つ(slab 
allocatorと同じ) 
• プールごとに最低1ページアロケート、...
mmap() 
• mmap()でanonymous mapping要求を受けた 
らリクエストサイズ分のページを割り付け 
• file mappingの場合はZFSへmmap要求 
FreeBSD版ZFSのコードがbuffer cacheを...
Shrinker 
• OSの残りメモリ量が少なくなった時に、アプリケーショ 
ン側から登録したコールバックを実行、アプリケーショ 
ンからメモリを解放 
• 足りなくなったらOSへ返す事によりメモリ不足を回避 
• JVMやbuffer ca...
JVM ballooning 
• OS起動時にほぼ全てのメモリをJVMヒープに割り当て 
• OS側のメモリが足りなくなってきたらShrinkerを使っ 
て通知、Java側でByteArrayを作成し(GC対策)、 
この領域をOS側へ返還...
buffer cache shrinking 
• JVMと同じくShrinkerの通知を受けてbuffer 
cacheをリリース、メモリをOSに返還
3, アプリの移植
Hello Worldの例 
hello.cc 
#include iostream 
int main() 
{ 
std::cout  Hello, world!  std::endl; 
}
Hello Worldの例: 
Makefile 
CXXFLAGS = -g -Wall -std=c++11 -fPIC $(INCLUDES) 
TARGET = hello 
OBJ_FILES = hello.o 
all: $(TA...
Hello Worldの例: 
Capstanfile 
base: cloudius/osv-base 
cmdline: /tools/hello.so 
build: make 
files: 
/tools/hello.so: hell...
Hello World on Javaの移植 
Hello.java 
public class Hello { 
public static void main(String[] args) { 
System.out.println(Hel...
Hello World on Javaの移植 
Makefile 
module: Hello.class 
%.class: %.java 
javac $^ 
clean: 
rm -rf *.class
Hello World on Javaの例: 
Capstanfile 
base: cloudius/osv-openjdk 
cmdline: /java.so Hello 
build: make 
files: 
/Hello.clas...
mrubyの移植 
build_config.rbを以下のように変更 
MRuby::Build.new do |conf| 
# load specific toolchain settings 
toolchain :gcc 
! 
# C...
memcachedの移植 
• SASLを無効化 
• -fpieでビルド
MySQLの移植 
• rootでの実行を拒否してmysqlユーザに切り替 
える処理をコメントアウト 
• ファイルのパーミッションをチェックしてworld 
writableな場合実行を拒否する処理をコメントア 
ウト 
• -fPIC -...
CRubyの移植 
• libc関数を25個追加(うちスタブ1/3) 
• obstackライブラリのスタティックリンク 
• ./configureによるフラグ設定の調整 
• OpenSSLのビルド・スタティックリンク
Ruby on Rails on CRubyの 
移植 
• Bundlerが依存パッケージの解決のためRails実行 
時にgemコマンドを実行するのでOSvでは動かな 
い 
• Bundlerによるライブラリロードを全削除 
• 手動でパ...
4, 国内コミュニティ活 
動
OSvもくもく会 @ 東京 
• ほぼ月一開催 
• 皆でOSvで色々なアプリを動かそうとしてみる 
• バグが出たら僕がその場で直す 
• 次回は11月9日
OSC 
• 関西と関東のOSCに出展 
• 次回は10/19日(日)
OSvの概要と実装
OSvの概要と実装
OSvの概要と実装
OSvの概要と実装
OSvの概要と実装
OSvの概要と実装
OSvの概要と実装
OSvの概要と実装
OSvの概要と実装
OSvの概要と実装
Upcoming SlideShare
Loading in …5
×

OSvの概要と実装

10,235 views

Published on

OSvの概要と実装

Published in: Technology
  • Be the first to comment

OSvの概要と実装

  1. 1. OSvの概要と実装 Takuya ASADA <syuu@cloudius-systems> Cloudius Systems
  2. 2. 自己紹介 • Software Engineer at Cloudius Systems • FreeBSD developer (bhyve, network stack..) • Software Designで「ハイパーバイザの作り 方」を連載中
  3. 3. Cloudius Systemsについて • OSvの開発母体(フルタイムデベロッパで開発) • Office:Herzliya, Israel • CTO : Avi Kivity → Linux KVMのパパ • 他の開発者:元RedHat(KVM), Parallels(Virtuozzo, OpenVZ) etc.. • イスラエルの主な人物は元Qumranet(RedHatに買収) • 半数の開発者がイスラエル以外の国からリモート開発で参加 • 18名・9ヶ国(イスラエル在住は9名)
  4. 4. 1, OSvの概要
  5. 5. OSvとは? • OSvは単一のアプリケーションをハイパーバイザ・IaaSでLinuxOSな しに実行するための新しい仕組み • より効率よく高い性能で実行 • よりシンプルに管理しやすく • オープンソース(BSDライセンス)、コミュニティでの開発 • http://osv.io/ • Kivity, Avi, et al. "OSv—Optimizing the Operating System for Virtual Machines." 2014 USENIX Annual Technical Conference (USENIX ATC 14). USENIX Association, 2014.
  6. 6. 7SLFDOORXG6WDFN 標準的なIaaSスタック $SSOLFDWLRQ 5XQWLPH 2SHUDWLQJ6VWHP +SHUYLVRU +DUGZDUH 3URWHFWLRQ DQG DEVWUDFWLRQ • 単一のアプリケーションを実行するワークロードでは フルサイズのゲストOS+フル仮想化はオーバヘッド
  7. 7. RQWDLQHUV コンテナ技術 $SSOLFDWLRQ 5XQWLPH $SSOLFDWLRQ 5XQWLPH 2SHUDWLQJ6VWHP +DUGZDUH Ɣ KLJKVLPSOLFLW Ɣ KLJKUHVRXUFHHIILFLHQF Ɣ KLJKSHUIRUPDQFH • 実行環境をシンプルにする事が可能 • パフォーマンスも高い
  8. 8. ³/LEUDU26´ ライブラリOS $SSOLFDWLRQ 5XQWLPH26 $SSOLFDWLRQ 5XQWLPH26 +SHUYLVRU +DUGZDUH • コンテナと比較して高い Ɣ KLJKVLPSOLFLW Ɣ KLJKUHVRXUFHHIILFLHQF Ɣ KLJKSHUIRUPDQFH Ɣ KLJKLVRODWLRQ
  9. 9. OSv=ライブラリOS • OSを利用するために呼び出すLinux APIをライ ブラリのような形式で提供 • 言語ランタイムはなるべく改造しないで移植可 能にする • API提供に必要な機能は実装 • フルサイズのOSとは構造の異なる薄いレイヤ
  10. 10. 動作環境 • ハイパーバイザ • KVM • Xen • VMware • VirtualBox • IaaS • Amazon EC2 • Google Compute Engine
  11. 11. 対応アーキテクチャ • x86_64(32bit非サポート) • aarch64
  12. 12. 対応アプリ (Java) • OpenJDK7,8 • Tomcat • Cassandra • Jetty • Solr • OpenDaylight • Gitblit • Clojure • JRuby(Ruby on Railsなど) • Ringo.JS • Jython • Erjang • Scala • Quercus(PHPエンジン、 Wordpressなど) • minecraft-server • Oracle NoSQLDB
  13. 13. 対応アプリ (Java以外) • Ruby • WEBRick • Ruby on Rails • Publify(Railsベースのブログエンジン) • mruby • lua • Node.js
  14. 14. 何が動くの? (ネイティブアプリ) • haproxy • memcached • MySQL • LevelDB • SQLite • twemproxy
  15. 15. フットプリント (ディスクイメージサイズ) • mruby = 14MB • Ruby = 48MB • OpenJDK = 77MB
  16. 16. フットプリント (最低メモリ使用量) • mruby = 65MB • Ruby = 75MB • OpenJDK = 110MB
  17. 17. ブート時間 • 1秒(DHCP、ZFS初期化込み)
  18. 18. OSvの基本的な機能 • Linuxアプリとの限定的な互換性 • ファイルシステム(ZFS) • TCP/IP(IPv4のみ)
  19. 19. OSvをプログラムから操作 「REST API」 • REST API経由でOSvに任意の操作を実行 • 従来のOS:コマンド実行やファイルの編集で設 定を変更 (手動が基本、シェルスクリプトなどで自動化) OSv:APIで設定を変更 (自動化が基本、CLIはオプション)
  20. 20. OSvを対話的に操作 「Lua CLI」 • 簡易的なシェル機能を実現 • 全ての機能をREST API上に実装 • デフォルトではOSv上で実行されるが、リモー トホストで実行してSSH代わりに使用可能
  21. 21. 初期化スクリプトを サーバからダウンロード&実行 「Cloud Init」 • ネットワーク上からYAMLをダウンロードしてき て、ダウンロードしたファイルに記述されてい るREST APIを順次実行
  22. 22. OSv GUI • WebベースのGUI • OSの負荷、JVMのリソース情報、アプリの statisticsなどの統計情報を表示 • Virtual applianceとしてOSvを使うことを前 提にCassandra, memcached, Redisなどの アプリの情報を表示する機能を実装中
  23. 23. 簡易デプロイツール 「Capstan」 • 色々なアプリがインストールされたOSvのVMイ メージを、コンパイルなどの難しい作業なしに手 軽に実行するツール • Linux, Mac, Windowsで動作 • VirtualBox, VMware, KVMなどに対応
  24. 24. クラウドへのデプロイ • Amazon EC2 • AMIを配布中 • Google Compute Engine • capstanからアップロード可能
  25. 25. 2, OSvの実装
  26. 26. OSvの設計(1) • OSvは複数のメモリ空間を持たない メモリ空間は全プロセス&カーネルで共通 • OSvはカーネルとユーザプロセス間で権限のモード切替を行わない 従って,カーネルの機能はlibc経由の関数コールで実現 • メモリの保護や権限の制限はハイパーバイザや言語ランタイムに任 せる ネイティブコードがメモリ保護エラーでOSvカーネルのメモリ領域 を破壊するのはユーザ責任 • イメージとしては言語ランタイムをベアメタル環境に移植して いる状態に近い
  27. 27. OSvの設計(2) • これにより、TLBミスやモード切替のコスト を削減しパフォーマンスを上げることが出来 る • (JVMによる制限が無ければ)ユーザプロセ スからデバイスが丸見え • むしろ「アプリからvirtioを直接扱うことに よって従来より性能を上げられる」と主張
  28. 28. OSvの構成要素 • C++11でスクラッチから書かれたカーネルの主な部分 • メモリマネージャ、スケジューラ、ELFローダ、ドライバ、VFS、 ramfs、ACPI、システムコール、libc関数(一部) • FreeBSDからの移植 • ZFS、TCP/IPスタック(v4のみ) • musl-libc • アプリケーション • lua VM CLI、REST server、OpenJDK、Ruby…
  29. 29. OSvの構造 Java apps OpenJDK OSv kernel ZFS TCP/ IP FBSD code CLI COM port virtio-blk virtio-net sched uler libc ACPI clock ramfs VFS MM ELF loader syscall emu libjvm.so java.so オリジナル実装(C++11) ポーティング バイナリ LuaVM 非ネイティブコード REST server
  30. 30. デバイスドライバ • 仮想マシン専用なので準仮想化デバイス+最低限のデバイスをサポート • virtio-blk, virtio-net, virtio-scsi, virtio-rng • vmware-pvscsi, vmxnet3 • xen pv driver • SATA • HPET、PV clock(KVM, Xen) • ACPI • Some legacy devices(IDE, VGA, COM, PS2)
  31. 31. Linuxとの互換性 • Fedora向けのOpenJDKバイナリが動作するレベ ル • glibcの全関数が提供されている訳ではない • musl-libcから必要に応じてAPIが移植されてきて いる • 今まで必要無かったAPI、musl-libcに存在しない APIが欠けている事がある
  32. 32. アプリケーション • OSvが提供するlibcの範囲で動き、-fPIC(-shared)でビルドされて いる必要がある(最近PIE Executablesをサポート) • アプリの実行=現在のメモリ空間へのapp.soのロードとmain関数 の実行 • fork() / exec()はサポートされない →内部でコマンド実行するプログラムとの互換性がない • マルチスレッドはサポートされる
  33. 33. アプリ実行イメージ _lib = elf::get_program()-get_library(_command); _main = _lib-lookupint (int, char**)(“main); _main();
  34. 34. 複数アプリケーションの 実行 • プロセスは1つだが、スレッドを新し く作ってapp.soをロード&実行する事 で複数アプリを実行する事は可能 • 但し、空間が共有されるため同じプロ グラムを2インスタンス起動する事が 出来ない
  35. 35. JVMマルチテナント • 1つのVMでは通常1つのmainメソッドを含むプログラム しか実行出来ない • OSvは単一プロセスなので1つのJavaアプリしか起動出 来ない • クラスローダ周りでトリックを行って、複数のmainメ ソッドを含むプログラム群をロード&実行するような仕 組みを実装 • JVM自体のコードは無変更
  36. 36. libc • ユーザ空間/カーネル空間の区別は存在しない • libcはカーネルにstatic linkされている • libcがシステムコールの役割を果たす • システムコールはごく一部の例外を除いて実装さ れていない(バイナリ互換のため一部必要)
  37. 37. Unix user • シングルプロセスOSなので、シングルユーザ前 提になっている • ユーザ周りのlibc APIはstubになっている • 権限を下げて動こうとする一部アプリで動作エ ラーを起こすことがあり、パッチが必要
  38. 38. ディスクイメージ • cmdlineにブートパラメータ が直接書き込まれている • loader.elfはELFバイナリ bootfsにramfsを含む • 殆どのファイルはZFSに置 かれる MBR (boot16.S) 01 cmdline 64 128 blank? loader.elf 262144 bootfs (bootfs.manifest) nsectors ZFS (usr.manifest)
  39. 39. cmdline • カーネルへの引数と起動するユーザプログラム を指定 • 例: --ip=eth0,10.0.0.2,255.255.255.0 —defaultgw=10.0.0.1 —nameserver=10.0.0.1 /memcached -u root/cli/cli.so
  40. 40. ramfs • カーネルイメージに埋め込まれているファイルシ ステム • ディスクに書き戻されないが書き込み可能 • 現在はlibzfs.soなどZFS関係のバイナリのみが置 かれている(ZFSはカーネルにスタティックリン クされていない) • Linuxのinitramfs相当
  41. 41. ZFS • OSvのルートファイルシステムとして用いられて いる • アプリケーションなどは全てこちらに配置され る
  42. 42. /dev • 互換性のためだけに一部提供 • アプリケーションから使用されるもの • console, null, random, urandom • ファイルシステムとブロックデバイス • ram0, vblk0, vblk0.1, zfs
  43. 43. /proc • 互換性のためだけに一部提供 • 0/maps, 0/stat • mounts • self/ - 0/
  44. 44. 2.1, ネットワークの 高速化
  45. 45. net channel(1) • Linuxで提案されていたネットワークスタックの改善案 • Socket APIはプロセスのCPUで動き、パケット受 信処理はソフト割り込みがスケジュールされたCPU で動くため、ロック競合とキャッシュ競合が起きる • ドライバでパケットヘッダをチェックする最低限の コードを走らせて、宛先ソケットを特定 即ソケットキューにパケットをキューイング プロセスがソケットを見に来るまで待つ
  46. 46. net channel(2) • OSvではこれを実装(TCPのみ) • TCPコネクション確立時にpacket classifierにルールを登録 • ドライバでpacket classifierを呼び出し マッチしたらnet_channelがこれを受け取り マッチしないなら通常パスへ • マッチしたパケットはnet_channelのキューに登録してソケットで ブロックしているプロセスを起床させる • プロセスコンテキストでnet_channelにキューされたパケットが ネットワークスタックで処理されプロセスに渡される
  47. 47. net channel bench results orig-1vcpu vjnc-1vcpu orig-4vcpu vjnc-4vcpu TCP MAERTS 36571.80 38833.18 30570.87 37904.51 TCP STREAM 30078.82 46939.61 24550.12 32396.08 TCP REQUEST/RESPONSE 68786.90 70834.32 62702.22 66967.52
  48. 48. zerocopy TX/RX • Socket APIを通してネットワークIOを行うと必 ずコピーが発生してしまう • 独自APIを追加することでゼロコピーを実現 • OSvはプロセスとメモリ空間が共有されている のでゼロコピーの実現が一般的なOSほど難しく ない
  49. 49. zerocopy API • ssize_t zcopy_tx(int sockfd, struct zmsghdr *zm); • void zcopy_txclose(struct zmsghdr *zm); • ssize_t zcopy_rx(int sockfd, struct zmsghdr *zm); • int zcopy_rxgc(struct zmsghdr *zm);
  50. 50. zerocopy bench result • HostOS - KVM上のOSvで計測 • Normal RX: 57.8 Gbps • Normal TX: 57.6 Gbps • Zerocopy RX: 72.4Gbps (≒125 %) • Zerocopy TX: 72.1Gbps (≒125 %)
  51. 51. PF filter • FreeBSDネットワークスタックにはパケットフィルタ 用のフックが存在 • これをユーザプログラムから直接呼び出し int pfil_add_hook(int (*func)(void *, struct mbuf **, struct ifnet *, int, struct inpcb *), void *, int, struct pfil_head *); • これを利用したオリジナルのmemcached実装 https://github.com/vladzcloudius/osv-memcached • オリジナル比の性能:122%
  52. 52. net channel from app • ※テスト実装無し • net channel APIをユーザプログラムから直接呼 び出し • ほぼnetmap/DPDKなどと同じことが実現可能 • これに限らず、OSvの独自APIを呼び出す前提な らばより高速化が可能
  53. 53. virtio-app • ※テスト実装無し • ドライバをバイパスして直接virtio-netにアクセ スすることも可能 • 実装コストはnet_channelやPF filterより更に上 がるが、限界まで性能をだすことが出来ると考 えられる
  54. 54. 2.2 メモリ管理
  55. 55. メモリ管理 • 汎用OSと同様の仮想メモリシステムを実装 • mmapによるアプリケーションからのメモリ要 求をサポート(CassandraなどのアプリはJVM をバイパスしてJNIでmmapを行っている) • 大きなマッピング要求ではhuge pageを使用 • スワップやpage evictionはサポートされない
  56. 56. malloc() • malloc()はカーネルとユーザアプリで共通のメ モリプールからメモリが割り当てられる • リクエストサイズ別に複数のプールを持つ(slab allocatorと同じ) • プールごとに最低1ページアロケート、足りな くなったらページを足す
  57. 57. mmap() • mmap()でanonymous mapping要求を受けた らリクエストサイズ分のページを割り付け • file mappingの場合はZFSへmmap要求 FreeBSD版ZFSのコードがbuffer cacheを管理
  58. 58. Shrinker • OSの残りメモリ量が少なくなった時に、アプリケーショ ン側から登録したコールバックを実行、アプリケーショ ンからメモリを解放 • 足りなくなったらOSへ返す事によりメモリ不足を回避 • JVMやbuffer cacheで使用 • 他のアプリからも使用可 (OSv版memcachedなどで実装されている)
  59. 59. JVM ballooning • OS起動時にほぼ全てのメモリをJVMヒープに割り当て • OS側のメモリが足りなくなってきたらShrinkerを使っ て通知、Java側でByteArrayを作成し(GC対策)、 この領域をOS側へ返還 • OSが使わないメモリ領域は引き続きJava側が使用出 来る • JVM自体のコードは無変更
  60. 60. buffer cache shrinking • JVMと同じくShrinkerの通知を受けてbuffer cacheをリリース、メモリをOSに返還
  61. 61. 3, アプリの移植
  62. 62. Hello Worldの例 hello.cc #include iostream int main() { std::cout Hello, world! std::endl; }
  63. 63. Hello Worldの例: Makefile CXXFLAGS = -g -Wall -std=c++11 -fPIC $(INCLUDES) TARGET = hello OBJ_FILES = hello.o all: $(TARGET).so %.o: %.cc $(CXX) $(CXXFLAGS) -c -o $@ $ $(TARGET).so: $(OBJ_FILES) $(CXX) $(CXXFLAGS) -shared -o $(TARGET).so
  64. 64. Hello Worldの例: Capstanfile base: cloudius/osv-base cmdline: /tools/hello.so build: make files: /tools/hello.so: hello.so
  65. 65. Hello World on Javaの移植 Hello.java public class Hello { public static void main(String[] args) { System.out.println(Hello, World!); } }
  66. 66. Hello World on Javaの移植 Makefile module: Hello.class %.class: %.java javac $^ clean: rm -rf *.class
  67. 67. Hello World on Javaの例: Capstanfile base: cloudius/osv-openjdk cmdline: /java.so Hello build: make files: /Hello.class: Hello.class
  68. 68. mrubyの移植 build_config.rbを以下のように変更 MRuby::Build.new do |conf| # load specific toolchain settings toolchain :gcc ! # C compiler settings conf.cc do |cc| cc.flags -O0 -fPIC -Wall end
  69. 69. memcachedの移植 • SASLを無効化 • -fpieでビルド
  70. 70. MySQLの移植 • rootでの実行を拒否してmysqlユーザに切り替 える処理をコメントアウト • ファイルのパーミッションをチェックしてworld writableな場合実行を拒否する処理をコメントア ウト • -fPIC -sharedでビルド
  71. 71. CRubyの移植 • libc関数を25個追加(うちスタブ1/3) • obstackライブラリのスタティックリンク • ./configureによるフラグ設定の調整 • OpenSSLのビルド・スタティックリンク
  72. 72. Ruby on Rails on CRubyの 移植 • Bundlerが依存パッケージの解決のためRails実行 時にgemコマンドを実行するのでOSvでは動かな い • Bundlerによるライブラリロードを全削除 • 手動でパッケージ群をrequire • 全てのgemをデプロイ用ディレクトリにダウンロー ドしてきてOSvのファイルシステムへコピー
  73. 73. 4, 国内コミュニティ活 動
  74. 74. OSvもくもく会 @ 東京 • ほぼ月一開催 • 皆でOSvで色々なアプリを動かそうとしてみる • バグが出たら僕がその場で直す • 次回は11月9日
  75. 75. OSC • 関西と関東のOSCに出展 • 次回は10/19日(日)

×