来栖川電算におけるAmazon aws活用事例 jawsug_nagoya_20121006

2,340 views

Published on

来栖川電算では様々な場面でAWSを活用しています。その中の典型的な活用事例を「JAWS-UG – Nagoya 勉強会 第4回」で紹介しました。
開発環境の共有、hadoopやmahoutを使ったデータマイニング、タンゴチュウなど幅広い紹介となっています。AWSやhadoopの活用を検討している方の参考になれば幸いです。一部タンゴチュウなどの宣伝になっていますが、気にせず見てください。

0 Comments
8 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,340
On SlideShare
0
From Embeds
0
Number of Embeds
265
Actions
Shares
0
Downloads
21
Comments
0
Likes
8
Embeds 0
No embeds

No notes for slide

来栖川電算におけるAmazon aws活用事例 jawsug_nagoya_20121006

  1. 1. 有限会社 来栖川電算 山口陽平Japan AWS User Group Nagoya 勉強会 第4回 2012.10.06 好きなAWS:cc2.8xlarge
  2. 2. あじぇんだ  自己紹介 過去に紹介したAWS活用事例 タンゴチュウMobileの開発事例 今まさに取り組んでいること おまけ 参考文献
  3. 3. 自己紹介  山口陽平 来栖川電算
  4. 4. 山口陽平  プログラミング言語・型理論の研究者  世界を美しく記述することを夢見る0x22歳  名古屋工業大学大学院出身  未踏ソフトウェア経験 人を驚かせるのが好き  Nativeコードより速いJavaコード  1日でHaskellを作る  ハードリアルタイムJavaVM  1000台越え構成のペタバイト級分散DB  PC上で秒間1000万クエリ処理できるKVS ※あくまでもイメージです。 実物に髪の毛はありません。
  5. 5. 来栖川電算  概要  名古屋工業大学発ベンチャー(2003年) 目的  ソフトウェアの品質・生産性向上 スタッフ  役員3人・正社員7人・アルバイト9人  データ作成6人・メイド(家政婦)1人  IPA未踏ソフトウェア経験者多数 社風  職人・挑戦・自由 イオン千種  昼食・夕食・飲み会は無料 名大病院 が近い! 名工大の間
  6. 6. 来栖川電算:サービス  ソフトウェア開発支援  開発プロセス・ツールの改善  【例】アジャイルソフトウェア開発 ソフトウェア開発  超高性能・高品質・短納期  【例】ペタバイト級分散データベース(1000台以上) ソフトウェア技術研究  ビッグデータの分析(hadoop・pig・mahout)  【例】大学病院・広告企業・組込企業
  7. 7. 来栖川電算:製品・研究  BraidDB・BraidForm ⇒ 分散データベース タンゴチュウ ⇒ 情景画像文字認識
  8. 8. 来栖川電算:事業分野  インテリジェントUIで、ユーザのそばへ這いよる。
  9. 9. イ ン  テ リ ジ ェ ン http://tangochu.jp ト@tcfoxへ写真を呟くんだ! U I
  10. 10. インテリジェントUI情景画像文字認識 
  11. 11. インテリジェントUI情景画像文字認識 
  12. 12. インテリジェントUI 情景画像文字認識  従来のOCRとは戦場が違う  悪環境下での文字認識  手書き・様々な書体・かすれ・点描・きつい パース・統一性のない並び・逆光・陰・影・グ ラデーション・モアレなど 電脳コイルみたいな世界を作るぞ!
  13. 13. 過去に紹介したAWS活用事例  来栖川電算の開発環境大学病院用データマイニング環境広告企業用データマイニング環境組込企業用データマイニング環境
  14. 14. 過去に紹介したAWS活用事例 来栖川電算の開発環境  誰でも、いつでも、どこでも同じ環境で開発可能 全ての情報をサーバへ蓄積・いつでも復元可能
  15. 15. 過去に紹介したAWS活用事例来栖川電算の開発環境   EC2によりユー ザ・お客様への提 供手続きが簡素化  スクリプトにより データ量を減らし つつ一貫性を維持  データ作成などの 複雑なタスクのサ ポートが容易に
  16. 16. 過去に紹介したAWS活用事例大学病院用データマイニング環境  Hadoopによる冗長化で高アベイラビリティ Pig+UDFにより手軽で自由な分析をサポート
  17. 17. 過去に紹介したAWS活用事例 広告企業用データマイニング環境  最新手法でビッグデータを分析し、ニーズ・施策の発掘 分析期間・分析対象は何十倍にも増える予定
  18. 18. 過去に紹介したAWS活用事例組込企業用データマイニング環境  様々なアルゴリズムが並列計算に対応し始めている。 スポットでしか分析しないなら AWS は非常に安い。
  19. 19. 過去に紹介したAWS活用事例タンゴチュウ for Twitter  Twitterのタイムラインが文字認識ジョブのキューとなる。 タイムラインのクロールだけなので負荷の心配はない。
  20. 20. 過去に紹介したAWS活用事例タンゴチュウ for Evernote   Evernoteのノートでジョブを管理する。  人手によるポーリングなので負荷がかかりにくい。
  21. 21. 過去に紹介したAWS活用事例 recognize.jp  単一障害点なし ⇒ 高アベイラビリティ 完全非同期 ⇒ 高スケーラビリティ 失敗を前提 ⇒ インスタンスをいつでも終了可能
  22. 22. タンゴチュウMobile 開発事例  教育用プロジェクト
  23. 23. タンゴチュウMobile開発事例 どんなソフト? Androidアプリ:写真をevernoteへ送信(ついでに文字認識) Twitterとfacebookへも投稿するぞ。
  24. 24. タンゴチュウMobile開発事例 開発の目的  目的  見習いプログラマの教育用 見習いプログラマ  来栖川電算の抽象化技法(初級)研修を修了  Java・オブジェクト指向は分かる。  性能・保守性に関する気遣いができる。  Android・Webは初めて
  25. 25. タンゴチュウMobile開発事例 アーキテクチャ  スマホ  画像の投稿  認識状態管理ノート取得  認識状態管理ノートの表示 受付サーバ  画像処理  S3への画像追加  SQSへのジョブ追加  Evernoteへのノート投稿  Facebook・Twitterへの投稿  認識状態管理ノートのダウンロード 認識サーバ  SQSからのジョブ取得  S3からの画像取得  recognize.jpへの画像投稿  recognzie.jpからの認識結果取得  Evernoteのノートへ認識結果反映
  26. 26. タンゴチュウMobile開発事例 設計のポイント  受付サーバをELBでスケールアウト  画像処理に時間がかかる 受付サーバが各種SNSへアクセス  スマホからの通信を減らす  スマホへデータを返すときはzip化 認識サーバと受付サーバは別々に増減可能  認識に時間がかかることがある
  27. 27. タンゴチュウMobile開発事例 やって分かったこと  AWSは社員教育と相性が良い  ドキュメントが多い  ググれば大抵わかる  課題の参考資料を作らなくてよい  セットアップが減る  問題を起こす箇所が少ないので課題に専念できる  新人は環境構築でよくはまる  スムーズに使える  投入したデータを確認・編集しやすい  リソース調達に神経質にならなくてよい  そもそも安い  教育する社員数があらかじめ分かっていなくてもよい  課題の間だけリソースを確保すればよい
  28. 28. 今まさに取り組んでいること  機械学習パイプラインをEC2へ
  29. 29. 今まさに取り組んでいること 機械学習パイプライン  認識エンジンのパラメータ調整環境  文字認識の場合(大規模機械学習)  30タスク(8段) 2~3日/回(弊社最新マシン)
  30. 30. 今まさに取り組んでいることcc2.8xlargeを調べてみた  cc2.8xlarge(EC2最強インスタンス)  CPU:88ECU ← Xeon E5-2670(2.6GHz 8core)× 2個  試に使ったら400秒の処理が100秒で終わった!凄い!  MEMORY:60.5GB  STORAGE:1690GB  PRICE  ONDEMAND:時間 × 2.4$  RESERVED:年数 × 5000$ + 時間 × 0.361$  SPOT:時間 × 0.253$以上(すごく安くね?)  同等性能の自作マシン:40万円 + 時間 × 5円
  31. 31. 今まさに取り組んでいること 費用を比較してみた   1年ずっと使うなら自作が安い(スポット除く)  その前提正しい?  実験しない期間があるよね?  おそらくONDEMANDは割高  たくさんの実験を並行でしたいときもあるよね?  ONDEMANDかSPOT  SPOTが本当に安いのか調べてみよう!種類 1ヶ月 2ヶ月 3ヶ月 4ヶ月 5ヶ月 6ヶ月 7ヶ月 8ヶ月 9ヶ月 10ヶ月 11ヶ月 12ヶ月ONDEMAND 14万円 28万円 41万円 55万円 69万円 83万円 97万円 111万円 124万円 138万円 152万円 166万円RESERVED 42万円 44万円 46万円 48万円 50万円 52万円 55万円 57万円 59万円 61万円 63万円 65万円SPOT(0.253$/H) 1万円 3万円 4万円 6万円 7万円 9万円 10万円 12万円 13万円 15万円 16万円 17万円SPOT(0.506$/H) 3万円 6万円 9万円 12万円 15万円 17万円 20万円 23万円 26万円 29万円 32万円 35万円自作 40万円 41万円 41万円 41万円 42万円 42万円 43万円 43万円 43万円 44万円 44万円 44万円
  32. 32. 今まさに取り組んでいること 3ヶ月の落札価格推移  割と落札価格高い?  オンデマンドより高い金額で落札とか意味不明  使われていない期間も割とありそう。もう少し調査。
  33. 33. 今まさに取り組んでいること 1日の落札価格推移  きた!きたで!  1日の60%が最低落札価格  1日の90%が最低落札価格の2倍以内
  34. 34. 今まさに取り組んでいること 1日の落札価格推移  結論  cc2.8xlargeは速い。  普通のcore i7マシンの4倍  cc2.8xlargeのSPOTは安い。  自作の50%程度  1時間以内にセーブポイントまで進める工夫が必要 僕が使うので、みなさん使わないでください。
  35. 35. おまけ 宣伝とか
  36. 36. トライアル期間がどんどん延長されてるよ!どんどんしてね! recognize.jp  WebAPIで画像をPOSTするだけで文字認識  面倒なことは全部サーバでやってくれる!
  37. 37. 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.002011年06月2011年07月2011年08月2011年09月2011年10月2011年11月2011年12月2012年01月  毎月着実に成長している! 2012年02月2012年03月 recognize.jp2012年04月2012年05月2012年06月2012年07月2012年08月 精度 処理時間2012年09月 賢く速くなってる!
  38. 38. recognize.jp 新機能①  行の場所と色を高速に抽出(文字認識までしない)  抽出した行を背景色で塗り潰すと・・・
  39. 39. recognize.jp 新機能②  ユーザ単語辞書(正規表現)が指定できる!  「¥[0-9]+」を指定すると・・・
  40. 40. そういえば・・・ Mashup Awards 8  〆切近し、急げ!  ドコモ様の文字認識APIも審査対象!  企業賞とか狙い目かも
  41. 41. うつして翻訳  ドコモ様が10月11日にリリース!使おう!
  42. 42. スタッフ募集中!  様々な職種が必要  研究者・プログラマ・デザイナ・企画屋 様々な技術を活用  画像処理・信号処理  機械学習・データマイニング  様々な分野の数学  様々なプログラミング技術  様々なプラットフォーム 凄い技術者に育てるのでやる気がある方は連絡してね。  怖い人はいないので安心
  43. 43. 参考文献  リンクとか
  44. 44. 参考文献1  来栖川電算  http://kurusugawa.jp/ タンゴチュウ(情景画像文字認識サービス)  http://tangochu.jp/ recognize.jp(情景画像文字認識API)  http://recognize.jp/ うつして翻訳  http://ma8.mashupaward.jp/
  45. 45. 参考文献2  Mashup Awards 8  http://ma8.mashupaward.jp/ 変ゼミのロゴジェネレータ(THANKS!)  http://bkaclub.web.fc2.com/henzemi_gen.html
  46. 46. ご清聴ありがとうございました

×