SlideShare a Scribd company logo
1 of 23
Download to read offline
山口陽平
有限会社 来栖川電算
  2011.10.29
目次
                
 自己紹介
 Amazon AWS をどのように活用しているか?
    来栖川電算の開発環境
    大学病院用データマイニング環境
    広告企業用データマイニング環境
    組込企業用データマイニング環境
    タンゴチュウ
 AWS 活用ポイント
 参考資料
山口陽平
    自己紹介
 プログラミング言語・型理論の研究者 
  世界を美しく記述することを夢見る33歳
  人を驚かせてなんぼ
    Nativeコードより速いPure Javaコード
    1日でHaskellを作る
    ハードリアルタイムJava VM
    1000台以上のサーバで構成されるペタバイ
     ト級分散データベース
    PC上で1000万クエリ/秒を達成するKVS
 来栖川電算
  名古屋工業大学発(2003年設立)
  ソフトウェアの品質・生産性の向上
  IPA未踏ソフト経験者(を多数輩出)
                                 ※あくまでもイメージです。
                                 実物に髪の毛はありません。
Amazon AWS をどのように活用しているか?

 来栖川電算の開発環境
      




 誰でも、いつでも、どこでも同じ環境で開発可能
 全ての情報をサーバへ蓄積・いつでも復元可能
Amazon AWS をどのように活用しているか?

来栖川電算の開発環境
     




 EC2によりユーザ・お客様への提供手続きが簡素化
 スクリプトによりデータ量を減らしつつ一貫性を維持
Amazon AWS をどのように活用しているか?

大学病院用データマイニング環境
            




 Hadoopによる冗長化で高アベイラビリティ
 Pig+UDFにより手軽で自由な分析をサポート
Amazon AWS をどのように活用しているか?

 広告企業用データマイニング環境
              




 最新手法でビッグデータを分析し、ニーズ・施策の発掘
 分析期間・分析対象は何十倍にも増える予定
Amazon AWS をどのように活用しているか?

組込企業用データマイニング環境
              




 様々なアルゴリズムが並列計算に対応し始めている。
 スポットでしか分析しないなら AWS は非常に安い。
Amazon AWS をどのように活用しているか?

   タンゴチュウ
      
  状態を持たないように実現すれば安上がり、
アベイラビリティ・スケーラビリティもついてくる。
情
                     文   景
                         画
                    字   像
                         か
                     認   ら
                     識   の

                     サ
                     ー
http://tangochu.jp   ビ
説明前に宣伝させて!
                     ス
タンゴチュウとは?
               
 写真(情景画像)から単語を抽出
   例えば メニュー チラシ お菓子のパッケー
   ジ レシート 名刺 看板 …
情景画像の文字認識とは?

     
情景画像の文字認識とは?

     
情景画像の文字認識とは?
             
 従来のOCRとは戦場が違う
  悪環境下での文字認識
   手書き・様々な書体・かすれ・点描・きつい
    パース・統一性のない並び・逆光・陰・影・
    グラデーション・モアレなど




   目指すはこんなかっこいい世界!
タンゴチュウ for Twitter
            
 手軽に文字認識を体験できる!


       @tcfox
タンゴチュウ for Evernote
            
 写真の検索・整理に役立つ!
宣伝終了
   




 見てくれてありがとう!
Amazon AWS をどのように活用しているか?

タンゴチュウ for Twitter
              




 Twitterのタイムラインが文字認識ジョブのキューとなる。
 タイムラインのクロールだけなので負荷の心配はない。
Amazon AWS をどのように活用しているか?

タンゴチュウ for Evernote
             




 Evernoteのノートでジョブを管理する。
 人手によるポーリングなので負荷がかかりにくい。
Amazon AWS をどのように活用しているか?

      recognize.jp
           
タンゴチュウが活用するNTTドコモ製文字認識API
   行画像文字認識:大量のリクエストを迅速に処理
  情景画像文字認識:長時間処理の終了を効率的に伝達



    WebAPI の利用申請もしてるぞ!
Amazon AWS をどのように活用しているか?

        recognize.jp
              




 単一障害点なし   ⇒ 高アベイラビリティ
 完全非同期     ⇒ 高スケーラビリティ
 失敗を前提     ⇒ インスタンスをいつでも終了可能
AWS 活用ポイント
        
 おすすめの状況
  インターネット越しの環境共有
  本番環境調達前の検証
  大規模で一時的もしくは予測困難なスケールの確保
 必要なこと
  スクリプトによる再現・デプロイの自動化
  勝手に終了させられることが前提
 推奨すること
  帯域・セッション数・セッション維持時間を節約でき
   る非同期なアーキテクチャ
参考資料
                  
 hadoop
   http://hadoop.apache.org/
   【UG】http://hugjp.org/
 mahout
   http://mahout.apache.org/
   【UG】https://sites.google.com/site/mahoutjp/
 タンゴチュウ
   http://tangochu.jp/

More Related Content

More from 陽平 山口

More from 陽平 山口 (20)

NGK2022S
NGK2022SNGK2022S
NGK2022S
 
KCI PROFILE 2021-10-07
KCI PROFILE 2021-10-07KCI PROFILE 2021-10-07
KCI PROFILE 2021-10-07
 
JAWSUG 20210128
JAWSUG 20210128JAWSUG 20210128
JAWSUG 20210128
 
AWS Webinar 20201224
AWS Webinar 20201224AWS Webinar 20201224
AWS Webinar 20201224
 
SIAI2020
SIAI2020SIAI2020
SIAI2020
 
MISO20200530
MISO20200530MISO20200530
MISO20200530
 
ML@Loft 20200430
ML@Loft 20200430ML@Loft 20200430
ML@Loft 20200430
 
JAWS FESTA 20191102
JAWS FESTA 20191102JAWS FESTA 20191102
JAWS FESTA 20191102
 
JAWSUG 20191028 (modified)
JAWSUG 20191028 (modified)JAWSUG 20191028 (modified)
JAWSUG 20191028 (modified)
 
JAWSUG 20191028
JAWSUG 20191028JAWSUG 20191028
JAWSUG 20191028
 
JAWSUG 20190828
JAWSUG 20190828JAWSUG 20190828
JAWSUG 20190828
 
AI Utilization Seminar 20190709
AI Utilization Seminar 20190709AI Utilization Seminar 20190709
AI Utilization Seminar 20190709
 
JAWSUG 20190620
JAWSUG 20190620JAWSUG 20190620
JAWSUG 20190620
 
JAWS DAYS 2019
JAWS DAYS 2019JAWS DAYS 2019
JAWS DAYS 2019
 
JAWS FESTA 2018 OSAKA AHAB
JAWS FESTA 2018 OSAKA AHABJAWS FESTA 2018 OSAKA AHAB
JAWS FESTA 2018 OSAKA AHAB
 
JAWS FESTA 2018 OSAKA KCI SESSION
JAWS FESTA 2018 OSAKA KCI SESSIONJAWS FESTA 2018 OSAKA KCI SESSION
JAWS FESTA 2018 OSAKA KCI SESSION
 
NAGOSUTA 20181020
NAGOSUTA 20181020NAGOSUTA 20181020
NAGOSUTA 20181020
 
JAWSUG20180925
JAWSUG20180925JAWSUG20180925
JAWSUG20180925
 
Nagoya Career Meetup 2018夏
Nagoya Career Meetup 2018夏Nagoya Career Meetup 2018夏
Nagoya Career Meetup 2018夏
 
Annotation Meetup 20180705
Annotation Meetup 20180705Annotation Meetup 20180705
Annotation Meetup 20180705
 

来栖川電算におけるAmazonAWS活用事例 JAWSUG Nagoya勉強会 第2回 20111029

  • 2. 目次   自己紹介  Amazon AWS をどのように活用しているか?  来栖川電算の開発環境  大学病院用データマイニング環境  広告企業用データマイニング環境  組込企業用データマイニング環境  タンゴチュウ  AWS 活用ポイント  参考資料
  • 3. 山口陽平 自己紹介  プログラミング言語・型理論の研究者   世界を美しく記述することを夢見る33歳  人を驚かせてなんぼ  Nativeコードより速いPure Javaコード  1日でHaskellを作る  ハードリアルタイムJava VM  1000台以上のサーバで構成されるペタバイ ト級分散データベース  PC上で1000万クエリ/秒を達成するKVS  来栖川電算  名古屋工業大学発(2003年設立)  ソフトウェアの品質・生産性の向上  IPA未踏ソフト経験者(を多数輩出) ※あくまでもイメージです。 実物に髪の毛はありません。
  • 4. Amazon AWS をどのように活用しているか? 来栖川電算の開発環境   誰でも、いつでも、どこでも同じ環境で開発可能  全ての情報をサーバへ蓄積・いつでも復元可能
  • 5. Amazon AWS をどのように活用しているか? 来栖川電算の開発環境   EC2によりユーザ・お客様への提供手続きが簡素化  スクリプトによりデータ量を減らしつつ一貫性を維持
  • 6. Amazon AWS をどのように活用しているか? 大学病院用データマイニング環境   Hadoopによる冗長化で高アベイラビリティ  Pig+UDFにより手軽で自由な分析をサポート
  • 7. Amazon AWS をどのように活用しているか? 広告企業用データマイニング環境   最新手法でビッグデータを分析し、ニーズ・施策の発掘  分析期間・分析対象は何十倍にも増える予定
  • 8. Amazon AWS をどのように活用しているか? 組込企業用データマイニング環境   様々なアルゴリズムが並列計算に対応し始めている。  スポットでしか分析しないなら AWS は非常に安い。
  • 9. Amazon AWS をどのように活用しているか? タンゴチュウ  状態を持たないように実現すれば安上がり、 アベイラビリティ・スケーラビリティもついてくる。
  • 10. 文 景 画  字 像 か 認 ら 識 の サ ー http://tangochu.jp ビ 説明前に宣伝させて! ス
  • 11. タンゴチュウとは?   写真(情景画像)から単語を抽出  例えば メニュー チラシ お菓子のパッケー ジ レシート 名刺 看板 …
  • 14. 情景画像の文字認識とは?   従来のOCRとは戦場が違う  悪環境下での文字認識  手書き・様々な書体・かすれ・点描・きつい パース・統一性のない並び・逆光・陰・影・ グラデーション・モアレなど 目指すはこんなかっこいい世界!
  • 15. タンゴチュウ for Twitter   手軽に文字認識を体験できる! @tcfox
  • 16. タンゴチュウ for Evernote   写真の検索・整理に役立つ!
  • 17. 宣伝終了   見てくれてありがとう!
  • 18. Amazon AWS をどのように活用しているか? タンゴチュウ for Twitter   Twitterのタイムラインが文字認識ジョブのキューとなる。  タイムラインのクロールだけなので負荷の心配はない。
  • 19. Amazon AWS をどのように活用しているか? タンゴチュウ for Evernote   Evernoteのノートでジョブを管理する。  人手によるポーリングなので負荷がかかりにくい。
  • 20. Amazon AWS をどのように活用しているか? recognize.jp  タンゴチュウが活用するNTTドコモ製文字認識API 行画像文字認識:大量のリクエストを迅速に処理 情景画像文字認識:長時間処理の終了を効率的に伝達 WebAPI の利用申請もしてるぞ!
  • 21. Amazon AWS をどのように活用しているか? recognize.jp   単一障害点なし ⇒ 高アベイラビリティ  完全非同期 ⇒ 高スケーラビリティ  失敗を前提 ⇒ インスタンスをいつでも終了可能
  • 22. AWS 活用ポイント   おすすめの状況  インターネット越しの環境共有  本番環境調達前の検証  大規模で一時的もしくは予測困難なスケールの確保  必要なこと  スクリプトによる再現・デプロイの自動化  勝手に終了させられることが前提  推奨すること  帯域・セッション数・セッション維持時間を節約でき る非同期なアーキテクチャ
  • 23. 参考資料   hadoop  http://hadoop.apache.org/  【UG】http://hugjp.org/  mahout  http://mahout.apache.org/  【UG】https://sites.google.com/site/mahoutjp/  タンゴチュウ  http://tangochu.jp/