Your SlideShare is downloading. ×
基調講演:「多様化する情報を支える技術」/西川徹
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

基調講演:「多様化する情報を支える技術」/西川徹

3,624
views

Published on

PFIオープンセミナー2012「多様化する情報を支える技術」 …

PFIオープンセミナー2012「多様化する情報を支える技術」
2012年9月21日(金)実施
≪概要≫ビッグデータ分析の対象は、人が生み出すデータから、機械が自動的に生み出すデータへとシフトしつつある。そうなると、データが生まれるスループットは桁違いに大きくなり、また、データの種類は多様性を極めるようになる。データ処理アーキテクチャも、データ処理手法も、大きく進化する必要がある。増え行くデータの量・多様性に対して、技術者としてどう取り組むべきか、実例を交えながら概説する。


0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,624
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
35
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 多様化する情報を支える技術西川 徹株式会社Preferred Infrastructure代表取締役nishikawa@preferred.jp
  • 2. セミナー内容のツイート大歓迎! ハッシュタグ #pfiopen2012 2
  • 3. 自己紹介&会社紹介3
  • 4. 自己紹介 2006年 Preferred Infrastructure(PFI)を創業 - 大学の友人、ICPCの仲間と6名で起業 - 最初は検索エンジンの開発を進める 現在、代表取締役として 会社の経営に関わる 4
  • 5. 朝9時の社内風景 5
  • 6. PFIのビジョン:PFIはどのような会社か? テクノロジーとサービス・プロダクトとの間のギャップを埋め テクノロジーが持つポテンシャルを最大限に引き出すこと 研究ベースの技術が想定しているものと実世界には大きな壁が存在する  アカデミックの第一線で研究しているリサーチャーと、アカデミックな研究を理解し、 実装・実用化できるエンジニアを集合させる  世の中に必要とされている技術の中でも、特に難しい課題を選び抜き、それに対する 解を提供していくこと Basic Technologies Products Academic Researches Services 6
  • 7. ビジョンを達成するためにベンチャーキャピタルに頼らない ⁃ 研究は多くのチャレンジがあって、よい研究ができる。製品開 発も同じ。多くのベンチャーキャピタルは、そのチャレンジを 表面的にしか許容しない。製品に繋がるビジネスにこだわる ‒ フルスクラッチでの受託開発は行わない。技術の多様性・人の多様性を重要視する ⁃ 1人では全分野を把握することは難しい。チーム・組織として の生産性を重要視する。もちろん、個々の能力がとても優れて いる上で。 7
  • 8. PFIの技術領域・ビジネス(概要)1.製品開発・販売  Sedue/Bazil/Jubatusというプロダクトを提供2.研究開発  自然言語処理  情報検索  データマイニング  機械学習  分散システム  データ構造、データ圧縮  Big Dataへの取り組み 8
  • 9. “人”が生み出すデータと “機械”が生み出すデータ9
  • 10. 大規模な「データ」に立ち向かうための、様々な技術が発展しつつある • 複雑なWeb • 構造化されていない情報 • 人が書いたコンテンツ • 大量の情報 中田敦氏 「“ビッグデータ”が話題になった理由」 10
  • 11. 桑名栄二氏「BigData処理技術とサイバーセキュリティ」 11
  • 12. データ活用の2つの潮流 12
  • 13. 「人」が生み出すデータを 活用する技術13
  • 14. 情報検索技術と大規模データ 大規模データに対し,自由にアクセスできる格納手段・ インデックス手法が必要 分散システムが必須だが、それをできるだけ管理に利用 可能にする データの大規模化だけでなく、多様化にも対応していく 「グローバル化する情報処理」
  • 15. 「ためる」「取り出す」だけでは不十分 ウェブ検索やECサイトは、多大なコストをかけてデー タを整理している‒ データを「整理」することは、自明ではない。‒ データ整理のコストが高いために、ほとんどの企業内検索エンジン は十分に活用されていない。 データの整理を、機械で支援する仕組みが必要 「先進ビッグデータ応用を支える機械学習に求められる新技術」 17
  • 16. 「整理」が面倒だから情報共有がうまくいかず、情報検索がうまく機能しない アップロードの手間は、無視できない 社内での情報共有の場合は、どこに、どのようなメタ情 報をつけアップロードするかを考えて、アップロードす る必要がある それを考えるのはめんどくさい、、、 →形だけの情報共有になってしまう 情報アップロードを加速するために、 技術で支援する 18
  • 17. 文書をアップロードしたい!19
  • 18. アップロードしたいファイルを、 ブラウザにドラッグ&ドロップ 20
  • 19. どこのフォルダ・サーバーに配置すべきか、 ツールが自動的に判断 21
  • 20. 文書に付与されるべきタグを 自動的に判断して付与する 22
  • 21. 「機械」が生み出すデータを 活用する技術23
  • 22. データの大規模化と共に解析の高度化が重要に Complex Event Processing(センサデータ等のリアルタイム処理) 大規模データウェアハウス・Hadoop(分散処理)では、集計・ルール 処理・単純な統計処理が主要な利用方法 より高度な解析(分類・予測・マイニング)へシフト 差別化要素として機械学習・統計の高度な解析の導入が重要 - 機械学習の利用は当たり前になってきた
  • 23. 一方、デバイスの性能向上により集まるデータは爆発的に増加する 【監視カメラ】 動画、静止画などの画像データ 【次世台シーケンサー】 ゲノムデータなど 【モバイル】 【生体情報モニター】 音声データ、位置情報、 心拍数、血圧、体温などメールのテキスト情報など 丸山宏氏 「ITアーキテクチャはどこへ向かうのか」 25
  • 24. 2つの課題を解決するには? データをすべて集めることは不可能 高度な分析を、省スペース・少ない計算量で 実現する必要がある 26
  • 25. 分析処理のオンライン化・ストリーム化 27
  • 26. 大規模・リアルタイムな機械学習を実現する 28
  • 27. 理想的なアーキテクチャ データの整理を、機械で支援する仕組みが必要 「先進ビッグデータ応用を支える機械学習に求められる新技術」 29
  • 28. まとめとこれからの展望30
  • 29. まとめ ウェブの技術は、大規模データを活用するための技術を 大きく進展させた ‒ その対象の大部分は、人が作り出したデータ 近年のビッグデータブームで、機械が生み出すデータに も注目が集まっている ‒ データをとる仕組みは前からあったが、それを大量に集めると ウェブで起きたような Something Great ができるかもという 期待感 31
  • 30. まとめ 人が生み出すデータと機械が生み出すデータは、データ の性質も生成されるスループットも異なる ‒ 必要な技術は異なり、課題も当然異なる 人が生み出すデータは、格納することは容易になった しかし、どうやって整理するかは大きな課題 ‒ だから、エンタープライズ検索もうまくいかない 機械が生み出すデータは、Edge-Heavyになりつつある ‒ 貯めずにリアルタイムに処理をする、データを生のまま交換し ない、ということがキーとなる 32
  • 31. Copyright © 2006-2012Preferred Infrastructure All Right Reserved.