基調講演:「多様化する情報を支える技術」/西川徹

5,309 views

Published on

PFIオープンセミナー2012「多様化する情報を支える技術」
2012年9月21日(金)実施
≪概要≫ビッグデータ分析の対象は、人が生み出すデータから、機械が自動的に生み出すデータへとシフトしつつある。そうなると、データが生まれるスループットは桁違いに大きくなり、また、データの種類は多様性を極めるようになる。データ処理アーキテクチャも、データ処理手法も、大きく進化する必要がある。増え行くデータの量・多様性に対して、技術者としてどう取り組むべきか、実例を交えながら概説する。

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
5,309
On SlideShare
0
From Embeds
0
Number of Embeds
2,044
Actions
Shares
0
Downloads
45
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

基調講演:「多様化する情報を支える技術」/西川徹

  1. 1. 多様化する情報を支える技術西川 徹株式会社Preferred Infrastructure代表取締役nishikawa@preferred.jp
  2. 2. セミナー内容のツイート大歓迎! ハッシュタグ #pfiopen2012 2
  3. 3. 自己紹介&会社紹介3
  4. 4. 自己紹介 2006年 Preferred Infrastructure(PFI)を創業 - 大学の友人、ICPCの仲間と6名で起業 - 最初は検索エンジンの開発を進める 現在、代表取締役として 会社の経営に関わる 4
  5. 5. 朝9時の社内風景 5
  6. 6. PFIのビジョン:PFIはどのような会社か? テクノロジーとサービス・プロダクトとの間のギャップを埋め テクノロジーが持つポテンシャルを最大限に引き出すこと 研究ベースの技術が想定しているものと実世界には大きな壁が存在する  アカデミックの第一線で研究しているリサーチャーと、アカデミックな研究を理解し、 実装・実用化できるエンジニアを集合させる  世の中に必要とされている技術の中でも、特に難しい課題を選び抜き、それに対する 解を提供していくこと Basic Technologies Products Academic Researches Services 6
  7. 7. ビジョンを達成するためにベンチャーキャピタルに頼らない ⁃ 研究は多くのチャレンジがあって、よい研究ができる。製品開 発も同じ。多くのベンチャーキャピタルは、そのチャレンジを 表面的にしか許容しない。製品に繋がるビジネスにこだわる ‒ フルスクラッチでの受託開発は行わない。技術の多様性・人の多様性を重要視する ⁃ 1人では全分野を把握することは難しい。チーム・組織として の生産性を重要視する。もちろん、個々の能力がとても優れて いる上で。 7
  8. 8. PFIの技術領域・ビジネス(概要)1.製品開発・販売  Sedue/Bazil/Jubatusというプロダクトを提供2.研究開発  自然言語処理  情報検索  データマイニング  機械学習  分散システム  データ構造、データ圧縮  Big Dataへの取り組み 8
  9. 9. “人”が生み出すデータと “機械”が生み出すデータ9
  10. 10. 大規模な「データ」に立ち向かうための、様々な技術が発展しつつある • 複雑なWeb • 構造化されていない情報 • 人が書いたコンテンツ • 大量の情報 中田敦氏 「“ビッグデータ”が話題になった理由」 10
  11. 11. 桑名栄二氏「BigData処理技術とサイバーセキュリティ」 11
  12. 12. データ活用の2つの潮流 12
  13. 13. 「人」が生み出すデータを 活用する技術13
  14. 14. 情報検索技術と大規模データ 大規模データに対し,自由にアクセスできる格納手段・ インデックス手法が必要 分散システムが必須だが、それをできるだけ管理に利用 可能にする データの大規模化だけでなく、多様化にも対応していく 「グローバル化する情報処理」
  15. 15. 「ためる」「取り出す」だけでは不十分 ウェブ検索やECサイトは、多大なコストをかけてデー タを整理している‒ データを「整理」することは、自明ではない。‒ データ整理のコストが高いために、ほとんどの企業内検索エンジン は十分に活用されていない。 データの整理を、機械で支援する仕組みが必要 「先進ビッグデータ応用を支える機械学習に求められる新技術」 17
  16. 16. 「整理」が面倒だから情報共有がうまくいかず、情報検索がうまく機能しない アップロードの手間は、無視できない 社内での情報共有の場合は、どこに、どのようなメタ情 報をつけアップロードするかを考えて、アップロードす る必要がある それを考えるのはめんどくさい、、、 →形だけの情報共有になってしまう 情報アップロードを加速するために、 技術で支援する 18
  17. 17. 文書をアップロードしたい!19
  18. 18. アップロードしたいファイルを、 ブラウザにドラッグ&ドロップ 20
  19. 19. どこのフォルダ・サーバーに配置すべきか、 ツールが自動的に判断 21
  20. 20. 文書に付与されるべきタグを 自動的に判断して付与する 22
  21. 21. 「機械」が生み出すデータを 活用する技術23
  22. 22. データの大規模化と共に解析の高度化が重要に Complex Event Processing(センサデータ等のリアルタイム処理) 大規模データウェアハウス・Hadoop(分散処理)では、集計・ルール 処理・単純な統計処理が主要な利用方法 より高度な解析(分類・予測・マイニング)へシフト 差別化要素として機械学習・統計の高度な解析の導入が重要 - 機械学習の利用は当たり前になってきた
  23. 23. 一方、デバイスの性能向上により集まるデータは爆発的に増加する 【監視カメラ】 動画、静止画などの画像データ 【次世台シーケンサー】 ゲノムデータなど 【モバイル】 【生体情報モニター】 音声データ、位置情報、 心拍数、血圧、体温などメールのテキスト情報など 丸山宏氏 「ITアーキテクチャはどこへ向かうのか」 25
  24. 24. 2つの課題を解決するには? データをすべて集めることは不可能 高度な分析を、省スペース・少ない計算量で 実現する必要がある 26
  25. 25. 分析処理のオンライン化・ストリーム化 27
  26. 26. 大規模・リアルタイムな機械学習を実現する 28
  27. 27. 理想的なアーキテクチャ データの整理を、機械で支援する仕組みが必要 「先進ビッグデータ応用を支える機械学習に求められる新技術」 29
  28. 28. まとめとこれからの展望30
  29. 29. まとめ ウェブの技術は、大規模データを活用するための技術を 大きく進展させた ‒ その対象の大部分は、人が作り出したデータ 近年のビッグデータブームで、機械が生み出すデータに も注目が集まっている ‒ データをとる仕組みは前からあったが、それを大量に集めると ウェブで起きたような Something Great ができるかもという 期待感 31
  30. 30. まとめ 人が生み出すデータと機械が生み出すデータは、データ の性質も生成されるスループットも異なる ‒ 必要な技術は異なり、課題も当然異なる 人が生み出すデータは、格納することは容易になった しかし、どうやって整理するかは大きな課題 ‒ だから、エンタープライズ検索もうまくいかない 機械が生み出すデータは、Edge-Heavyになりつつある ‒ 貯めずにリアルタイムに処理をする、データを生のまま交換し ない、ということがキーとなる 32
  31. 31. Copyright © 2006-2012Preferred Infrastructure All Right Reserved.

×