本日のアジェンダ
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 1
01 データ+AIトレンド
02 モダンデータスタック概要
03 Databricks概要
04 注目セッション
05 注目のスタートアップ
所属:双日テックイノベーション株式会社
 日商エレクトロニクス株式会社が社名変更しました!
名前:藤村 智史 – Satoshi Fujimura -
職種:Data & AI製品担当
業務:マーケティング
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 2
Key Findings
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 3
• データ+AIの民主化における課題
• AIの活用まで至っている企業はまだまだ少ない
• データの品質管理、セキュリティへの懸念、
統合の難しさ、既存環境の変更の難しさなどが挙げられる
• エコシステム vs One Platform
• モダンデータスタックはデータレイクを中心とするエコシステム
• Databricks社のような大手が、各領域に手を広げつつある
• データ+AI活用例、大規模データの移行例
• テキサスレンジャーズのワールドシリーズ制覇の背景にはデータ活用があった!?
• General MotorsのDigital Insight Factory構築事例
• 通信事業者、金融事業者のペタバイトクラスのデータ基盤構築
における工夫
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 4
データ+AIトレンド
• COVID-19の影響やDXの加速により2021年に投資がピークをむかえる($3.7Bn~$4.8Bn)
• データサイエンスプラットフォームは投資件数、投資金額ともに減ってきているが、AI投資が盛んな現在においてAI開発プラット
フォーム市場は投資額が増えている
• データ基盤を提供している企業がAI開発に領域を広げていることが直近の市場の特徴であり、下のグラフからも読み取れる
投資トレンド
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 5
データサイエンスプラットフォーム AI開発プラットフォーム
Source:https://app.cbinsights.com/market-report/1307?tab=overview
Source:https://app.cbinsights.com/market-report/763
データ+AIトレンド
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 6
Source: https://sloanreview.mit.edu/article/five-key-trends-in-ai-and-
data-science-for-2024/ (2024年1月9日)
o 生成AIを本番環境に導入している企業はわずか5~6%。
追加投資や組織変更、ビジネスプロセスの再設計、従業員の
スキル再習得が必要
o データの品質改善と多様なソースの統合が大きな課題であり、
半数以上の企業はデータに変更を加えていない
o データモデルの作成が自動化され、既存データセットやモデ
ルの再利用が容易になっている
2024年のAIとデータ サイエンスにおける
主要トレンド
データ+AIトレンド
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 7
Source:
https://services.google.com/fh/files/misc/data_ai_trends_report.pdf
(2024年5月9日)
o 成果の出せるAIの実装にはデータガバナンスが特に重要
o モデルと運用データベースおよびベクトルサポートが相まっ
て、リアルタイムで高度にパーソナライズされ、コンテキス
トに関連性の高い体験を提供可能となる
o ライセンス契約の制限が時代遅れ。オープンソーステクノロ
ジーを利用する方向に経営者の視点がシフトしつつある
データとAIのトレンド 2024
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 8
モダンデータスタック概要
モダンデータスタック概要
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 9
Source Ingestion Storage Delivery / Output
各アプリ
イベント収集
メタデータ管理 / データカタログ データ品質の監視 セキュリティ
ガバナンス
コネクタ
オーケストレーション
ストレージ BIダッシュボード
機械学習
データプロセッシング
(Open Source)
Stream
Processing
モデリング
(メトリック)
データレイク
イベントストリーミング
ELT/ETL
マスターデータ管理 その他
(広範囲に領域をカバー)
コネクタ
リバース ETL
ユースケースに見るモダンデータスタックの有効性(小売業の例) 1/3
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 10
ELT/ETL リバースETL
データプロセッシング
イベント収集
店舗POS、CRM、広告プラット
フォームなど異なるシステムから
データを効率的に取得し、BI基盤に
分析可能な形で取り込みたい。
BI基盤とアプリ間のコネクタの開
発・運用は最低限のリソースで取り
組みたい
ECサイトを構築・運用するECストア
の機能が限定的で、特定のページに
訪問したかどうかぐらいしかわから
ない。ECサイトを訪れたカスタマー
の行動データをしっかり集めて分析
に役立てたい
ETLツールを導入するつもりだが、
Transformation(変換)の部分は
dbtを活用したい
BI基盤のデータは営業チームのCRM
でも活用したい。また使いたいデー
タが利用可能になったら、ツールに
送信するだけでなく、Slackで外回り
の営業メンバーに即座に知らせたい
ユースケースに見るモダンデータスタックの有効性(小売業の例) 2/3
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 11
機械学習
ダッシュボード
データのパイプラインはETLツール、
リバースETLツールなど複数の製品
の組み合わせで行えることがわかっ
てきた。各パイプラインのジョブの
実行順、スケジュール設定などを統
合的に管理したい
表面的な情報の裏に隠れた大きな問
題の発見が困難。チャートを一つ一
つ操作して分析するのも限界がある。
また、チャートを作りすぎて、どこ
に何があるのかわからなくなるなど
実際の運用には問題がある
生成AIを使って、業務の生産性を高
めたい。モデルのトレーニングに蓄
積したデータを活用したい
オーケストレーション
ユースケースに見るモダンデータスタックの有効性(小売業の例) 3/3
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 12
メタデータ管理
データカタログ セキュリティガバナンス
データ品質の監視
マスターデータ管理
BI基盤上に作られたデータセットは
皆がわかる形で提供しないと、活用
できない。「知っている人だけが
知っている」状態では宝の持ち腐れ
となってしまう
各システムが顧客データベースを
持っている。システムによっては、
古いデータが含まれており、トラブ
ルのもとになっている。顧客情報を
一カ所で集約して神様データを作り
たい。
データ処理の複雑性が増し、データ
が大容量化、多様性が拡大する中、
データパイプラインのモニタリング
とトラブルシューティングを効率的
にやりたい
ビジネス上の機密情報を守ることは
もちろん、顧客の個人情報の取り扱
いに慎重にならざるを得ない。最新
の法規制に対応する必要がある。そ
の際、ツールを導入して対応不備が
ないようにしたい。
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 13
Databricks概要
Databricks概要
• カンファレンス
Data + AI Summit2024
• 期間
2024年6月10日~6月13日
• 会場
Moscone Convention Center
@サンフランシスコ
• 参加者
16,000名+
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 14
Data&AI活用の3つの課題
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 15
複雑化するデータ基盤とLakehouseの普及
セキュリティとガバナンスのプレッシャーへの対応
General IntelligenceからData Intelligenceへの移行
Data&AI活用の3つの課題
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 16
複雑化するデータ基盤とLakehouseの普及
セキュリティとガバナンスのプレッシャーへの対応
General IntelligenceからData Intelligenceへの移行
データ基盤は複雑を極める
複雑で、フォーマットもばらばら、コストも
増大
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 17
Data Lake
Data
Warehouse
Governance
Machine
Learning
BI
Data
Science
Generative
AI
Streaming
Orchestration
and ETL
18
AI
Data
Science
Data Warehouse
BI
Orchestration
and ETL
Streaming
Lakehouse
Delta Lake
お客様のクラウドストレージ内のあらゆるデータ
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 19
Centralized
governance
One copy
of data
Gen AI
Data Governance
Data Science/ML
Data warehouse
ETL, Data Pipeline
モダンデータスタックとの比較
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 20
モダンデータスタック Databricks
DWHツール
(Synapse, Exadata等)
データエンジニアツール
(Hadoop ETL)
BIツール
(Tableau等)
セキュリティツール
(Teradata組込み等)
ガバナンスツール
(Informatica等)
データサイエンスツール
(SAS等)
機械学習ツール
(SAS・DataRobot等)
ビッグデータ系ツール
(Cloudera等)
クラウド関係
(AWS / Azure / GCP等)
Databricks
DWH 機能
Databricks
Delta Live Table 機能
Databricks
SQL / ダッシュボード 機能
Databricks
Unity Catalog 機能
Databricks
Unity Catalog 機能
Databricks
Notebook / AutoML 機能
Databricks
Notebook / AutoML 機能
Databricks
AutoScale 機能
Databricks
on AWS/ Azure / GCP
要件ごとに様々なツールを比較検討し
繋ぎあわせるピタゴラスイッチ型
従量課金で必要箇所のみ利用し、
スモールスタートが可能
領域
データウェアハウス (DWH)
データエンジニアリング
ビジネスインテリジェンス (BI)
データセキュリティ
データガバナンス
データサイエンス
機械学習や人工知能 (AI)
ビッグデータプラットフォーム
クラウド
BI
の世界
AI
の世界
Data&AI活用の3つの課題
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 21
複雑化するデータ基盤とLakehouseの普及
セキュリティとガバナンスのプレッシャーへの対応
General IntelligenceからData Intelligenceへの移行
Data & AIにおいてセキュリティ・ガバナンスが必要
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 22
信頼性と正確性
• 異なる結果や誤った結論が導き
出される
データ管理コストの増加
• 重複データや冗長データの保管
コスト
• データ探し出すコスト
プライバシーとセキュリティ
• 個人情報や機密情報が意図せず
漏えいし、不正利用される
コンプライアンス違反
• 著作権などの権利を意図せず侵
害する
データ資産全体へのガバナンスが必要
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 23
モデル
レポート
テーブル
データコネク
タ
ダッシュボー
ド
ローデー
タ
データ品質の確保
アクセス権限・ポリシーの適用
外部の攻撃からの保護
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 24
Delta Lake
Unity Catalog
データ検索
データ共有
アクセス制限
監査
データ加工の履歴
モニタリング
データベース ファイル
AIモデル ノートブック ダッシュボード
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 25
26
AI
Data
Science
Data Warehouse
BI
Orchestration
and ETL
Streaming
LakeHouse
Delta Lake
Unity Catalog
OSSで提供
Data&AI活用の3つの課題
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 27
複雑化するデータ基盤とLakehouseの普及
セキュリティとガバナンスのプレッシャーへの対応
General IntelligenceからData Intelligenceへの移行
AIのモデルの精度はどんどん向上している
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 28
0
100
20
40
60
80
2019 2020 2021 2022 2023
Open Source vs. Private Models, 5-Shot MMLU Performance Private Open Source
Falcon 180
LlaMA 2
Flan-T5-XXL
LlaMA
DBRX
LlaMA 3
GPT-2.1.5B
GPT-3
PaLM 540B
GPT 3.5
Claude 3
GPT-4
Flan-PaLM 2
PaLM 2
Claude 2 GPT-4o
Now
“標準的なベンチマークはど
うでもいい、私のビジネス
でうまく使いたいのです。”
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 29
General IntelligenceからData Intelligenceへ
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 30
General Intelligence Data Intelligence
常識
広報活動
世界の宗教
音楽理論
人間の老化
南北戦争史
カスタマーサポートのケースは、顧客に
満足してもらえるように解決できたか?
XX支店の商圏で、FY24と比べて売上が下
がった商品は何か?
COVID-19が自社のAIモデルにどのような
影響を与えたか?
自社のデータをビジネスで使えていない現状
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 31
自社データは量が少ない
• 高い精度を維持し続けないとい
けない
• 有害なレスポンスを防止しない
といけない
自社独自のデータの定義・意味
• データの発見性、操作性、信頼
性などを担保し、だれでも使え
る
• パフォーマンス
自社のデータをAIで活用する
自社のデータをBIで活用する
自社のデータをAIで活用する
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 32
データ ビルド 評価
デプロイ ガバナンス
簡素化されたAIシステムと
RAG開発
企業データによるモデルの
チューニングとカスタマイ
ズ
スケーラブルなモデル、機
能、エージェントの提供
カスタマイズ可能なガード
レール
自動評価、
人間による評価
LLMトレーニングの
ためのデータ準備
ストリーミングデー
タ
データ、モデル、ツー
ルのガバナンス
データとモデル全体の
モニタリング
自社のデータをBIで活用する
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 33
ガバナンスを確保
だれでも自社データを分析できる
ようにする機能
自社のデータをBIで活用する
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 34
Azure Databricksの方が6.6倍速い
 Snowflake:15時間
 Azure Databricks: 2.3時間
0
2
4
6
8
10
12
14
16
Snowflake Azure Databricks
データロード時間
データロード時間
※1ドル145円の時
※一部理論値
Azure Databricksが
クラウドDWHの20%まで抑えられる
¥0
¥20,000
¥40,000
¥60,000
¥80,000
¥100,000
Snowflake Azure Databricks
コスト比較
ロードにかかった金額 クエリ実行にかかった金額 データ格納にかかった金額
合計:¥87,902
合計:¥24,534
ロード、クエリ実行、ストレージの
費用
https://contacts.sojitz-ti.com/DataAI_databircks_snowflake_verification.html
より
35
AI
Data
Science
Data Warehouse
BI
Orchestration
and ETL
Streaming
Data
Intelligence
Platform
Delta Lake
Unity Catalog
サーバレス
で提供
まとめ
7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 36
複雑化するデータ基盤とLakehouseの普及
セキュリティとガバナンスのプレッシャーへの対応
General IntelligenceからData Intelligenceへの移行
DatabricksはLakehouseのテクノロジーで、
ワンプラットフォームでData&AI活用のすべてを提供
Unity CatalogでData & AIのすべての資産に、統合ガバナンスを設定
自社データをビジネスで活用するための様々なサービスを提供
注目セッション
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 38
テキサスレンジャーズのデータ活用
成功の秘訣
• データ活用の勝利
選手の動作をトラッキングし、レコメンデーションを提供
データに基づくスカウティング戦略の実践
ファンとのリレーションシップ
• 10倍速い選手へのレポート提供
分散していたデータの統合を行い、サイロ化を解消
データ量は4倍に増加するも、インサイト提供の迅速化に成功
• データガバナンスが大きな課題
選手の機密情報(契約情報や医療記録)の管理
ユニティカタログを用いた包括的なガバナンス運用
Alexander Booth
Assistant Director of R&D
Texas Rangers Baseball Club
STATCAST概要
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 39
参考:https://www.youtube.com/watch?v=5qZfFth2o5c
データ取得のためのカメラやレーダーがスタジアムに設置されている 取得したデータをリアルタイム解析
テキサスレンジャーズが採用するデータ基盤
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 40
データを仕入れてから活用するまでの流れ
オープンソースエコシステムの利用
AIを用いた分析例
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 41
AI分析フロー図 打撃に関する分析や守備位置に関する分析
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 42
GMが立ち上げた「Data insight
Factory」とは?
• データのサイロ化と分析の効率化
データの深刻なサイロ化。毎年200人分の時間をデータ収集と
分析に費やす
15カ月前からデータインフラのクラウド化に着手。9カ月で
「Data Insight Factory」を完成させた。
• Data Insight Factoryの機能
顧客体験の向上、自動車の予知保全、安全性評価のためのデー
タを蓄積。来年には生成AIを実装予定
• 一元的な顧客ビューの実装
Amplifiesを活用したLakehouse CDPの実装
Brin Ames
Senior Manager Production AI Data
General Motors
顧客体験向上のためのデータ活用
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 43
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 44
世界最大の取引量を支える
データプラットフォームの構築
• 毎日1,568兆円の取引を行う企業を支えるデータ基盤
160か国、120以上の通貨、3ペタバイトのデータ処理
50以上のシステムとのさまざまな形式での接続
• クラウド移行の必要性を言及
レガシーシステムへの困難な対応
サービス収益化までの時間短縮
オープンなプラットフォームの構築
• 副次的な導入効果
プラットフォームを介したコミュニケーションの活性化
一元的な可視性の向上。イノベーティブな取組の促進に
つながる
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 45
物理インフラオペレーションからの解放
• デバイスのチップに直接AIを統合、クラウド連携
最新のスマホやPCには、AI機能が組み込まれ、Copilot機能を
提供している
• 自社が開発するCPU「Snapdragon」
サムスン、グーグル、ソニーやレノボなどの大手スマホ提供
企業とともにチップとクラウドの融合をメッセージ
• 自動車がコンピューティングプラットフォーム化
昨年の3月に初公開したコンセプトカーなどを通じて、
車のインテリジェンスを強化
Akshay Sharma
Databricks
Praveen Vemulapalli
AT&T
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 46
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 47
注目のスタートアップ
注目のスタートアップ
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 48
機械学習を用いたデータ
オブザーバビリティ
データパイプライン作成の
Copilot
カスタムアプリ開発、
ローコードプラットフォーム
グラフニューラルネットワーク
の簡単な実装
人間が生成したデータと
AIモデルのギャップを埋める
7/12/2024 49
社名
設立 2019年
本社 San Francisco, CA
従業員 57名
資金調達累計 $66.0M
評価額 非公開 / Series 不明
投資家
Sequoia Capital, Coatue, Point72
Ventures 他
チーム
Kyle Kirwan(CEO, Co-Founder)
• フロリダ大学で、産業エンジニア
リングを専攻
• Uber社で製品責任者を約6年間
務める
事業概要
• データの全体的な流れや変換過程をエンドツーエンドで可視
化。リアルタイムでデータの品質やパフォーマンスに関する
問題を検出する
• 高度なML機械学習による自動化された異常検知、詳細なリ
ネージ情報の提供、柔軟な価格体系に強みを持つ
• Union Bank、Unity、Zoom など大手企業も利用
Source : https://www.bigeye.com/
Bigeye(機械学習を用いたデータオブザーバビリティ)
All Copyrights reserved by Nissho Electronics USA Corp
7/12/2024 50
社名
設立 2017年
本社 Palo Alto, CA
従業員 137名
資金調達累計 $69.4M
評価額 非公開 / Series B
投資家 Insight Partners, SignalFire
チーム
Raj Bains(CEO, Founder)
• NVIDIA社の上級ソフトウェア
エンジニアを経験
• SQLやHadoop関連の製品開発を
行う企業で経験を積む。
事業概要
• データパイプラインの開発、実装、管理を行うためのロー
コード開発プラットローム。AIが設定を提案したり、自然言
語でQ&Aすることができるため、技術者でないユーザーでも
データパイプラインを開発・管理できる
• Databricksとの連携機能が充実
• 顧客にはJ&JやVISA、ドイツテレコムなど大企業が含まれる
Source : https://www.prophecy.io/
Prophecy(データパイプライン作成のCopilot)
All Copyrights reserved by Nissho Electronics USA Corp
7/12/2024 51
社名
設立 2021年
本社 New York, NY
従業員 50名
資金調達累計 $38.0M
評価額 $303.4M / Series A
投資家 Kleiner Perkins, Meritech Capital Partners
チーム
Brad Menezes(CEO, Co-Founder)
• データドッグでは、製品責任者と
して4年間勤務
• その後、Sequoia Capitalでは、
スカウトとして活躍する
事業概要
• 開発者がUIからドラッグアンドドロップ操作で簡単にレイク
ハウスやチケットシステムを連携させることができる
• Web3開発プラットフォームのAlchemy社は、本製品を
もちいて内部ツールを統合。顧客サポートチケットの
解決時間を50%短縮することに成功している
• 金融サービス事業者の開発者が利用しやすい機能が充実
Source : https://www.superblocks.com/
Superblocks(カスタムアプリ開発、ローコードプラットフォーム)
All Copyrights reserved by Nissho Electronics USA Corp
7/12/2024 52
社名
設立 2021年
本社 Mountain View, CA
従業員 49名
資金調達累計 $36.5M
評価額 $201.3 / Series B
投資家 Sequoia Capital, A Capital Group
チーム
Vanja Josifovski(CEO)
• PinterestのCTOを約4年間
務める
• その後、AirBnBのCTOを3年間
務める
事業概要
• グラフニューラルネットワーク技術を活用した高精度な予測
AIを簡単に実装することができる
• パーソナライゼーション、詐欺検出、マネーロンダリング防
止などに多く活用されている
• スタンフォード大学、ドルトムント大学の研究所とも提携。
研究基盤が他社との差別化要因となっている
Source : https://kumo.ai/
Kumo(グラフニューラルネットワークの簡単な実装)
All Copyrights reserved by Nissho Electronics USA Corp
7/12/2024 53
社名
設立 2022年
本社 Rocklin, CA
従業員 63名
資金調達累計 $65.0M
評価額 $230.0M / Series B
投資家 Menlo Ventures, Madrona Venture Group
チーム
Brian S. Raymond(CEO, Co-Founder)
• CIAに5年間勤務
• AI開発企業のPrimer.ai社の
政府部門の責任者を務める
事業概要
• PDFやPPTXなどの非構造化データをAIが読み取れる形式に
自動で変換する優れた機能を提供
• Hugging Faceとの連携もサポート。製品の使いやすさと
包括的な連携機能が特長
• 金融機関や政府機関を含む45,000以上の組織ですでに
利用されている
Source : https://unstructured.io/
Unstructured(人間が生成したデータとAIモデルのギャップを埋める)
All Copyrights reserved by Nissho Electronics USA Corp
End of document
7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 54

【日商USA】データ活用の最新トレンド解説セミナー ~ユースケースもご紹介~

  • 1.
    本日のアジェンダ 7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 1 01 データ+AIトレンド 02 モダンデータスタック概要 03 Databricks概要 04 注目セッション 05 注目のスタートアップ
  • 2.
    所属:双日テックイノベーション株式会社  日商エレクトロニクス株式会社が社名変更しました! 名前:藤村 智史– Satoshi Fujimura - 職種:Data & AI製品担当 業務:マーケティング 7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 2
  • 3.
    Key Findings 7/12/2024 AllCopyrights reserved by Nissho Electronics USA Corp 3 • データ+AIの民主化における課題 • AIの活用まで至っている企業はまだまだ少ない • データの品質管理、セキュリティへの懸念、 統合の難しさ、既存環境の変更の難しさなどが挙げられる • エコシステム vs One Platform • モダンデータスタックはデータレイクを中心とするエコシステム • Databricks社のような大手が、各領域に手を広げつつある • データ+AI活用例、大規模データの移行例 • テキサスレンジャーズのワールドシリーズ制覇の背景にはデータ活用があった!? • General MotorsのDigital Insight Factory構築事例 • 通信事業者、金融事業者のペタバイトクラスのデータ基盤構築 における工夫
  • 4.
    7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 4 データ+AIトレンド
  • 5.
    • COVID-19の影響やDXの加速により2021年に投資がピークをむかえる($3.7Bn~$4.8Bn) • データサイエンスプラットフォームは投資件数、投資金額ともに減ってきているが、AI投資が盛んな現在においてAI開発プラット フォーム市場は投資額が増えている •データ基盤を提供している企業がAI開発に領域を広げていることが直近の市場の特徴であり、下のグラフからも読み取れる 投資トレンド 7/12/2024 All Copyrights reserved by Nissho Electronics USA Corp 5 データサイエンスプラットフォーム AI開発プラットフォーム Source:https://app.cbinsights.com/market-report/1307?tab=overview Source:https://app.cbinsights.com/market-report/763
  • 6.
    データ+AIトレンド 7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 6 Source: https://sloanreview.mit.edu/article/five-key-trends-in-ai-and- data-science-for-2024/ (2024年1月9日) o 生成AIを本番環境に導入している企業はわずか5~6%。 追加投資や組織変更、ビジネスプロセスの再設計、従業員の スキル再習得が必要 o データの品質改善と多様なソースの統合が大きな課題であり、 半数以上の企業はデータに変更を加えていない o データモデルの作成が自動化され、既存データセットやモデ ルの再利用が容易になっている 2024年のAIとデータ サイエンスにおける 主要トレンド
  • 7.
    データ+AIトレンド 7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 7 Source: https://services.google.com/fh/files/misc/data_ai_trends_report.pdf (2024年5月9日) o 成果の出せるAIの実装にはデータガバナンスが特に重要 o モデルと運用データベースおよびベクトルサポートが相まっ て、リアルタイムで高度にパーソナライズされ、コンテキス トに関連性の高い体験を提供可能となる o ライセンス契約の制限が時代遅れ。オープンソーステクノロ ジーを利用する方向に経営者の視点がシフトしつつある データとAIのトレンド 2024
  • 8.
    7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 8 モダンデータスタック概要
  • 9.
    モダンデータスタック概要 7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 9 Source Ingestion Storage Delivery / Output 各アプリ イベント収集 メタデータ管理 / データカタログ データ品質の監視 セキュリティ ガバナンス コネクタ オーケストレーション ストレージ BIダッシュボード 機械学習 データプロセッシング (Open Source) Stream Processing モデリング (メトリック) データレイク イベントストリーミング ELT/ETL マスターデータ管理 その他 (広範囲に領域をカバー) コネクタ リバース ETL
  • 10.
    ユースケースに見るモダンデータスタックの有効性(小売業の例) 1/3 7/12/2024 AllCopyrights reserved by Nissho Electronics USA Corp 10 ELT/ETL リバースETL データプロセッシング イベント収集 店舗POS、CRM、広告プラット フォームなど異なるシステムから データを効率的に取得し、BI基盤に 分析可能な形で取り込みたい。 BI基盤とアプリ間のコネクタの開 発・運用は最低限のリソースで取り 組みたい ECサイトを構築・運用するECストア の機能が限定的で、特定のページに 訪問したかどうかぐらいしかわから ない。ECサイトを訪れたカスタマー の行動データをしっかり集めて分析 に役立てたい ETLツールを導入するつもりだが、 Transformation(変換)の部分は dbtを活用したい BI基盤のデータは営業チームのCRM でも活用したい。また使いたいデー タが利用可能になったら、ツールに 送信するだけでなく、Slackで外回り の営業メンバーに即座に知らせたい
  • 11.
    ユースケースに見るモダンデータスタックの有効性(小売業の例) 2/3 7/12/2024 AllCopyrights reserved by Nissho Electronics USA Corp 11 機械学習 ダッシュボード データのパイプラインはETLツール、 リバースETLツールなど複数の製品 の組み合わせで行えることがわかっ てきた。各パイプラインのジョブの 実行順、スケジュール設定などを統 合的に管理したい 表面的な情報の裏に隠れた大きな問 題の発見が困難。チャートを一つ一 つ操作して分析するのも限界がある。 また、チャートを作りすぎて、どこ に何があるのかわからなくなるなど 実際の運用には問題がある 生成AIを使って、業務の生産性を高 めたい。モデルのトレーニングに蓄 積したデータを活用したい オーケストレーション
  • 12.
    ユースケースに見るモダンデータスタックの有効性(小売業の例) 3/3 7/12/2024 AllCopyrights reserved by Nissho Electronics USA Corp 12 メタデータ管理 データカタログ セキュリティガバナンス データ品質の監視 マスターデータ管理 BI基盤上に作られたデータセットは 皆がわかる形で提供しないと、活用 できない。「知っている人だけが 知っている」状態では宝の持ち腐れ となってしまう 各システムが顧客データベースを 持っている。システムによっては、 古いデータが含まれており、トラブ ルのもとになっている。顧客情報を 一カ所で集約して神様データを作り たい。 データ処理の複雑性が増し、データ が大容量化、多様性が拡大する中、 データパイプラインのモニタリング とトラブルシューティングを効率的 にやりたい ビジネス上の機密情報を守ることは もちろん、顧客の個人情報の取り扱 いに慎重にならざるを得ない。最新 の法規制に対応する必要がある。そ の際、ツールを導入して対応不備が ないようにしたい。
  • 13.
    7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 13 Databricks概要
  • 14.
    Databricks概要 • カンファレンス Data +AI Summit2024 • 期間 2024年6月10日~6月13日 • 会場 Moscone Convention Center @サンフランシスコ • 参加者 16,000名+ 7/12/2024 All Copyrights reserved by Sojitz Tech‐Innovation 14
  • 15.
    Data&AI活用の3つの課題 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 15 複雑化するデータ基盤とLakehouseの普及 セキュリティとガバナンスのプレッシャーへの対応 General IntelligenceからData Intelligenceへの移行
  • 16.
    Data&AI活用の3つの課題 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 16 複雑化するデータ基盤とLakehouseの普及 セキュリティとガバナンスのプレッシャーへの対応 General IntelligenceからData Intelligenceへの移行
  • 17.
    データ基盤は複雑を極める 複雑で、フォーマットもばらばら、コストも 増大 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 17 Data Lake Data Warehouse Governance Machine Learning BI Data Science Generative AI Streaming Orchestration and ETL
  • 18.
    18 AI Data Science Data Warehouse BI Orchestration and ETL Streaming Lakehouse DeltaLake お客様のクラウドストレージ内のあらゆるデータ
  • 19.
    7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 19 Centralized governance One copy of data Gen AI Data Governance Data Science/ML Data warehouse ETL, Data Pipeline
  • 20.
    モダンデータスタックとの比較 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 20 モダンデータスタック Databricks DWHツール (Synapse, Exadata等) データエンジニアツール (Hadoop ETL) BIツール (Tableau等) セキュリティツール (Teradata組込み等) ガバナンスツール (Informatica等) データサイエンスツール (SAS等) 機械学習ツール (SAS・DataRobot等) ビッグデータ系ツール (Cloudera等) クラウド関係 (AWS / Azure / GCP等) Databricks DWH 機能 Databricks Delta Live Table 機能 Databricks SQL / ダッシュボード 機能 Databricks Unity Catalog 機能 Databricks Unity Catalog 機能 Databricks Notebook / AutoML 機能 Databricks Notebook / AutoML 機能 Databricks AutoScale 機能 Databricks on AWS/ Azure / GCP 要件ごとに様々なツールを比較検討し 繋ぎあわせるピタゴラスイッチ型 従量課金で必要箇所のみ利用し、 スモールスタートが可能 領域 データウェアハウス (DWH) データエンジニアリング ビジネスインテリジェンス (BI) データセキュリティ データガバナンス データサイエンス 機械学習や人工知能 (AI) ビッグデータプラットフォーム クラウド BI の世界 AI の世界
  • 21.
    Data&AI活用の3つの課題 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 21 複雑化するデータ基盤とLakehouseの普及 セキュリティとガバナンスのプレッシャーへの対応 General IntelligenceからData Intelligenceへの移行
  • 22.
    Data & AIにおいてセキュリティ・ガバナンスが必要 7/12/2024All Copyrights reserved by Sojitz Tech‐Innovation 22 信頼性と正確性 • 異なる結果や誤った結論が導き 出される データ管理コストの増加 • 重複データや冗長データの保管 コスト • データ探し出すコスト プライバシーとセキュリティ • 個人情報や機密情報が意図せず 漏えいし、不正利用される コンプライアンス違反 • 著作権などの権利を意図せず侵 害する
  • 23.
    データ資産全体へのガバナンスが必要 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 23 モデル レポート テーブル データコネク タ ダッシュボー ド ローデー タ データ品質の確保 アクセス権限・ポリシーの適用 外部の攻撃からの保護
  • 24.
    7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 24 Delta Lake Unity Catalog データ検索 データ共有 アクセス制限 監査 データ加工の履歴 モニタリング データベース ファイル AIモデル ノートブック ダッシュボード
  • 25.
    7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 25
  • 26.
  • 27.
    Data&AI活用の3つの課題 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 27 複雑化するデータ基盤とLakehouseの普及 セキュリティとガバナンスのプレッシャーへの対応 General IntelligenceからData Intelligenceへの移行
  • 28.
    AIのモデルの精度はどんどん向上している 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 28 0 100 20 40 60 80 2019 2020 2021 2022 2023 Open Source vs. Private Models, 5-Shot MMLU Performance Private Open Source Falcon 180 LlaMA 2 Flan-T5-XXL LlaMA DBRX LlaMA 3 GPT-2.1.5B GPT-3 PaLM 540B GPT 3.5 Claude 3 GPT-4 Flan-PaLM 2 PaLM 2 Claude 2 GPT-4o Now
  • 29.
  • 30.
    General IntelligenceからData Intelligenceへ 7/12/2024All Copyrights reserved by Sojitz Tech‐Innovation 30 General Intelligence Data Intelligence 常識 広報活動 世界の宗教 音楽理論 人間の老化 南北戦争史 カスタマーサポートのケースは、顧客に 満足してもらえるように解決できたか? XX支店の商圏で、FY24と比べて売上が下 がった商品は何か? COVID-19が自社のAIモデルにどのような 影響を与えたか?
  • 31.
    自社のデータをビジネスで使えていない現状 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 31 自社データは量が少ない • 高い精度を維持し続けないとい けない • 有害なレスポンスを防止しない といけない 自社独自のデータの定義・意味 • データの発見性、操作性、信頼 性などを担保し、だれでも使え る • パフォーマンス 自社のデータをAIで活用する 自社のデータをBIで活用する
  • 32.
    自社のデータをAIで活用する 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 32 データ ビルド 評価 デプロイ ガバナンス 簡素化されたAIシステムと RAG開発 企業データによるモデルの チューニングとカスタマイ ズ スケーラブルなモデル、機 能、エージェントの提供 カスタマイズ可能なガード レール 自動評価、 人間による評価 LLMトレーニングの ためのデータ準備 ストリーミングデー タ データ、モデル、ツー ルのガバナンス データとモデル全体の モニタリング
  • 33.
    自社のデータをBIで活用する 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 33 ガバナンスを確保 だれでも自社データを分析できる ようにする機能
  • 34.
    自社のデータをBIで活用する 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 34 Azure Databricksの方が6.6倍速い  Snowflake:15時間  Azure Databricks: 2.3時間 0 2 4 6 8 10 12 14 16 Snowflake Azure Databricks データロード時間 データロード時間 ※1ドル145円の時 ※一部理論値 Azure Databricksが クラウドDWHの20%まで抑えられる ¥0 ¥20,000 ¥40,000 ¥60,000 ¥80,000 ¥100,000 Snowflake Azure Databricks コスト比較 ロードにかかった金額 クエリ実行にかかった金額 データ格納にかかった金額 合計:¥87,902 合計:¥24,534 ロード、クエリ実行、ストレージの 費用 https://contacts.sojitz-ti.com/DataAI_databircks_snowflake_verification.html より
  • 35.
  • 36.
    まとめ 7/12/2024 All Copyrightsreserved by Sojitz Tech‐Innovation 36 複雑化するデータ基盤とLakehouseの普及 セキュリティとガバナンスのプレッシャーへの対応 General IntelligenceからData Intelligenceへの移行 DatabricksはLakehouseのテクノロジーで、 ワンプラットフォームでData&AI活用のすべてを提供 Unity CatalogでData & AIのすべての資産に、統合ガバナンスを設定 自社データをビジネスで活用するための様々なサービスを提供
  • 37.
  • 38.
    7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 38 テキサスレンジャーズのデータ活用 成功の秘訣 • データ活用の勝利 選手の動作をトラッキングし、レコメンデーションを提供 データに基づくスカウティング戦略の実践 ファンとのリレーションシップ • 10倍速い選手へのレポート提供 分散していたデータの統合を行い、サイロ化を解消 データ量は4倍に増加するも、インサイト提供の迅速化に成功 • データガバナンスが大きな課題 選手の機密情報(契約情報や医療記録)の管理 ユニティカタログを用いた包括的なガバナンス運用 Alexander Booth Assistant Director of R&D Texas Rangers Baseball Club
  • 39.
    STATCAST概要 7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 39 参考:https://www.youtube.com/watch?v=5qZfFth2o5c データ取得のためのカメラやレーダーがスタジアムに設置されている 取得したデータをリアルタイム解析
  • 40.
    テキサスレンジャーズが採用するデータ基盤 7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 40 データを仕入れてから活用するまでの流れ オープンソースエコシステムの利用
  • 41.
    AIを用いた分析例 7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 41 AI分析フロー図 打撃に関する分析や守備位置に関する分析
  • 42.
    7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 42 GMが立ち上げた「Data insight Factory」とは? • データのサイロ化と分析の効率化 データの深刻なサイロ化。毎年200人分の時間をデータ収集と 分析に費やす 15カ月前からデータインフラのクラウド化に着手。9カ月で 「Data Insight Factory」を完成させた。 • Data Insight Factoryの機能 顧客体験の向上、自動車の予知保全、安全性評価のためのデー タを蓄積。来年には生成AIを実装予定 • 一元的な顧客ビューの実装 Amplifiesを活用したLakehouse CDPの実装 Brin Ames Senior Manager Production AI Data General Motors
  • 43.
  • 44.
    7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 44 世界最大の取引量を支える データプラットフォームの構築 • 毎日1,568兆円の取引を行う企業を支えるデータ基盤 160か国、120以上の通貨、3ペタバイトのデータ処理 50以上のシステムとのさまざまな形式での接続 • クラウド移行の必要性を言及 レガシーシステムへの困難な対応 サービス収益化までの時間短縮 オープンなプラットフォームの構築 • 副次的な導入効果 プラットフォームを介したコミュニケーションの活性化 一元的な可視性の向上。イノベーティブな取組の促進に つながる
  • 45.
    7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 45 物理インフラオペレーションからの解放 • デバイスのチップに直接AIを統合、クラウド連携 最新のスマホやPCには、AI機能が組み込まれ、Copilot機能を 提供している • 自社が開発するCPU「Snapdragon」 サムスン、グーグル、ソニーやレノボなどの大手スマホ提供 企業とともにチップとクラウドの融合をメッセージ • 自動車がコンピューティングプラットフォーム化 昨年の3月に初公開したコンセプトカーなどを通じて、 車のインテリジェンスを強化 Akshay Sharma Databricks Praveen Vemulapalli AT&T
  • 46.
    7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 46
  • 47.
    7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 47 注目のスタートアップ
  • 48.
    注目のスタートアップ 7/12/2024 All Copyrightsreserved by Nissho Electronics USA Corp 48 機械学習を用いたデータ オブザーバビリティ データパイプライン作成の Copilot カスタムアプリ開発、 ローコードプラットフォーム グラフニューラルネットワーク の簡単な実装 人間が生成したデータと AIモデルのギャップを埋める
  • 49.
    7/12/2024 49 社名 設立 2019年 本社San Francisco, CA 従業員 57名 資金調達累計 $66.0M 評価額 非公開 / Series 不明 投資家 Sequoia Capital, Coatue, Point72 Ventures 他 チーム Kyle Kirwan(CEO, Co-Founder) • フロリダ大学で、産業エンジニア リングを専攻 • Uber社で製品責任者を約6年間 務める 事業概要 • データの全体的な流れや変換過程をエンドツーエンドで可視 化。リアルタイムでデータの品質やパフォーマンスに関する 問題を検出する • 高度なML機械学習による自動化された異常検知、詳細なリ ネージ情報の提供、柔軟な価格体系に強みを持つ • Union Bank、Unity、Zoom など大手企業も利用 Source : https://www.bigeye.com/ Bigeye(機械学習を用いたデータオブザーバビリティ) All Copyrights reserved by Nissho Electronics USA Corp
  • 50.
    7/12/2024 50 社名 設立 2017年 本社Palo Alto, CA 従業員 137名 資金調達累計 $69.4M 評価額 非公開 / Series B 投資家 Insight Partners, SignalFire チーム Raj Bains(CEO, Founder) • NVIDIA社の上級ソフトウェア エンジニアを経験 • SQLやHadoop関連の製品開発を 行う企業で経験を積む。 事業概要 • データパイプラインの開発、実装、管理を行うためのロー コード開発プラットローム。AIが設定を提案したり、自然言 語でQ&Aすることができるため、技術者でないユーザーでも データパイプラインを開発・管理できる • Databricksとの連携機能が充実 • 顧客にはJ&JやVISA、ドイツテレコムなど大企業が含まれる Source : https://www.prophecy.io/ Prophecy(データパイプライン作成のCopilot) All Copyrights reserved by Nissho Electronics USA Corp
  • 51.
    7/12/2024 51 社名 設立 2021年 本社New York, NY 従業員 50名 資金調達累計 $38.0M 評価額 $303.4M / Series A 投資家 Kleiner Perkins, Meritech Capital Partners チーム Brad Menezes(CEO, Co-Founder) • データドッグでは、製品責任者と して4年間勤務 • その後、Sequoia Capitalでは、 スカウトとして活躍する 事業概要 • 開発者がUIからドラッグアンドドロップ操作で簡単にレイク ハウスやチケットシステムを連携させることができる • Web3開発プラットフォームのAlchemy社は、本製品を もちいて内部ツールを統合。顧客サポートチケットの 解決時間を50%短縮することに成功している • 金融サービス事業者の開発者が利用しやすい機能が充実 Source : https://www.superblocks.com/ Superblocks(カスタムアプリ開発、ローコードプラットフォーム) All Copyrights reserved by Nissho Electronics USA Corp
  • 52.
    7/12/2024 52 社名 設立 2021年 本社Mountain View, CA 従業員 49名 資金調達累計 $36.5M 評価額 $201.3 / Series B 投資家 Sequoia Capital, A Capital Group チーム Vanja Josifovski(CEO) • PinterestのCTOを約4年間 務める • その後、AirBnBのCTOを3年間 務める 事業概要 • グラフニューラルネットワーク技術を活用した高精度な予測 AIを簡単に実装することができる • パーソナライゼーション、詐欺検出、マネーロンダリング防 止などに多く活用されている • スタンフォード大学、ドルトムント大学の研究所とも提携。 研究基盤が他社との差別化要因となっている Source : https://kumo.ai/ Kumo(グラフニューラルネットワークの簡単な実装) All Copyrights reserved by Nissho Electronics USA Corp
  • 53.
    7/12/2024 53 社名 設立 2022年 本社Rocklin, CA 従業員 63名 資金調達累計 $65.0M 評価額 $230.0M / Series B 投資家 Menlo Ventures, Madrona Venture Group チーム Brian S. Raymond(CEO, Co-Founder) • CIAに5年間勤務 • AI開発企業のPrimer.ai社の 政府部門の責任者を務める 事業概要 • PDFやPPTXなどの非構造化データをAIが読み取れる形式に 自動で変換する優れた機能を提供 • Hugging Faceとの連携もサポート。製品の使いやすさと 包括的な連携機能が特長 • 金融機関や政府機関を含む45,000以上の組織ですでに 利用されている Source : https://unstructured.io/ Unstructured(人間が生成したデータとAIモデルのギャップを埋める) All Copyrights reserved by Nissho Electronics USA Corp
  • 54.
    End of document 7/12/2024All Copyrights reserved by Nissho Electronics USA Corp 54

Editor's Notes

  • #2 では本編に入っていきます。本日はこのようなアジェンダで進めます。極力わかりやすくお伝えできればと思いますので、最後までお付き合いくださいますようお願いいたします。
  • #34 BIの部分においても、統合ガバナンスを効かせる機能が提供されます。 これにより、各ユーザーは適切なアクセス制限とデータ品質のもとでデータ分析を行うことができます。 また、全社員が自社データを活用できるようにするための様々な機能も提供されています。 今日はその中でも、自然言語でダッシュボードを作成する機能のデモを用意していますので、ご覧いただければと思います。 この画面はDatabricksのダッシュボードです。 下に表示されているアイコンをクリックしてレポートを作成します。 テキストボックスが出てくるので、そこに「会社ごとの売上」と入力します。そしてアイコンをクリックすると、、このように自動的にレポートが作成されました。 もうひとつレポートを作っていきます。 同じようにテキストボックスを表示させて、、今度は「商品ごとの売上」と入力し、アイコンをクリックします。 また別のレポートが生成されました。 これは、Databricksにデータを読み込ませた際、「会社」とか「売上」とか「商品」とか、われわれのビジネスにおけるデータの意味を理解し、解釈することで実現できています。 もちろんダッシュボードですので、絞り込みをしたり、作成したレポートを共有してコラボレーションしたりすることも可能です。 このほかにも、自然言語でレポートをより詳しく分析する機能なども提供されています。 ITの知識がない方でも簡単にデータ分析ができるため、こういった機能を活用してデータ活用をより広げていただければと思います。 。