Advertisement

[de:code 2019 振り返り Night!] Data Platform

Azure Technologist at Microsoft
Jun. 10, 2019
Advertisement

More Related Content

Slideshows for you(20)

Similar to [de:code 2019 振り返り Night!] Data Platform(20)

Advertisement

More from Naoki (Neo) SATO(20)

Recently uploaded(20)

Advertisement

[de:code 2019 振り返り Night!] Data Platform

  1. de:code 2019 de:code 2019 振り返り Night! Sponsored by Qiita Data Platform 日本マイクロソフト株式会社 パートナー事業本部 Azureテクノロジスト 佐藤 直生 (Neo) - @satonaoki
  2. de:code 2019 基調講演
  3. ARM プロセッサ環境に最適化 Windows、Linux 双方をサポート 組み込みの時系列データ、AI 機能 クラウドからエッジまで 一貫したエクスペリエンスを提供
  4. データベース内のトランザクション データに 対する Spark の組み込みサポートを提供
  5. https://www.youtube.com/watch?v=DqQuXGjaE8c https://www.youtube.com/watch?v=GtVcDo1G8r8&t=7938
  6. $153 $286 $400 $0 $100 $200 $300 $400 Gigaom ベンチマーク レポート、2019 年 1 月、2019 年 3 月 $33 $48 $100 $0 $20 $40 $60 $80 $100
  7. de:code 2019 Data Platfrom トラック
  8. de:code 2019 Data Platfrom トラック (1)
  9. de:code 2019 Data Platfrom トラック (2)
  10. Build 2019 アップデート
  11. de:code 2019 DP10 Build 2019 Azure AI & Data Platform 最新アップデート 日本マイクロソフト株式会社 パートナー事業本部 Azureテクノロジスト 佐藤 直生 (Neo) - @satonaoki
  12. Build 2019 Azure AI & Data Platform 最新アップデート
  13. Azure Cosmos DB
  14. de:code 2019 Deep-dive in Azure Cosmos DB: Advanced topics on partitioning, data distribution and indexing DP06
  15. Overview of partitioning container 15,000 RUs physical partition 1 5,000 RUs physical partition 2 5,000 RUs Client application (write) Another client application (read) To read data efficiently, the app must provide the partition key of the documents it is requesting physical partition 3 5,000 RUs
  16. Partitioning dynamics Sri Tim Client application (write) Thomas Scenario 1 Now that it's re-balanced, we can keep inserting new data
  17. de:code 2019 DP52 Azure Cosmos DB AMA (Ask Me Anything, with engineering team) Luis Bosquez Program Manager Azure Cosmos DB @_lbosq Mark Brown Principal Program Manager Azure Cosmos DB @markjbrown マークブラウンルイスボスケス
  18. What's new in Azure Cosmos DB? Announcements from Build 2019 V3 SDK Easier management Portal, ARM, Roles Faster performance! For aggregates and lookups
  19. Frequently asked questions
  20. Azure SQL Database
  21. de:code 2019 DP07 そのオンプレの DB、どうやって Azure SQL Database へ移行しますか? ~Benesse 進研ゼミの事例~ 日本マイクロソフト デジタルトランスフォーメンション事業本部 クラウドソリューションアーキテクト 高木充弘 ベネッセコーポレーション デジタル開発部技術支援課 課長 山崎 能史 ベネッセコーポレーション デジタル開発部 シニアアーキテクト 植田 省司
  22. オンプレシステムの構成
  23. 最終構成決定 SQL Database P11 x 2台 上限4TBのため、 PaaS DBを2台使用 オンプレサーバ 35台を Azure側 9台で置き換え
  24. 移行した結果 • ランニングコストは 、障害 0件 • 高負荷時のスケールアップが容易に • 4月号の年間最大負荷期間も楽々クリア • DR対応 - 東日本リージョンの災害時は、西日本リージョンへ • 12時間で1時間前の状態に復旧 • GeoバックアップからのリストアにてSQL DBを復旧させるため、西日本 リージョン側ランニングコストは数万円/月 7 1
  25. まとめ 選定のポイント 障害を未然に 防ぐポイント 移行作業 成功のポイント • SQL DBはインフラ層の維持をしなくて良いので激楽 • 繁忙期・障害の時にスケールアップできる構成に • SSMAなどの既存ツール(+ナレッジ)を活用 • データ移行の方式をデータの質に着目して立案 • “監視の民主化” - 安定稼働させるために可視化と監視を
  26. de:code 2019 DP82 SQL Server のクラウド移行なら Azure SQL Database! AWS やオンプレミスからオンラインで移行しよう 日本マイクロソフト株式会社 山本 翔太
  27. Azure Database Migration Service とは ソースデータベース ターゲットデータベース 様々なソースDBから Azure に移行可能なサービス
  28. オンライン移行のながれ C1 C2 C3 1 A あ 2 B い 3 C う 準備 スキーマ移行 データ移行 切り替え C1 C2 C3C1 C2 C3 1 A あ 2 B い 3 C う aws C1 C2 C3 1 A あ 2 B い 3 C う C1 C2 C3 1 A あ 2 B い 3 C え C1 C2 C3 1 A あ 2 B い 3 C え A S
  29. de:code 2019 DP51 データベースはどうしよう? あなたにとって今、 最適な移行先をみんなで一緒に考えよう! NECソリューションイノベータ株式会社 プラットフォーム事業本部 サポートサービス事業部 データベースソフトウェアサービスグループ シニアマネージャー 太田 智行 株式会社システムサポート クラウドコンサルティング事業部 シニアマネージャー 山口 正寛 日本マイクロソフト株式会社 パートナー事業本部 パートナー技術統括本部 クラウド ソリューション アーキテクト 西村 栄次
  30. 某金融業様 DWH移行(移行前) Data Warehouse (Oracle) Oracle Oracle Oracle JOB管理ツール 処理の実行
  31. 某金融業様 DWH移行(移行後) Oracle Oracle Oracle Data Factory SQL Data Warehouse パイプライン パイプライン パイプライン パイプライン アクティビティ アクティビティ アクティビティ アクティビティ アクティビティ アクティビティ ⇒SQL DWによる柔軟なスケーラビリティ ⇒ETL処理もPaaSにより実現し、 高いスケーラビリティと可用性を実現 ⇒クラウド利用により初期費用はなし ⇒スモールスタートによる費用圧縮 ⇒ハードの調達無し ⇒約3か月でのリプレイスを実施
  32. 某製造業様 基幹システム(移行前-LIFT) SQL Server2016 西日本リージョン Always ON Azure VM ・災害対策 ・運用コスト↓ クラウド化 東日本リージョン
  33. 某製造業様 基幹システム(移行後-SHIFT) SQL Server2016 西日本リージョン Always ON Managed InstanceAzure VM 西日本リージョン Geoレプリケーション PaaS化 ⇒PaaS化により さらに運用コストを削減 ⇒Managed Instanceの 利用で容易な移行 ⇒Geoレプリケーションを利用
  34. データ分析 (Azure SQL Data Warehouse、 Azure Data Lake Storage)
  35. de:code 2019 DP05 最新 Azure Big Data デザイン概論 ー IoT からビジネス データまで統合導線設計 AzureCAT / Azure Global Microsoft Corporation 佐々木 明夫
  36. ビッグデータと高度データ分析 新世代データウェアハウス “データウェアハウスにすべての データを集約したい” 高度データ分析 “ロスト危機にある顧客を 特定したい” リアルタイム分析 “リアルタイムで端末機器から インサイトを得たい”
  37. 伝送 保存 加工 Train(トレイン) モデル化、出力 新 世 代 デ ー タ ウ ェ ア ハ ウ ス Azure Blob Storage Logs, files and media (非構造化) Azure SQL Data Warehouse Azure Data Factory Azure Analysis Services Azure Databricks (Python, Scala, Spark SQL) Polybase Business/custom apps (構造化) Power BI Azure also supports other Big Data services like Azure HDInsight and Azure Data Lake to allow customers to tailor the above architecture to meet their unique needs.
  38. INGEST STORE PREP & TRAIN MODEL & SERVE 高 度 デ ー タ 分 析 ( A D V A N C E D A N A L Y T I C S ) Azure Blob Storage Logs, files and media (unstructured) Azure SQL Data Warehouse Azure Data Factory Azure Analysis Services Polybase Business/custom apps (Structured) Power BI AzureはAzure HDInsightやAzure Data Lakeなど更に大規模なビッグデータ環境に合わせてコンポーネント単位で切り替えが可能。 Azure Databricks (Python, Scala, Spark SQL) Azure Databricks (Spark ML, Spark R, SparklyR) Intelligent Apps Cosmos DB
  39. INGEST STORE PREP & TRAIN MODEL & SERVE リアルタイム分析 Logs, files and media (unstructured) Sensors and IoT (unstructured) HDInsight (Kafka) Power BIAzure Databricks (Python, Scala, Spark SQL) Intelligent Apps Cosmos DBEvent Hub IoT Hub Azure Databricks (Spark ML, Spark R, SparklyR) Azure Blob Storage Batch Data (Apps, logs) Azure Data Factory
  40. INGEST STORE PREP & TRAIN MODEL & SERVE A Z U R E ラ ム ダ パ タ ー ン Azure Blob Storage Batch Data (Apps, logs) Streaming Data (web, sensors & IoT) Azure Data Factory HDInsight (Kafka) Power BIAzure Databricks (Python, Scala, Spark SQL) Azure SQL Data Warehouse Azure Analysis Services IoT Hub Event Hub Intelligent Apps Cosmos DBAzure Databricks (Spark ML, Spark R, SparklyR)
  41. de:code 2019 DP04 Azure Data Services で実現する エンタープライズ データ分析基盤解説 インテリジェントクラウド統括本部 テクノロジーソリューションプロフェッショナル 大蔵 一功
  42. 従来の情報基盤におけるデータ処理の課題 データ収集 データ加工 データ蓄積 データ分析データソース ETL DWH ダッシュボード レポート リレーショナルデータ ベース ファイル 半構造化・非構造化 データ メッセージ ストリームデータ ニーズ: 業務システムがサイロ化しているため、 分析のために業務データを集約した DWH が 必要であった 現状認識や課題: • リレーショナル データベース (DWH/DM) を中核とした情報基盤 • 増大するデータや新たなデータ形式の扱いに、処理能力が対応できない • 新たなデータ分析のニーズに適応できない
  43. 新たな情報基盤の考え方- Big Data Reference Architecture データ収集 データ蓄積データ加工 データ活用データソース ダッシュボード レポート リレーショナルデータ ベース ファイル 半構造化・非構造化 データ メッセージ ストリームデータ Batch Layer (Cold Path) Service Layer リアルタイム アプリケーション Speed Layer (Hot Path) ニーズ: 業務データのみでなく、センサーデータや画像など 様々な形式のデータを扱え、かつリアルタイムな データ処理も可能な基盤が必要となる 方針:ラムダ アーキテクチャ等の ビッグデータアーキテクチャ ※ • データの処理頻度やデータサイズに応じた処理形式にデータフローを分ける • データ形式に応じたデータストアを活用する (構造化データ:リレーショナル、 半構造化、非構造化データ:NoSQL、 Cosmos DB 等) • データソースのデータはそのままの蓄積し、必要な時に加工して利用する 参考URL: http://lambda-architecture.net/ https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/
  44. Big Data Reference Architecture バッチデータ 転送 リアルタイム インジェスト データウェアハウス / マート 分析 レポート 機械学習 深層学習 リアルタイム ダッシュボード データソース リレーショナルデータ ベース ファイル メッセージ オーケストレーション データ活用 分散データ処理 データカタログ ストレージ / データレイク リアルタイム 処理
  45. Azure Big Data Analytics Platform データソース リレーショナルデータ ベース ファイル メッセージ データ活用
  46. de:code 2019 DP09 【事例講演】 Azure Big Data Architecture 最新カスタマーベストプラクティスのご紹介 クラウド&ソリューション事業本部 インテリジェントクラウド統括本部 データ&AI 技術営業本部 テクノロジーソリューションプロフェッショナル 武田雅生
  47. Big Data Reference Architecture バッチデータ 転送 リアルタイム インジェスト データウェアハウス / マート 分析 レポート 機械学習 深層学習 リアルタイム ダッシュボード データソース リレーショナルデータ ベース ファイル メッセージ オーケストレーション データ活用 分散データ処理 データカタログ データレイク リアルタイム インジェスト
  48. 1. データが各所に点在し、データ活用が困難 2. MySQL が性能限界に到達 ✓ 演奏履歴テーブルのレコード数が10億件を超過 3. MySQL を他社 DWH サービスにリプレイス
  49. 1. コスト削減・調整が非常に困難 ✓ どちらかのみを増強することが、構成上不可能 ✓ データ肥大化で、 DWH 再作成も徐々に長時間化 (数時間レベル) 2. さらにユーザー影響が発生… ➢ データ肥大化で集計用DWH (HDD) がギブアップ
  50. ➢ Azure Databricks 8node 構成で、他社 DWH 数十node構成より 1.4 倍高速化 処理基盤 Azure Databricks (1node) Azure Databricks (8node) Azure SQLDW (DWU500c) *1 他社 DWH (HDD Type) (1node) 他社 DWH (SSD Type) (数十node) Time (秒) 39.05 9.76 16.00 21.98 14.12 0 10 20 30 40 Azure Databricks は、 ノード数拡張による性能向上が、他サービスより顕著Time (秒)
  51. 経営層及び マネージャー向け ダッシュボード 分析担当向け アドホック分析 カラオケ店舗 (コマンダー) & カラオケセンター XING Azure DWH Architecture BI Blob Storage (データレイク) (半構造化データ) Data Factory (オーケストレーション) Databricks (ETL) Blob Storage (構造化データ) Databricks (Interactive Query) SQLDW (DWH) Databricks (ETL) BI tool (抽出ファイル) BI tool PolyBase Load VM (抽出API) サービス担当向け セルフサービスBI
  52. ➢今まで分析対象でなかったデータ要求に、即座に対応・探索 ➢重い処理も並列分散処理 (Spark) により対応 ➢必要なときに必要なリソースだけ利用 (コスト最適化) ➢Azure SQL Data Warehouse による柔軟性 (スケール変更・一時停止)
  53. • 天気や生活系のデータを取り込むためのETL 基盤 • Azure Data Factory 、 Azure Databricks がメイン Data Flow Service について
  54. Event パターン(Event Trigger) Azure Blob各種データ .nc, .yaml, 他 Azure Data Factory Azure Databricks Azure Cosmos DB Azure Data Lake Storage Gen2 1. ファイルのアップロードを検知 2. Notebook を呼び出す 4. 元データの蓄積・Blob の削除 3. データ加工・保存
  55. Schedule パターン(Schedule Trigger) Azure Data Factory Azure Databricks Azure Cosmos DB Azure Files各種データ .csv, .txt, 他 Azure Data Lake Storage Gen2 1. Schedule Trigger でディレクトリごとチェック 4. データ加工・保存 2. マウント出来るStorage にコピー 3. 元データの削除
  56. Azure Databricks の CI/CD Git Repository Azure DevOps Azure Container Registry Build / Release Pipelines Test Databricks Production Databricks テスト環境 本番環境 UTにコンテナを利用 Databricks CLI 設定ごとデプロイ!
  57. 引用:https://docs.microsoft.com/ja-jp/azure/data-factory/continuous-integration-deployment
  58. de:code 2019 DP02 ビッグ データ分析基盤における Azure SQL Data Warehouse の活用方法 クラウド&ソリューション事業本部 インテリジェントクラウド統括本部 データ&AI 技術営業本部 テクノロジーソリューションプロフェッショナル 大林 裕明
  59. スキーマやファイルのメタデータがない場合、デー タの利用やクエリが困難になることがある。 ユーザーにデータ分析の高度なスキルがない限り、 データ間の一貫性が欠如していると、データ分 析が困難になることがある。 データ レイクに取り込まれるデータの品質を保 証するのは困難な場合がある。 適切なガバナンスがないと、アクセス制御および プライバシーに関する問題が発生することがある。 既にリレーショナルになっているデータを統合する 方法としては、データ レイクは最善とは言えな い場合がある データ レイクは、実際に洞察を得るために分析 やマイニングされることのないデータの廃棄場に なってしまう可能性がある。 データ レイクだけで、組織全体に渡る包括的で 統合されたデータ環境が提供されるわけではな い。 データサイエンティスト 大量のRAW データをから必要な情報を抽出し、分析した結果から 予測モデルの作成など改善策を立案実施を行う。 ビジネスアナリスト 整合性の取れた実績データを基に業務に関する分析を行い、ビジ ネス上の課題を発見し改善策を立案実施を行う
  60. ここ半年の SQL DWH のアップデート
  61. Gen2 の目的 パフォーマンス • Compute Node のスペックを約5倍に • NVMe SSD をCompute Node に搭載 スケール(同時実行性) • リソースクラスの変更 • ワークロード管理を強化
  62. Spark (Azure Databricks)
  63. de:code 2019 DP03 Understanding Query Plans and Spark UIs Databricks Inc. Software Engineer Takuya Ueshin
  64. From declarative queries to RDDs
  65. Spark 3.0: Show the actual SQL statement [SPARK-27045]
  66. From SQL query to Spark jobs
  67. SQL Server 2019 – Big Data Cluster (Spark)
  68. de:code 2019 DP01 SQL Server 2019 Big Data Cluster 入門 Microsoft MVP for Data Platform 小澤 真之 資料公開先 https://bit.ly/2K1XV5r
  69. https://bit.ly/2K1XV5r
  70. SQL Server 2019 は、保有する "全てのデータ" を 情報 / 資産として活用 全てのデータを活用して インテリジェントなアプリケーションと AI を構築 全てのデータを分析 大小のデータを 容易かつ 安全に管理 全てのデータを管理 統合された展開 / ガバナンス / ツールによる、シンプルな管理と分析 比類のないパフォーマンスで 全てのデータに対して 統一された方法でアクセス 全てのデータを統合 https://bit.ly/2K1XV5r
  71. Microsoft Game Platform - Azure PlayFab
  72. de:code 2019 DP08 個人からトリプル A タイトルのゲーム開発者まで。 Azure PlayFab で LiveOps しよう 日本マイクロソフト株式会社 ゲーム開発技術スペシャリスト 増渕 大輔 株式会社 room6 エンジニア 今冨 洸平
  73. Azure PlayFab
  74. PlayFab の役割 モバイル PC コンソール ブラウザ BI / 分析 ライブ イベント コンテンツ管理 A/B テスト ゲームそのもの(In-Game)のオンライン化 ゲーム周辺部(lobby機能)オンライン化
  75. ゲームデータの力を信じよう!分析サイクルを作ろう Rules Engine 1. 一箇所にゲームデータ、 イベントなどの結果 のデータを集める 2. リアルタイムである程度の 処理をしよう 3. Exchange data with other tools & services 5. リアルタイムな意思決定 Match started Forum post Crash logged +10 XP Login (via FB) Win match Buy item Chat msg Support ticket Existing Backend Partner Services PlayFab Backend The Game PlayFab Insight (Azure Data Explorer) Spent $10 4. オフライン の分析
  76. https://aka.ms/decode19live https://www.microsoft.com/ja- jp/events/decode/2019session/search.aspx?tk=DP https://www.event-marketing.jp/ja- jp/events/decode/2019expodownload/search.aspx?tk=DP https://mybuild.techcommunity.microsoft.com/ de:code 2019 / Build 2019
  77. © 2018 Microsoft Corporation. All rights reserved. 本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。 © 2019 Microsoft Corporation. All rights reserved. 本情報の内容 (添付文書、リンク先などを含む) は、de:code 2019 開催日 (2019年5月29~30日) 時点のものであり、予告なく変更される場合があります。 本コンテンツの著作権、および本コンテンツ中に出てくる商標権、団体名、ロゴ、製品、サービスなどはそれぞれ、各権利保有者に帰属します。
Advertisement