More Related Content
PPTX
Reproducebility 100倍 Dockerマン PDF
PDF
PPTX
PDF
PDF
PDF
PPTX
What's hot
PDF
SQL Server 2017 Machine Learning Services (CLR-H in TOKYO #13) PDF
PDF
PDF
PDF
Raspberry p ionzabbixproxy PDF
Web エンジニアが postgre sql を選ぶ 3 つの理由 PDF
PDF
PDF
Electron + Mithril Async File Search PDF
PaaS ×iot! node red勉強会質問箱 PPTX
[学内勉強会]C++11とdirectxライブラリ PPTX
PPTX
PDF
PDF
Viewers also liked
PDF
PDF
PDF
PDF
DOCX
PPSX
PDF
Sidharth Associates Portfolio DOCX
PDF
Игра по обучению ПДД "Школа дорожных наук" PPTX
PDF
Leveraged Buyout Acova Radiateurs: Feasibility Review for Baring Capital Inve... PDF
PyData.Tokyo Hackathon#2 TensorFlow PPTX
JPE Client Recruitment Solutions - Video & Social Collaboration PPTX
PyData.Tokyo Meetup #11 LT PPTX
Camera angles presentation.pptx PDF
PDF
PPTX
PDF
4コマ漫画 Machine Learning 分析データを集めたかった話 Similar to この素晴らしいSQLに祝福を!
PDF
PDF
PDF
[db tech showcase Tokyo 2014] L32: Apache Cassandraに注目!!(IoT, Bigdata、NoSQLのバ... PDF
経済学のための実践的データ分析 4.SQL ことはじめ PPT
MySQL最新情報と、データベースのお勉強のススメ-第68回PHP勉強会 PDF
Not only sql _ 新卒エンジニア勉強会20130417 PDF
リレーショナルデータベースとの上手な付き合い方 long version PDF
PDF
PDF
PPTX
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx PDF
PDF
PDF
PDF
PDF
デジタル化への第一歩 「エンタープライズデータレイク構築事例のご紹介」 PDF
More from __john_smith__
PPTX
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition PPTX
PPTX
PPTX
PPTX
Amazon SageMakerでゼロからはじめる機械学習入門 PPTX
Alteryx UG3 LT #alteryx_ug PDF
Alteryx Inspire2017 新製品&新機能紹介 PDF
How to create Yarn Application #cmdevio2017 PPTX
Alteryxでkaggleに挑戦する #alteryx #alteryx_ug PDF
初心者向けに機械学習のハンズオンセミナーをしてわかったこと PPTX
PDF
PPTX
PPTX
PPTX
PPTX
PPT
この素晴らしいSQLに祝福を!
- 1.
- 2.
- 3.
人々の欲望と時代の変遷
• RDB使ってないシステムとかありえないでしょ
• 永続化== RDB
• 他になんかあるの?時代
• NoSQL自体の到来
• データが多くなってきてRDBとかもう無理でしょw
• これからの時代はNoSQLですよ!
• やっぱSQL必要時代
• RDBじゃなくても結局SQLをインターフェースにしたい
• データ分析で使ってる言語でR, Pythonの次くらいにSQLが現れる
• イマココ
- 4.
AI, 機械学習時代におけるSQL
• ETLとしてのSQL
•人生とは前処理の辛さとの戦い
• Hiveでデータを取得してSparkで機械学習
• 非プログラマがデータを使うためのSQL
• SQLで機械学習が出来る時代
• Hivemallの出現
• 調べてみると他にもいろいろあった
• Postgresql, Microsoft SQL Server, Oracle
• MySQLにはなさそうw
- 5.
AI, 機械学習時代におけるSQL
• ETLとMLとSQLとつらみ
•前処理で例外だらけのデータをいじくってる時よりはましだけど。。
• MLのライブラリが必要とするフォーマットをつくるのって
• 地味に作るのが面倒
• 単純にid変換でもメモリに乗らないくらいの特徴数があると。。
• データフレーム大好き
• 単純なSQLとがっつりDF操作でいいんじゃかな?
• 最近の非エンジニアがデータいじるって発想に反してる
• SQLで機械学習の現状
• アルゴリズムは開発者がだいたい実装してる
- 6.
- 7.
- 8.
- 9.
- 10.
- 11.
- 12.
- 13.
- 14.
- 15.
- 16.
- 17.
- 18.
- 19.
そして・・・
• predictはどうしたものか
• だいたいこちらの思い通りにはいかない
•入力として入ってくるフォーマット
• ライブラリが要求する形式
• モデルに含む内容
• predict対象のデータが持ってない特徴どうすんの?
• スパースなデータで必要な特徴しか持ってないと
学習時と同じ特徴に持ってくのをどうするか
• 次元数も引数にするのは美しくない
• longでもwideでも全部0で埋めるのも処理速度が辛いことになりそう
• スクラッチで実装してればその辺意識したモデルの中身にできるけど
- 20.
- 21.