SlideShare a Scribd company logo
1 of 9
Download to read offline
DATA LAKEDATA LAKE
Tanapat Limsaiprom
ธนาพัฒน์ ลิ้มสายพรหม
ธนาพัฒน์ ลิ้มสายพรหม
What is Data LakeWhat is Data Lake
D t L k ื ไ ?
2
Data Lake คืออะไร?
A data lake is a collection of storage instances of
various data assets additional to the originating datavarious data assets additional to the originating data
sources. These assets are stored in a near-exact, or
even exact, copy of the source format.
The purpose of a data lake is to present an unrefined
view of data to only the most highly skilled analysts, to
help them explore their data refinement and analysishelp them explore their data refinement and analysis
techniques independent of any of the system-of-record
compromises that may exist in a traditional analytic
( )data store (such as a data mart or data warehouse).
— Gartner
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
สรป Data Lake คือสรุป Data Lake คอ
็
3
Definition ของ Garter ก็จะบอกว่า
Data Lake นั้น คือแหล่งที่เก็บข้อมูลแบบไม่มีการเปลี่ยนแปลงู
รูปแบบใดๆ เลย เก็บเหมือนๆกับที่มาจากต้นทาง
คําที่ชอบใช้สําหรับ Data Lake คือ primitive forma (รปแบบคาทชอบใชสาหรบ Data Lake คอ primitive forma (รูปแบบ
ดังเดิม)
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
สาเหตที่เก็บแบบนี้ เพราะว่าสาเหตุทเกบแบบนเพรา วา
้ ้ ็ ี ื ี่
4
ข้อมูลต้นทางก็มีการลบหรือเปลียนแปลง
ข้อมูลปลายทางที่เก็บในรูปแบบของ Data Warehouse ก็ไม่ได้เก็บ
ทั้งหมด บางทีเก็บในรูปแบบที่มีการประมวลผลแล้ว ทําให้ถ้าจะ
ย้อนกลับมาหาข้อมูลในอดีต ก็จะสูญหายไปู ูญ
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
Concern PointConcern Point
็ ใ ้ ่ ไ ใ
5
Data Lake จะต้องเก็บข้อมูลใหญ่มหาศาลขนาดนี้ มีเรืองอะไรให้ห่วง
บ้าง มีประมาณ 3 เรื่อง
Storage at the minimum cost (ต้นทุนสตอเรจที่ตํ่า)
Data at rest (ที่พักข้อมล)Data at rest (ทพกขอมูล)
Immediate consistency (สมํ่าเสมอ ถูกต้องแม่นยํา เชื่อถือได้)
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
Storage at the minimum cost
S h i i
6
Storage at the minimum cost
การเก็บข้อมูลใน Data Warehouse นั้น มีต้นทุนสูง ทําให้เราไม่
็ ้ ั้ ไ ้ ่ ็สามารถเก็บข้อมูลทังหมดทังปวงได้ แต่ Data Lake นัน ด้วยความทีเก็บ
เอาไว้เฉยๆ เก็บเยอะๆ เลย เก็บทั้งหมดก็ได้ ก็ควรจะเก็บด้วยต้นทุนที่ตํ่า
ี่ทสุด
ด้วยต้นทุนของ Storage สมัยนี้ ที่ราคาลดลงอย่างมากแล้ว เราก็สามารถ
ั ็ ้ ป ิ ไ ้ ้ ้ ี่ไ ่ ั ไ ่ ่ ใ ้ โ โ ีจัดเก็บข้อมูลปริมาณมหาศาลได้ด้วยต้นทุนทีไม่สูงนัก ไม่ว่าจะใช้เทคโนโลยี
อย่าง Hadoop หรือ Google Cloud Storage (ที่เค้า claim
ว่า ถกกว่าจริงๆ เพราะว่า มีการแบ่งการคิดราคาตามประเภทของข้อมล ถ้าวา ถูกกวาจรงๆ เพราะวา มการแบงการคดราคาตามประเภทของขอมูล ถา
เราเก็บไว้แล้วไม่ใช้เลย ก็จะยิ่งถูกลงไป)
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
Data at rest
7
Data at rest
เมื่อเราก็บข้อมูลได้ในราคาถูก เค้าก็บอกอีกว่า งั้นก็ไม่เห็นต้องคิดมากเลย
เก็บไปเลยเยอะๆ ถ้ายังไม่รู้ว่าจะเอาไปใช้ทําอะไร ก็เก็บไว้ก่อน ค่อยไปคิดที
หลังได้
ข้อมูลบางส่วนใน Data Lake นี้ จึงเหมือนเก็บพักไว้ แช่เอาไว้ก่อน เผื่อ
ในอนาคตเราจะต้องใช้ จะได้มีไว้ให้ใช้ (มีหลายกรณีเลยที่อยากได้ข้อมลเอาในอนาคตเราจะตองใช จะไดมไวใหใช (มหลายกรณเลยทอยากไดขอมูลเอา
ไปใช้ แต่ต้นทางลบไปหมดแล้ว)
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
Immediate consistency
8
Immediate consistency
เมื่อข้อมูลไหลเข้า Data Lake แล้ว จะต้องมีความ consistency
(สมํ่าเสมอ ถูกต้องแม่นยํา เชื่อถือได้)
คือ พอเข้ามาแล้ว ทกคนจะต้องเห็นข้อมลได้ทันที และเห็นข้อมลที่คอ พอเขามาแลว ทุกคนจะตองเหนขอมูลไดทนท และเหนขอมูลท
เหมือนกัน
ั ี้ ป็ ี ี่ ้ ํ l t it ้ ่ d ็อนนเปนกรณทเคาทาหลายๆ cluster หลายๆ site ถาแตละ node เหน
ข้อมูลไม่ตรงกันนี่ก็พังเลยทันที ซึ่งก็จะเป็นสิ่งที่ lead ไปยังคําว่า data
่ ั ั ้ ่ ไ ั้ ฝั่ ี่ ป็ t h i lgovernance ว่าจะจัดการกับข้อมูลอย่างไรทังฝังทีเป็น technical
aspect หรือ consumption aspect
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
9
END
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom

More Related Content

More from Tanapat Limsaiprom

More from Tanapat Limsaiprom (20)

Google Data Analytics, Tanapat Limsaiprom
Google Data Analytics, Tanapat LimsaipromGoogle Data Analytics, Tanapat Limsaiprom
Google Data Analytics, Tanapat Limsaiprom
 
Google Cybersecurity, Tanapat Limsaiprom
Google Cybersecurity, Tanapat LimsaipromGoogle Cybersecurity, Tanapat Limsaiprom
Google Cybersecurity, Tanapat Limsaiprom
 
Advance-data-analytics , Tanapat Limsaiprom
Advance-data-analytics , Tanapat LimsaipromAdvance-data-analytics , Tanapat Limsaiprom
Advance-data-analytics , Tanapat Limsaiprom
 
Organ Donation : From Death to Life , tanapat limsaiprom
Organ Donation : From  Death to Life , tanapat limsaipromOrgan Donation : From  Death to Life , tanapat limsaiprom
Organ Donation : From Death to Life , tanapat limsaiprom
 
Clinical Kidney, Pancreas and Islet Transplantation
Clinical Kidney, Pancreas and Islet TransplantationClinical Kidney, Pancreas and Islet Transplantation
Clinical Kidney, Pancreas and Islet Transplantation
 
CompTIA-Security_Plus
CompTIA-Security_PlusCompTIA-Security_Plus
CompTIA-Security_Plus
 
CompTIA-Server_Plus
CompTIA-Server_PlusCompTIA-Server_Plus
CompTIA-Server_Plus
 
Com tia pentest-plus
Com tia pentest-plusCom tia pentest-plus
Com tia pentest-plus
 
ComTIA CASP+
ComTIA  CASP+ComTIA  CASP+
ComTIA CASP+
 
ComTIA CySA+
ComTIA CySA+ComTIA CySA+
ComTIA CySA+
 
CompTIA CASP+ Train the Trainer Programe
CompTIA CASP+ Train the Trainer ProgrameCompTIA CASP+ Train the Trainer Programe
CompTIA CASP+ Train the Trainer Programe
 
Tanapat DataCamp Certificate
Tanapat DataCamp CertificateTanapat DataCamp Certificate
Tanapat DataCamp Certificate
 
Microsoft Certificate - Tanapat
Microsoft Certificate - TanapatMicrosoft Certificate - Tanapat
Microsoft Certificate - Tanapat
 
Data science certificate - tanapat
Data science certificate - tanapatData science certificate - tanapat
Data science certificate - tanapat
 
Tanapat Certificate From MS educator center
Tanapat Certificate From MS educator centerTanapat Certificate From MS educator center
Tanapat Certificate From MS educator center
 
Tanapat sap certificate
Tanapat sap certificate Tanapat sap certificate
Tanapat sap certificate
 
Tanapat Data Science Certificate
Tanapat Data Science Certificate Tanapat Data Science Certificate
Tanapat Data Science Certificate
 
Certificate from Department of Industrial promotion of Thailand
Certificate from Department of Industrial promotion of ThailandCertificate from Department of Industrial promotion of Thailand
Certificate from Department of Industrial promotion of Thailand
 
Tanapat Certificate From AWS
Tanapat Certificate From AWSTanapat Certificate From AWS
Tanapat Certificate From AWS
 
Tanapat Certificate form Google
Tanapat  Certificate form GoogleTanapat  Certificate form Google
Tanapat Certificate form Google
 

Data Lake

  • 1. DATA LAKEDATA LAKE Tanapat Limsaiprom ธนาพัฒน์ ลิ้มสายพรหม ธนาพัฒน์ ลิ้มสายพรหม
  • 2. What is Data LakeWhat is Data Lake D t L k ื ไ ? 2 Data Lake คืออะไร? A data lake is a collection of storage instances of various data assets additional to the originating datavarious data assets additional to the originating data sources. These assets are stored in a near-exact, or even exact, copy of the source format. The purpose of a data lake is to present an unrefined view of data to only the most highly skilled analysts, to help them explore their data refinement and analysishelp them explore their data refinement and analysis techniques independent of any of the system-of-record compromises that may exist in a traditional analytic ( )data store (such as a data mart or data warehouse). — Gartner ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
  • 3. สรป Data Lake คือสรุป Data Lake คอ ็ 3 Definition ของ Garter ก็จะบอกว่า Data Lake นั้น คือแหล่งที่เก็บข้อมูลแบบไม่มีการเปลี่ยนแปลงู รูปแบบใดๆ เลย เก็บเหมือนๆกับที่มาจากต้นทาง คําที่ชอบใช้สําหรับ Data Lake คือ primitive forma (รปแบบคาทชอบใชสาหรบ Data Lake คอ primitive forma (รูปแบบ ดังเดิม) ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
  • 4. สาเหตที่เก็บแบบนี้ เพราะว่าสาเหตุทเกบแบบนเพรา วา ้ ้ ็ ี ื ี่ 4 ข้อมูลต้นทางก็มีการลบหรือเปลียนแปลง ข้อมูลปลายทางที่เก็บในรูปแบบของ Data Warehouse ก็ไม่ได้เก็บ ทั้งหมด บางทีเก็บในรูปแบบที่มีการประมวลผลแล้ว ทําให้ถ้าจะ ย้อนกลับมาหาข้อมูลในอดีต ก็จะสูญหายไปู ูญ ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
  • 5. Concern PointConcern Point ็ ใ ้ ่ ไ ใ 5 Data Lake จะต้องเก็บข้อมูลใหญ่มหาศาลขนาดนี้ มีเรืองอะไรให้ห่วง บ้าง มีประมาณ 3 เรื่อง Storage at the minimum cost (ต้นทุนสตอเรจที่ตํ่า) Data at rest (ที่พักข้อมล)Data at rest (ทพกขอมูล) Immediate consistency (สมํ่าเสมอ ถูกต้องแม่นยํา เชื่อถือได้) ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
  • 6. Storage at the minimum cost S h i i 6 Storage at the minimum cost การเก็บข้อมูลใน Data Warehouse นั้น มีต้นทุนสูง ทําให้เราไม่ ็ ้ ั้ ไ ้ ่ ็สามารถเก็บข้อมูลทังหมดทังปวงได้ แต่ Data Lake นัน ด้วยความทีเก็บ เอาไว้เฉยๆ เก็บเยอะๆ เลย เก็บทั้งหมดก็ได้ ก็ควรจะเก็บด้วยต้นทุนที่ตํ่า ี่ทสุด ด้วยต้นทุนของ Storage สมัยนี้ ที่ราคาลดลงอย่างมากแล้ว เราก็สามารถ ั ็ ้ ป ิ ไ ้ ้ ้ ี่ไ ่ ั ไ ่ ่ ใ ้ โ โ ีจัดเก็บข้อมูลปริมาณมหาศาลได้ด้วยต้นทุนทีไม่สูงนัก ไม่ว่าจะใช้เทคโนโลยี อย่าง Hadoop หรือ Google Cloud Storage (ที่เค้า claim ว่า ถกกว่าจริงๆ เพราะว่า มีการแบ่งการคิดราคาตามประเภทของข้อมล ถ้าวา ถูกกวาจรงๆ เพราะวา มการแบงการคดราคาตามประเภทของขอมูล ถา เราเก็บไว้แล้วไม่ใช้เลย ก็จะยิ่งถูกลงไป) ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
  • 7. Data at rest 7 Data at rest เมื่อเราก็บข้อมูลได้ในราคาถูก เค้าก็บอกอีกว่า งั้นก็ไม่เห็นต้องคิดมากเลย เก็บไปเลยเยอะๆ ถ้ายังไม่รู้ว่าจะเอาไปใช้ทําอะไร ก็เก็บไว้ก่อน ค่อยไปคิดที หลังได้ ข้อมูลบางส่วนใน Data Lake นี้ จึงเหมือนเก็บพักไว้ แช่เอาไว้ก่อน เผื่อ ในอนาคตเราจะต้องใช้ จะได้มีไว้ให้ใช้ (มีหลายกรณีเลยที่อยากได้ข้อมลเอาในอนาคตเราจะตองใช จะไดมไวใหใช (มหลายกรณเลยทอยากไดขอมูลเอา ไปใช้ แต่ต้นทางลบไปหมดแล้ว) ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
  • 8. Immediate consistency 8 Immediate consistency เมื่อข้อมูลไหลเข้า Data Lake แล้ว จะต้องมีความ consistency (สมํ่าเสมอ ถูกต้องแม่นยํา เชื่อถือได้) คือ พอเข้ามาแล้ว ทกคนจะต้องเห็นข้อมลได้ทันที และเห็นข้อมลที่คอ พอเขามาแลว ทุกคนจะตองเหนขอมูลไดทนท และเหนขอมูลท เหมือนกัน ั ี้ ป็ ี ี่ ้ ํ l t it ้ ่ d ็อนนเปนกรณทเคาทาหลายๆ cluster หลายๆ site ถาแตละ node เหน ข้อมูลไม่ตรงกันนี่ก็พังเลยทันที ซึ่งก็จะเป็นสิ่งที่ lead ไปยังคําว่า data ่ ั ั ้ ่ ไ ั้ ฝั่ ี่ ป็ t h i lgovernance ว่าจะจัดการกับข้อมูลอย่างไรทังฝังทีเป็น technical aspect หรือ consumption aspect ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom