2. What is Data LakeWhat is Data Lake
D t L k ื ไ ?
2
Data Lake คืออะไร?
A data lake is a collection of storage instances of
various data assets additional to the originating datavarious data assets additional to the originating data
sources. These assets are stored in a near-exact, or
even exact, copy of the source format.
The purpose of a data lake is to present an unrefined
view of data to only the most highly skilled analysts, to
help them explore their data refinement and analysishelp them explore their data refinement and analysis
techniques independent of any of the system-of-record
compromises that may exist in a traditional analytic
( )data store (such as a data mart or data warehouse).
— Gartner
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
3. สรป Data Lake คือสรุป Data Lake คอ
็
3
Definition ของ Garter ก็จะบอกว่า
Data Lake นั้น คือแหล่งที่เก็บข้อมูลแบบไม่มีการเปลี่ยนแปลงู
รูปแบบใดๆ เลย เก็บเหมือนๆกับที่มาจากต้นทาง
คําที่ชอบใช้สําหรับ Data Lake คือ primitive forma (รปแบบคาทชอบใชสาหรบ Data Lake คอ primitive forma (รูปแบบ
ดังเดิม)
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
5. Concern PointConcern Point
็ ใ ้ ่ ไ ใ
5
Data Lake จะต้องเก็บข้อมูลใหญ่มหาศาลขนาดนี้ มีเรืองอะไรให้ห่วง
บ้าง มีประมาณ 3 เรื่อง
Storage at the minimum cost (ต้นทุนสตอเรจที่ตํ่า)
Data at rest (ที่พักข้อมล)Data at rest (ทพกขอมูล)
Immediate consistency (สมํ่าเสมอ ถูกต้องแม่นยํา เชื่อถือได้)
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
6. Storage at the minimum cost
S h i i
6
Storage at the minimum cost
การเก็บข้อมูลใน Data Warehouse นั้น มีต้นทุนสูง ทําให้เราไม่
็ ้ ั้ ไ ้ ่ ็สามารถเก็บข้อมูลทังหมดทังปวงได้ แต่ Data Lake นัน ด้วยความทีเก็บ
เอาไว้เฉยๆ เก็บเยอะๆ เลย เก็บทั้งหมดก็ได้ ก็ควรจะเก็บด้วยต้นทุนที่ตํ่า
ี่ทสุด
ด้วยต้นทุนของ Storage สมัยนี้ ที่ราคาลดลงอย่างมากแล้ว เราก็สามารถ
ั ็ ้ ป ิ ไ ้ ้ ้ ี่ไ ่ ั ไ ่ ่ ใ ้ โ โ ีจัดเก็บข้อมูลปริมาณมหาศาลได้ด้วยต้นทุนทีไม่สูงนัก ไม่ว่าจะใช้เทคโนโลยี
อย่าง Hadoop หรือ Google Cloud Storage (ที่เค้า claim
ว่า ถกกว่าจริงๆ เพราะว่า มีการแบ่งการคิดราคาตามประเภทของข้อมล ถ้าวา ถูกกวาจรงๆ เพราะวา มการแบงการคดราคาตามประเภทของขอมูล ถา
เราเก็บไว้แล้วไม่ใช้เลย ก็จะยิ่งถูกลงไป)
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
7. Data at rest
7
Data at rest
เมื่อเราก็บข้อมูลได้ในราคาถูก เค้าก็บอกอีกว่า งั้นก็ไม่เห็นต้องคิดมากเลย
เก็บไปเลยเยอะๆ ถ้ายังไม่รู้ว่าจะเอาไปใช้ทําอะไร ก็เก็บไว้ก่อน ค่อยไปคิดที
หลังได้
ข้อมูลบางส่วนใน Data Lake นี้ จึงเหมือนเก็บพักไว้ แช่เอาไว้ก่อน เผื่อ
ในอนาคตเราจะต้องใช้ จะได้มีไว้ให้ใช้ (มีหลายกรณีเลยที่อยากได้ข้อมลเอาในอนาคตเราจะตองใช จะไดมไวใหใช (มหลายกรณเลยทอยากไดขอมูลเอา
ไปใช้ แต่ต้นทางลบไปหมดแล้ว)
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom
8. Immediate consistency
8
Immediate consistency
เมื่อข้อมูลไหลเข้า Data Lake แล้ว จะต้องมีความ consistency
(สมํ่าเสมอ ถูกต้องแม่นยํา เชื่อถือได้)
คือ พอเข้ามาแล้ว ทกคนจะต้องเห็นข้อมลได้ทันที และเห็นข้อมลที่คอ พอเขามาแลว ทุกคนจะตองเหนขอมูลไดทนท และเหนขอมูลท
เหมือนกัน
ั ี้ ป็ ี ี่ ้ ํ l t it ้ ่ d ็อนนเปนกรณทเคาทาหลายๆ cluster หลายๆ site ถาแตละ node เหน
ข้อมูลไม่ตรงกันนี่ก็พังเลยทันที ซึ่งก็จะเป็นสิ่งที่ lead ไปยังคําว่า data
่ ั ั ้ ่ ไ ั้ ฝั่ ี่ ป็ t h i lgovernance ว่าจะจัดการกับข้อมูลอย่างไรทังฝังทีเป็น technical
aspect หรือ consumption aspect
ธนาพัฒน์ ลิ้มสายพรหมTanapat Limsaiprom