Contact

Follow

  • medium-logo-black-transparent
  • Black Twitter Icon

66 95-460-8830

©2017 by Coraline

Please reload

Recent Posts

เก็บข้อมูล Big Data จะใช้ Cloud หรือ Hadoop ดี?

March 18, 2019

 

 

Big Data เป็นข้อมูลที่ประกอบไปด้วย 4V ได้แก่

 

1. Volume — ข้อมูลมีขนาดใหญ่ ทั้งแบบ Structured and Unstructured Data ทั้งนี้ ขนาดไหนเรียกว่า Big Data ก็ไม่สามารถตอบได้ แต่ความชัดเจนของความ Big คือ ต้องเป็นข้อมูลที่ขยายตัวตลอดเวลา แบบ Exponential

 

2. Velocity — ข้อมูลต้องการความเร็ว ทั้งในรูปของการส่งผ่าน และการวิเคราะห์

 

3. Variety — ข้อมูลมีความหลากหลาย ทั้งรูปแบบ ประเภท และแหล่งที่มาของข้อมูล

 

4. Veracity — ข้อมูลมีความไม่แน่นอน เนื่องจากมีขนาดใหญ่ ต้องการความเร็วในการใช้งาน และมีความหลากหลาย ทำให้มีโอกาสที่จะเป็นข้อมูลสกปรก หรือข้อมูลที่ใช้งานไม่ได้ แต่ต้องได้รับการประเมินและควบคุมคุณภาพ

 

ด้วยองค์ประกอบที่กล่าวมานั้น ทำให้รูปแบบการจัดการเก็บข้อมูลแบบเดิมๆ อาจไม่สามารถตอบโจทย์ธุรกิจได้อีกต่อไป

 

ก่อนหน้านี้ การเก็บข้อมูลส่วนใหญ่จะอยู่ในรูปแบบของ Structured Data เช่น เก็บเป็น Data Warehouse ใช้ภาษา SQL ซึ่งมีข้อจำกัดเรื่องโครงสร้างของข้อมูล

 

เมื่อเข้าสู่ยุค Digital ที่ข้อมูลมีทั้งแบบ Structured และ Unstructured Data ทำให้การเก็บแบบเดิม อาจไม่สามารถรองรับความเป็น 4V ของ Big Data ได้

 

โดยส่วนใหญ่แล้ว หลายๆ องค์กรจะเลือกสร้าง Data Lake ขึ้นมาก่อน เพื่อเก็บข้อมูลแบบ Raw Data หรือ ข้อมูลดิบ ก่อนที่จะสร้างระบบในการวิเคราะห์ หรือ หยิบใช้ข้อมูลต่อไป ซึ่งอาจจะเป็น Data Warehouse หรือจะเป็นการเก็บข้อมูลรูปแบบอื่นๆ ก็ได้

 

อย่างไรก็ตาม เมื่อข้อมูลมีปริมาณมากเกินไป ทำให้พื้นที่เก็บข้อมูลใน Data Center อาจจะไม่พอ จึงเป็นที่มาของการเพื่ม Scale ของการเก็บข้อมูล ซึ่งทำได้ทั้งในรูปแบบของการ Scale Up และ Scale Down

 

ประเด็นแรก คือ การขึ้น Cloud หรือใช้พื้นที่เก็บข้อมูลที่อื่น ที่ซึ่งเป็นบริษัทรับเก็บข้อมูลโดยเฉพาะ มีทั้งแบบ Private Cloud และ Public Cloud ข้อดีของการใช้ Cloud คือ ประหยัด ทั้งในมุมของทรัพยากรบุคคล และงบประมาณ เพราะการใช้ Cloud มีให้เลือกแบบ On demand หมายถึง ใช้เท่าที่จำเป็น ทั้งในเรื่องของ Spec และ พื้นที่

 

นอกจากนี้ เทคโนโลยีต่างๆ ใน Cloud Computing ก็ค่อนข้างหลากหลาย และมีการ Update อยู่ตลอดเวลา ตั้งแต่ ETL Tool, Machine Learning ประเภทต่างๆ, รวมไปถึง สามารถติดตั้งระบบ Hadoop ใน Cloud ได้อีกด้วย ทำให้สะดวกต่อการใช้งาน จึงเป็นเหตุผลที่ว่า การใช้ Cloud Computing ทำให้ขนาดของ IT Department ลดลงได้อย่างมีนัยสำคัญ ยิ่งไปกว่านั้น การใช้ Cloud ไม่จำเป็นต้องรอให้เป็น Big Data แต่สามารถใช้ได้กับทุกขนาดของข้อมูล

 

ข้อเสียของ Cloud Computing คือ หลายคนยังกังวลเรื่องความปลอดภัยของข้อมูล เพราะ Cloud Computing ยังคงเป็นเรื่องใหม่ อีกทั้ง เทคโนโลยีต่างๆ ใน Cloud ก็มีให้เลือกใช้อย่างหลากหลาย ทำให้ต้องใช้เวลาในการปรับตัว เทคโนโลยีบางตัว มีค่าใช้จ่ายเป็นจำนวนข้อมูล และเวลาในการใช้งาน ทำให้ไม่สามารถคุมค่าใช้จ่ายได้ชัดเจน

 

ประเด็นต่อมา คือ การใช้ Hadoop ซึ่งเป็น Solution ขององค์กรใหญ่ที่มีข้อมูลขนาดมหาศาล และต้องการ Scale Down โดยเลือกใช้ Hadoop เพื่อกระจาย Node ในการจัดเก็บ และบริหารข้อมูล ข้อดีของ Hadoop คือ เป็นระบบการจัดเก็บที่มีประสิทธิภาพ มีความปลอดภัย และรวดเร็ว เหมาะกับองค์กรที่รักษาความปลอดภัยของข้อมูล และไม่ต้องการใช้ Cloud Computing

 

อย่างไรก็ตาม ข้อเสียของการใช้ Hadoop คือ ใช้เวลาในการ Implement ค่อนข้างนาน และมีบุคลากรน้อยคนมาก ที่สามารถออกแบบระบบ และ Implement Hadoop ได้อย่างครบวงจร นอกจากนี้ การเขียนโปรแกรมต่างๆ ที่เกี่ยวข้องกับข้อมูลในระบบ Hadoop ก็อาจใช้ภาษาที่แตกต่างออกไป เช่น Hive Pig และ Spark ทำให้หาผู้เชี่ยวชาญได้ค่อนข้างยาก (เพราะมีบริษัทที่ใช้ Hadoop น้อยกว่า Cloud หรือ SQL แบบเดิม) ทำให้ระบบ Hadoop เป็นระบบที่มีค่าใช้จ่ายสูง ทั้งในเรื่องของ Hardware Software การพัฒนาระบบ และการดูแลรักษา

 

คำถามที่ว่า แล้วจะเลือกใช้ Cloud หรือ Hadoop อันไหนดีกว่ากัน?

 

คำตอบอยู่ที่นโยบายขององค์กร หากต้องการมี Data Center เป็นของตัวเอง และต้องการความปลอดภัยสูง โดยมีผู้ทำหน้าที่ดูแลระบบ และ Server ด้วยตัวเอง ก็อาจพิจารณา Hadoop ได้ ทั้งนี้ ต้องมั่นใจว่าเป็นระบบที่มีข้อมูลขนาดใหญ่จริงๆ เพื่อให้คุ้มค่ากับการลงทุน และควรเป็นการลงทุนระยะยาว

 

แต่ถ้านโยบายขององค์กร คือ ต้องการ Implement ระบบโดยเร็ว โดยไม่จำเป็นต้องสร้าง Data Center ของตัวเอง ก็สามารถพิจารณา Cloud Computing ได้ ซึ่งไม่จำเป็นต้องเป็น Big Data แต่สามารถเริ่ม Hybrid ได้ตั้งแต่ต้น

 

สุดท้ายนี้ จะเห็นได้ว่า การออกแบบระบบการเก็บข้อมูลกำลังเปลี่ยนแปลงไป สิ่งที่น่ากลัวที่สุดก็คือ แล้วทักษะของคนกลุ่ม IT พร้อมแล้วหรือยัง?

 

 

#BigData

#DataScience

#Optimization

#ProductivityImprovement

#DigitalTransformation

 

#Coraline Big Data Project Digital Transformation

 

Share on Facebook
Share on Twitter
Please reload

Please reload