Contact

Follow

02 114 7003 

77/129, 30th floor, Sinn Sathorn Tower, Thanon Krung Thon Buri, Khlong Ton Sai, Khlong San, Bangkok 10600 

©2017 by Coraline

Please reload

Recent Posts

Data Lake, Data Governance, Data Analytics, Data Cleansing ควรทำอะไรก่อน?

December 26, 2019

 

 

 

Data Lake, Data Governance, Data Analytics, Data Cleansing เหมือนจะเป็นหัวข้อโครงการคนละหัวข้อกัน แต่ทั้งหมดนี้ ถือเป็นหัวข้อในการดำเนินโครงการ Big Data โดยทั้งสิ้น เพียงแต่ ผู้เชี่ยวชาญ และแนวทางในการแก้ปัญหาในแต่ละหัวข้อ อาจจะไม่ใช่คนเดียวกัน 

 

  • โครงการ Data Lake คือ โครงการเก็บข้อมูลกลาง ในรูปแบบดิบๆ โดยไม่จำเป็นต้องจัดโครงสร้างของข้อมูลให้พร้อมใช้ ทั้งนี้ ในการออกแบบ Data Lake ที่ดี จะต้องออกแบบให้มีการใช้ทรัพยากรที่เหมาะสม เช่น เก็บเป็นสกุลไฟล์ที่เหมาะต่อความถี่ในการใช้งาน เป็นต้น การทำ Data Lake เป็นรากฐานของการทำโครงการ Big Data ทั้งหมด เพียงแต่ ผลลัพธ์ของการทำ Data Lake จะไม่ได้อยู่ในรูปแบบที่จับต้องได้ แต่การมี Lake จะทำให้การต่อยอดไปโครงการอื่นๆ ทำได้สะดวกมากขึ้น นอกจากนี้ใน Lake ไม่จำเป็นต้องเก็บเฉพาะข้อมูลภายใน แต่สามารถเก็บข้อมูลภายนอกอื่นๆ ได้อีกด้วย ถ้าไม่มี Data Lake การดำเนินโครงการ จะต้องมีขั้นตอนในการค้นหาข้อมูล และสร้าง Lake ย่อยๆ อยู่ร่ำไป ส่วน Data Warehouse จะเป็นการเก็บข้อมูลที่มีโครงสร้าง พร้อมใช่ ซึ่งอาจจะเป็นข้อมูลที่ Aggregate มาจาก Lake หรือเป็นข้อมูลที่จัดโครงสร้างมาจาก Lake ก็ได้ 

 

  • โครงการ Data Governance คือ การกำหนดสิทธิในการเข้าถึง และดูแลข้อมูล รวมไปถึง การวางโครงสร้างของระบบข้อมูล จึงเกี่ยวข้องกับเรื่อง Data Infrastructure, Data Privacy และ Data Security ด้วย แต่การจะดำเนินโครงการ Data Governance ได้ จะต้องมีการวาง Data Architecture ให้เรียบร้อยเสียก่อน และจำเป็นต้องมี Data Dictionary เพื่อให้สามารถระบุสานะของข้อมูล ตั้งแต่ แหล่งกำหนด ผู้รับผิดชอบ โครงสร้างของข้อมูล และ ระยะเวลาในการเก็บ ผลลัพธ์ที่ได้จากการทำ Data Governance คือ ช่องทางที่เปิดให้ผู้ใช้งานสามารถเข้าถึงข้อมูลตามสิทธิของตัวเองได้ เพื่อประหยัดเวลาในการ Query ข้อมูล และลดการทำงานซ้ำซ้อนของทีม IT 

 

  • โครงการ Data Analytics คือ โครงการวิเคราะห์ข้อมูล ซึ่งอาจใช้ทั้งข้อมูลภายนอก และข้อมูลภายใน ถ้าเป็นการวิเคราะห์เพียงครั้งเดียว หรือ ชั่วคราว จะไม่จำเป็นต้องขึ้นระบบ แต่หากเป็นการวิเคราะห์แบบอัตโนมัติ เป็นการสร้าง Machine Learning หรือมีการใช้ AI จะจำเป็นต้องนำระบบประมวลผลนั้นไปขึ้นระบบ ซึ่งระบบนี้เกี่ยวข้องกับระบบ Big Data ในทางตรง ผลลัพธ์ที่ได้จากการดำเนินโครงการ Data Analytics คือ Dashboard ที่สามารถแสดงผลลัพธ์ได้อัตโนมัติ หรือการกระทำอัตโนมัติ เช่น การส่ง Auto Email, การตอบกลับอัตโนมัติ, การแปลภาษา หรือ การกระทำอื่นๆ ที่เลียนแบบพฤติกรรมของมนุษย์ 

 

  • โครงการ Data Cleansing คือ การปรับปรุงคุณภาพของข้อมูล ในการทำงานจริง จะแบ่งออกเป็น 2 ส่วน ได้แก่ การปรับปรุงคุณภาพในเชิงโครงสร้าง และการปรับปรุงคุณภาพก่อนสร้าง Model ในส่วนแรก คือ ส่วนการปรับปรุงคุณภาพเชิงโครงสร้าง ควรดำเนินการตั้งแต่เริ่มต้นเก็บข้อมูล โดยการระบุคุณสมบัติของข้อมูลให้ดี เช่น วัน/เดือน/ปี ชื่อภาษาอังกฤษ หรือภาษาไทย เก็บเป็น Format อะไร เป็นต้น ทั้งนี้ ในส่วนของการปรับปรุงคุณภาพก่อนสร้าง Model จะเกิดขึ้นได้ก็ต่อเมื่อนำข้อมูลนั้นไปสร้าง Model และมีการทำ Exploratory Data Analysis เช่น การเช็คความ Bias ของข้อมูล การวิเคราะห์ Outlier เป็นต้น Data Cleansing เป็นโครงการที่ใช้ระยะเวลานานที่สุด แต่เป็นโครงการที่ต้องทำ และเป็นส่วนหนึ่งของการทำงานในทุกๆ โครงการ 

 

ตามทฤษฎีแล้ว คงไม่มีใครบอกได้ว่า จะต้องทำอะไรก่อนหลัง เพราะแต่ละเรื่อง ต้องการผู้เชี่ยวชาญในการแก้ปัญหาที่แตกต่างกัน อย่างไรก็ตาม ในเชิงการทำงาน สิ่งที่ควรดำเนินการก่อน คือ การมี Data Lake โดยไม่จำเป็นต้องเป็น Lake ที่สมบูรณ์ อาจจะเป็น Lake ย่อยๆ ร่วมกับการดำเนินโครงการอื่น ค่อยๆ สะสมกลายเป็น Lake ใหญ่ขององค์กร ส่วนการดำเนินโครงการ Data Analytics กับ Data Cleansing จะแยกส่วนของจากการทำ Data Management ก็ได้ (อันได้แก่ การสร้าง Data lake การเชื่อมโยงข้อมูล การออกแบบ Data Infrastructure และการทำ Data Governance) แต่หากมี Data Management ที่ดี จะทำให้การดำเนินโครงการอื่นๆ สามารถกระทำได้สะดวก และรวดเร็วขึ้น 

 

ดังนั้น คำถามที่ว่า Data Lake, Data Governance, Data Analytics, Data Cleansing ควรทำอะไรก่อน? คงตอบชัดเจน 100% ไม่ได้ แต่แนวโน้มที่ชัดเจนที่สุด คือ การมี Data Lake ก่อน และจะต้องมี Data Dictionary ด้วย เพื่อให้รู้ว่า ในระบบที่เก็บข้อมูลนั้น มีข้อมูลอะไรบ้าง และมีสถานะของข้อมูลเป็นอย่างไร 

 

แม้หัวข้อในการดำเนินโครงการจะแยกส่วนกัน แต่สุดท้ายแล้ว โครงการทั้งหมดนี้มีวัตถุประสงค์ในการดำเนินการเดียวกัน นั้นก็คือ การใช้ประโยชน์จากข้อมูล ที่จะต้องมีการระบุแหล่งข้อมูล เชื่อมโยงข้อมูล จัดเก็บข้อมูล วิเคราะห์ข้อมูล และแสดงผลลัพธ์จากการวิเคราะห์ ทั้งหมดนี้ คือ องค์ประกอบของโครงการ Big Data โดยทั้งสิ้นค่ะ 

 

สนใจดำเนินโครงการ Big Data ติดต่อ Coraline ได้ค่ะ 

 

 

 

#BigData

#DataScience

#Optimization

#ProductivityImprovement

#DigitalTransformation

#MachineLearning

#ArtificialIntelligence 

 

#Coraline ให้คำปรึกษาการทำ Big Data, Data Model, Artificial Intelligence และ Digital Transformation เพื่อเพิ่มศักยภาพของธุรกิจ

Share on Facebook
Share on Twitter
Please reload

Please reload