หลายคนสงสัยว่า หากจะเริ่มศึกษาการทำ Big Data Project ต้องเริ่มจากอะไร คำตอบ คือ ต้องเรียนรู้ก่อนว่า องค์ประกอบของระบบ Data คืออะไร เพราะแต่ละองค์ประกอบ มีองค์ความรู้ที่ไม่เหมือนกัน และต้องอาศัยทักษะของผู้เชี่ยวชาญที่แตกต่างกัน
จากภาพ จะเห็นได้ว่า องค์ประกอบของระบบ Data แบ่งออกเป็น 5 ส่วนด้วยกัน ได้แก่
1. Data Source แหล่งที่มาของข้อมูล
ซึ่งถือได้ว่า เป็นต้นน้ำ เป็นแหล่งกำเนิดของข้อมูล อาจจะเป็นระบบ โปรแกรม หรือจะเป็นมนุษย์เรา ที่สร้างให้เกิดข้อมูลขึ้นมา ทั้งนี้ เมื่อได้ชื่อว่าเป็น Big Data แล้ว ข้อมูลต่างๆ มักจะมาจากแหล่งข้อมูลที่หลากหลาย นำพามาซึ่งความยากลำบากในการจัดการโครงสร้าง หรือจัดเตรียมให้ข้อมูลที่นำมารวมกันนั้น มีความพร้อมใช้ต่อไป
2. Gateway ช่องทางการเชื่อมโยงข้อมูล
การเชื่อมโยงข้อมูล เป็นส่วนที่สำคัญมาก และเป็นปัญหาใหญ่ในการทำ Big Data Project ต้องอาศัยทักษะของ Data Engineer ทั้งการเขียนโปรแกรมเอง และใช้เครื่องมือที่มีอยู่มากมาย ทั้งนี้การจะออกแบบช่องทางการเชื่อมโยงข้อมูลได้อย่างสมบูรณ์แบบ จำเป็นต้องทราบก่อนว่า จะนำข้อมูลใดไปทำอะไรต่อบ้าง มิเช่นนั้น การสร้างช่องทางการเชื่อมที่ไม่มีเป้าหมาย ก็อาจเป็นการเสียเวลาโดยเปล่าประโยชน์
3. Storage แหล่งเก็บข้อมูล
แหล่งเก็บนี้ ไม่ใช่แค่การเก็บข้อมูลจากแหล่งข้อมูล แต่เป็นการเก็บข้อมูลจากแหล่งข้อมูลหลายๆ แหล่ง เอามาไว้เพื่อรอการใช้งาน ซึ่งอาจจะเป็นที่พักข้อมูลให้พร้อมใช้ หรือจะเป็นแหล่งเก็บข้อมูลในอดีตก็เป็นได้
4. Analytics การวิเคราะห์ข้อมูล
ส่วนนี้เป็นหน้าที่หลักของ Data Scientist ซึ่งแบ่งงานออกเป็น 2 ลักษณะ คือ การวิเคราะห์เบื้องต้น โดยการใช้วิธีทางสถิติ หรือจะเป็นการวิเคราะห์เชิงลึกโดยการสร้าง Model แบบต่างๆ รวมไปถึงการใช้ Machine Learning เพื่อให้ได้ผลลัพธ์เฉพาะจงเจาะในแต่ละปัญหา และแต่ละชุดข้อมูล
5. Result/Action การใช้ผลการวิเคราะห์ข้อมูล
ผลลัพธ์ที่ได้จากการวิเคราะห์สามารถนำไปใช้งานได้ 2 รูปแบบ คือ ออกเป็นรายงาน เพื่อให้ Data Analyst นำผลลัพธ์ที่ได้ไปใช้กับงานทางธุรกิจต่อไป หรือจะเป็นการนำไปกระทำเลยโดยที่ไม่ต้องมี “มนุษย์” คอยตรวจสอบ ซึ่งจำเป็นต้องมีการเขียนโปรแกรมเพิ่ม เพื่อให้มีการกระทำออกไป ที่เรียกว่า Artificial Intelligence
การที่จะเข้าใจส่วนประกอบทั้งหมดของ Big Data System ได้นั้น อาจต้องใช้เวลา เพราะในแต่ละส่วน ค่อนข้างมีรายละเอียดมากมาย เช่น ส่วนของการเชื่อมโยงข้อมูล สามารถใช้โปรแกรม ETL (Extract-Transform-Load) ได้ แต่โปรแกรม ETL ก็มีหลายแบบ ทั้งเป็นโปรแกรม Software หรือ เป็น Function หนึ่งใน Cloud Computing
ในส่วนของ Analytics เองก็เช่นกัน เฉพาะ Machine Learning ก็มี Algorithm มากมาย และยังต้องมีการปรับค่า Parameter อีกด้วย ไม่ร่วมไปถึงการออกแบบตัวแปร ว่าจะนำข้อมูลใดมาวิเคราะห์ เพื่อให้ได้ผลลัพธ์อะไร เรียกได้ว่า แค่ความรู้อย่างเดียวไม่ได้ ต้องมีประสบการณ์ในการระบุปัญหา และทักษะในการออกแบบการใช้ Model อีกด้วย
ดังนั้น การจะเข้าใจ Big Data Ecosystem ให้ได้ทั้งหมด ค่อนข้างยาก และต้องใช้เวลา แต่ไม่ใช่ว่าจะทำไม่ได้ ต้องวางเป้าหมายให้ชัดก่อนว่า ที่ต้องการเข้าใจ หมายถึงต้องการเข้าใจในภาพรวม หรือต้องการทำเองให้เป็นด้วย ถ้าเป็นข้อแรก การเข้าใจเพื่อให้รู้ว่าองค์ประกอบแต่ละส่วนทำงานอย่างไร ไม่ใช่เรื่องยาก แต่ต้องแยกให้ออกว่าสิ่งที่เราต้องการรู้คือเรื่องอะไร แต่ถ้าเป็นข้อสอง นั้นคือ ต้องการใช้เครื่องมือเป็น หรือต้องการเขียนโปรแกรมได้ ต้องบอกว่า ใช้เวลาพอสมควร
การเริ่มต้นทำ Big Data Project ที่ดี คือ การเข้าใจว่าปัญหาขององค์กรคืออะไร อยู่ ณ ส่วนใดขององค์ประกอบของระบบ Data บางที่มีปัญหาเรื่องไม่มีแหล่งที่มาของข้อมูล บางที่มีปัญหาไม่สามารถเชื่อมโยงข้อมูลได้ บางที่มีปัญหาไม่สามารถวิเคราะห์ได้ บางที่ไม่สามารถแสดงผลได้ และหลายที่ มีปัญหาที่ไม่รู้ว่าตัวเองมีปัญหาอะไร
Big Data อาจจะเป็นเรื่องยาก แต่ไม่ยากเกินไปที่จะเรียนรู้ ทุกการเรียนรู้ต้องการความสม่ำเสมอ และต้องใช้เวลา แต่ถ้าไม่เริ่ม ก็คงไม่มีวันที่ทำได้สำเร็จเสียที