ความเข้าใจผิด ในการพัฒนาโครงการ Data Analytics
โครงการ Data Analytics ในยุค Big Data แบ่งออกเป็น 2 รูปแบบ คือ 1. โครงการที่ไม่มีการขึ้นเป็น Data Platform โดยการพัฒนาโครงการ จะเป็นการนำข้อมูลมาประมวลผล โดยไม่มีการเชื่อมโยงข้อมูลอย่างอัตโนมัติ 2. โครงการที่มีการขึ้นเป็น Data Platform โดยการพัฒนาโครงการ จะมี Data Engineer ทำหน้าที่ออกแบบ Data Pipeline เพื่อเชื่อมโยงข้อมูลจากต้นทาง ไปถึงปลายทางอย่างอัตโนมัติ อย่างไรก็ตาม จากข้อมูลของ McKinsey พบว่า โครงการ Data Analytics ส่วนใหญ่ไม่ประสบความสำเร็จ อาจเป็นเพราะข้อมูลไม่พร้อม ขาดบุคลากร หรือโจทย์ไม่ชัด วันนี้ Coraline ขอเสนอ 5 ความเข้าใจผิด ในการพัฒนาโครงการ Data Analytics 1. มีแค่ Data Scientist ก็พอ
แม้ Data Scientist จะมีสามารถ Query ข้อมูลได้ และสามารถสร้าง Dashboard ได้เอง แต่หากเป็นโครงการขนาดใหญ่ ที่จำเป็นต้องมีการปรับโครงสร้างของข้อมูล Data Engineer จะสามารถ จัดเตรียม และ process ข้อมูลให้ได้มากกว่า 2. โปรแกรมสำเร็จรูปก็ตอบโจทย์
โปรแกรมสำเร็จรูปเช่น AutoML, SAS, Rapidminer, DataRobot หรือ โปรแกรม BI เป็นเพียงเครื่องมือ รายละเอียดอื่น ๆ เช่น การเลือก Feature การเลือกวิธีการวิเคราะห์ และการประเมินผลลัพธ์ก็ยังคงเป็นหน้าที่ของผู้เชี่ยวชาญ 3. ข้อมูลยิ่งเยอะ ยิ่งดี
การมีข้อมูลเยอะ ทำให้มีวัตถุดิบในการประมวลผลมากกว่า แต่สิ่งที่ต้องให้ความสำคัญด้วยเช่นกัน คือ วัตถุดิบที่ดี มีคุณภาพ ดังนั้น ไม่ว่าข้อมูลจะมีปริมาณเท่าไหร่ ก็ต้องมีกระบวนการในการประเมินคุณภาพของข้อมูลเสียก่อน 4. ผลลัพธ์ที่ดี คือ ผลลัพธ์ที่มี Accuracy สูงๆ
การวิเคราะห์ข้อมูลบางโจทย์ สามารถใช้ %Accuracy เป็นตัวชี้วัดผลลัพธ์ได้ แต่บางกรณีก็ไม่สามารถใช้ได้ อย่างไรก็ตาม การชี้วัดที่เหมาะสมที่สุด คือ การ Improve การทำงานในเชิงธุรกิจ เช่น การเพิ่มยอดขาย การลดเวลาการทำงาน การกระตุ้นให้ลูกค้ามี Engage มากขึ้น เป็นต้น 5. Deep Learning คือ Algorithm ที่ล้ำเลิศ
Deep Learning เป็น Machine Learning Algorithm หนึ่ง มีลักษณะการทำงานเป็น Black-box ที่มีความสามารถในการหาความสัมพันธ์ของข้อมูลในเชิงลึกได้ อย่างไรก็ตาม ด้วยความ Deep ของ Algorithm ทำให้ Deep Learning เหมาะกับโจทย์ที่มีข้อมูลขนาดใหญ่ หรือมีความซับซ้อนมาก และการใช้ Algorithm ประเภทนี้ มีแนวโน้มจะใช้ทรัพยากรมากกว่า Algorithm ประเภทอื่นอีกด้วย ข้อสรุปในการดำเนินโครงการ Data Analytics คือ การให้ความสำคัญกับโจทย์ และผลลัพธ์ที่จับต้องได้ โดยสิ่งที่สำคัญในการพัฒนา Data Analytics Platform คือ ข้อมูลที่พร้อม มีปริมาณที่มากพอ และมีคุณภาพที่ดี เพื่อเป็นต้นแบบในการพัฒนา Model ระบบที่เหมาะสม เพื่อสร้าง Pipeline
ทีมงานต่าง ๆ เช่น Data Engineer, Data Scientist และ Developer
โจทย์ที่ชัด และพร้อมนำไป Implement จริง
โครงการ Data Analytics ในยุค Big Data แบ่งออกเป็น 2 รูปแบบ คือ 1. โครงการที่ไม่มีการขึ้นเป็น Data Platform โดยการพัฒนาโครงการ...