โครงการ Data Analytics ในยุค Big Data แบ่งออกเป็น 2 รูปแบบ คือ
1. โครงการที่ไม่มีการขึ้นเป็น Data Platform โดยการพัฒนาโครงการจะเป็นการนำข้อมูลมาประมวลผล โดยไม่มีการเชื่อมโยงข้อมูลอย่างอัตโนมัติ
2. โครงการที่มีการขึ้นเป็น Data Platform โดยการพัฒนาโครงการจะมี Data Engineer ทำหน้าที่ออกแบบ Data Pipeline เพื่อเชื่อมโยงข้อมูลจากต้นทางไปถึงปลายทางอย่างอัตโนมัติ
อย่างไรก็ตาม จากข้อมูลของ McKinsey พบว่า โครงการ Data Analytics ส่วนใหญ่ไม่ประสบความสำเร็จเป็นเพราะข้อมูลไม่พร้อม ขาดบุคลากร หรือโจทย์ไม่ชัด
วันนี้ Coraline ขอเสนอ 5 ความเข้าใจผิด ในการพัฒนาโครงการ Data Analytics
1. มีแค่ Data Scientist ก็เพียงพอแล้ว แม้ Data Scientist จะมีสามารถ Query ข้อมูลได้ และสามารถสร้าง Dashboard ได้เอง แต่หากเป็นโครงการขนาดใหญ่ที่จำเป็นต้องมีการปรับโครงสร้างของข้อมูล Data Engineer จะสามารถจัดเตรียม และ process ข้อมูลให้ได้มากกว่า
2. โปรแกรมสำเร็จรูปสามารถตอบโจทย์ทั้งหมด โปรแกรมสำเร็จรูปเช่น AutoML, SAS, Rapidminer, DataRobot หรือ โปรแกรม BI เป็นเพียงเครื่องมือเท่านั้น ในส่วนของรายละเอียดอื่นๆ เช่น การเลือก Feature การเลือกวิธีการวิเคราะห์และการประเมินผลลัพธ์ก็ยังคงเป็นหน้าที่ของผู้เชี่ยวชาญ
3. ข้อมูลยิ่งเยอะยิ่งดี การมีข้อมูลเยอะ ทำให้มีวัตถุดิบในการประมวลผลมากกว่า แต่สิ่งที่ต้องให้ความสำคัญด้วยเช่นกัน คือ วัตถุดิบที่ดีและมีคุณภาพ ดังนั้นไม่ว่าข้อมูลจะมีปริมาณเท่าไหร่ ก็ต้องมีกระบวนการในการประเมินคุณภาพของข้อมูลเสียก่อน
4. ผลลัพธ์ที่ดีคือผลลัพธ์ที่มี Accuracy สูงๆ การวิเคราะห์ข้อมูลบางโจทย์ สามารถใช้ %Accuracy เป็นตัวชี้วัดผลลัพธ์ได้แต่บางกรณีก็ไม่สามารถใช้ได้ อย่างไรก็ตามการชี้วัดที่เหมาะสมที่สุดคือการ Improve การทำงานในเชิงธุรกิจ เช่น การเพิ่มยอดขาย การลดเวลาการทำงาน การกระตุ้นให้ลูกค้ามี Engage มากขึ้น เป็นต้น
5. Deep Learning คือ Algorithm ที่ดีที่สุด Deep Learning เป็น Machine Learning Algorithm หนึ่ง มีลักษณะการทำงานเป็น Black-box ที่มีความสามารถในการหาความสัมพันธ์ของข้อมูลในเชิงลึกได้ อย่างไรก็ตามด้วยความ Deep ของ Algorithm ทำให้ Deep Learning เหมาะกับโจทย์ที่มีข้อมูลขนาดใหญ่หรือมีความซับซ้อนมากและการใช้ Algorithm ประเภทนี้มีแนวโน้มจะใช้ทรัพยากรมากกว่า Algorithm ประเภทอื่นอีกด้วย
Comments