Data Science Process Cycle
บทความนี้ นำเสนอขั้นตอนการทำ Data Science ฉบับย่อ เพื่อให้เห็นถึงภาพรวมในการทำงานทั้งหมด สิ่งที่ต้องเข้าใจในภาพนี้ คือ มีบุคลากรที่เกี่ยวข้องอยู่ทั้งหมด 3 แผนก ได้แก่ 1. Business Analyst ผู้เชี่ยวชาญในธุรกิจด้านต่างๆ ถือว่าเป็น Domain Expert ของการทำโครงการ 2. Data Engineer ผู้มีหน้าที่จัดการโครงสร้างของข้อมูล และเป็นผู้สร้างระบบทั้งหมดที่เกี่ยวข้องกับข้อมูล ตั้งแต่ต้นกำเนิด การเชื่อมโยง การจัดเก็บ และการแสดงผล 3. Data Scientist ผู้สร้าง Model หรือคิดวิเคราะห์เพื่อสามารถสร้างผลลัพธ์ใหม่ๆ จากข้อมูล กลับมาที่ภาพ Data Science Process Cycle จะเห็นได้ว่า ขั้นตอนการทำงาน ประกอบไปด้วย 6 ขั้นตอนด้วยกัน ได้แก่ 1. Business Understanding นั่นคือ การทำความเข้าใจ และวางเป้าหมายเชิงธุรกิจ จะเห็นได้ว่า ผู้มีหน้าที่ในการวาง Scope ของการทำโครงการ คือ Business Analyst แต่การจะวาง Scope ของการทำโครงการได้ จำเป็นต้องทราบถึงแนวทางในการแก้ปัญหาขั้นต้น รวมไปถึง สามารถมองเห็นในสิ่งที่ต้องการได้ 2. Data Understanding คือ ศึกษาแนวทางการได้มาซึ่งข้อมูล รวมไปถึง การเลือกปัจจัยที่คิดว่ามีส่วนสำคัญในการประมวลผล ในส่วนนี้ ผู้มีหน้าที่หลัก คือ Data Engineer เพราะเป็นขั้นตอนในการวางโครงสร้างตั้งแต่ต้นน้ำ จนถึงการจัดเก็บให้อยู่ในรูปที่พร้อมใช้ 3. Data Preparation คือ การเตรียมข้อมูลให้อยู่ในรูปที่พร้อมนำไปวิเคราะห์ต่อ รวมไปถึงการทำความสะอาดข้อมูล หน้าที่นี้ Data Engineer และ Data Scientist จะต้องทำด้วยกัน ที่สำคัญที่สุด ขั้นตอนนี้จะเป็นการกระทำย้อนไปย้อนมา ร่วมกับการสร้าง Model หมายถึงว่า จะทำต้องวนไปวนมา จนกว่าจะแน่ใจว่า Model ที่ได้ เป็น Model ที่ตอบโจทย์ที่สุด จึงเป็นที่มาว่า การจะทำความสะอาดข้อมูล จะต้องเกิดจากการสร้าง Model เพราะตราบใดที่ยังไม่เคยนำข้อมูลไปใช้จริง ก็คงไม่สามารถทราบได้ว่า จะต้องทำความสะอาด หรือจัดเตรียมให้อยู่ในรูปใด 4. Modeling คือ การสร้าง Model (ภาษาง่ายๆ คือ การสร้างสมการที่ซับซ้อน) เหตุผลที่ต้องสร้าง Model เพราะธุรกิจต้องการความเป็นเลิศ ต้องการผลลัพธที่เป็นเอกเทศ เพื่อให้เกิดการแข่งขันทางการตลาด ในการทำ Data Science ไม่มี Model ไหนเป็น Model ที่ดีที่สุด จึงจำเป็นต้องมีการสร้าง Model หลายๆ แบบ เพื่อนำไปสู่กระบวนการประเมินผลลัพธ์ที่ได้จาก Model ในลำดับต่อไป 5. Evaluation คือ การประเมินผลลัพธ์ที่ได้จาก Model แต่ละโจทย์จะมีความต้องการที่ต่างกัน เช่น ต้องการ Model ที่ทำนายได้แม่นยำที่สุด ต้องการ Model ที่ประมวลผลได้เร็วที่สุด หรือต้องการ Model ที่นำไปใช้ได้ง่ายที่สุด และเช่นกัน ขั้นตอนนี้ ผู้มีหน้าที่สำคัญ คือ Business Analyst (ในขณะที่ Data Scientist เป็นผู้นำเสนอ Model แต่ละประเภทให้ Business Analyst เป็นผู้เลือก) 6. Deployment คือ การนำ Model ไปใช้งานจริง อาจจะเป็นการสร้างระบบขึ้นมาเพื่อให้เกิดการทำงานอย่างอัตโนมัติ หรือจะเป็นการใช้ Model เฉพาะเมื่อจำเป็นต้องใช้ แตกต่างกันตรงที่ หากเป็นระบบอัตโนมัติ ก็จำเป็นต้องนำไปขึ้นเป็นระบบ (คล้ายๆ การทำ Software หรือ อาจจะเป็นการทำ Software หรือ Application รูปแบบหนึ่งก็เป็นได้) ซึ่งผู้ที่ทำหน้าที่ให้ Requirement หรือ ออกแบบช่องทางการใช้งาน คือ Business Analyst เพราะถือว่า เป็นการส่งมอบงาน และนำ Model นั้นไปใช้จริงในธุรกิจ จะเห็นได้ว่า การทำ Big Data หรือแม้แต่กระบวนการ Data Science นั้น จำเป็นต้องอาศัยความเชี่ยวชาญเฉพาะด้านที่หลากหลาย ดังนั้น สิ่งที่สำคัญที่สุด คือ ความเข้าใจในเนื้องาน ทั้งในส่วนงานของตัวเอง และงานของผู้ร่วมทีม เพื่อให้เกิดงานที่มีประสิทธิภาพ (ในเวลาอันรวดเร็ว)
บทความนี้นำเสนอขั้นตอนการทำ Data Science ฉบับย่อ เพื่อให้เห็นถึงภาพรวมในการทำงานทั้งหมด สิ่งที่ต้องเข้าใจในภาพนี้ คือ...