การเรียน vs การทำงานจริงของ Data Scientist
สาขาการเรียน ในแต่ละสาขา จะมีลักษณะที่คล้ายกัน คือ มีวิชาเรียนมากกว่า 1 วิชา ซึ่งเป็นไปได้ว่า อาจารย์สอนในแต่ละวิชาที่ไม่ใช่คนเดียวกัน เมื่อถึงเวลาทดสอบ แต่ละวิชาก็จะทดสอบแยกกัน ในขณะที่การทำงานจริง จะต้องใช้สาขาวิชาหลากหลายวิชามารวมกัน และไม่มี “อาจารย์” เป็นผู้ให้คำปรึกษา หรือตรวจข้อสอบ สำหรับการเรียนเพื่อเป็น Data Scientist จะแยกออกเป็น 2 ประเภท ได้แก่ เรียนในมหาวิทยาลัย และ เรียนผ่านช่องทางออนไลน์ แม้ทั้ง 2 ช่องทางจะแตกต่างกัน แต่แนวทางคล้ายกัน คือ แยกเรียนเป็นวิชาๆ และในคลาสสอนจะมีข้อมูลมาให้ พร้อมมีโจทย์ให้อย่างชัดเจน ตัวอย่างเช่น ต้องการทำ Churn Prediction เพื่อทำนายโอกาสการยกเลิกสัญญาของผู้ใช้บัตรเครดิต โดยมีข้อมูล Transaction และ User Information เก่าหลายปีย้อนหลังมาให้ เป็นต้น ในการทำงานจริง อาจจะไม่มีโจทย์ และที่แน่นอนที่สุด คือ ไม่มีข้อมูลที่เป็นโครงสร้างที่สวยงามพร้อมใช้มาให้ หลายครั้งที่ Data Scientist ต้องระบุเองว่า โจทย์นี้ต้องใช้ Data จากแหล่งใด และต้องนำ Data นั้น มาทำความสะอาดก่อนนำไปสร้าง Model ตามหลักการแล้ว การจะสร้าง Model โดยเฉพาะ Statistical Model และ Machine Learning ได้ จะต้องผ่านการเรียนที่มีองค์ประกอบหลัก 2 องค์ประกอบ ได้แก่ 1.Sample Space Design เพื่อศึกษาปัจจัย และออกแบบรูปแบบของ Data Set เช่น การเช็คความ Bias ของ Data และ การทำ Feature Engineering 2.Modeling หรือ Experiment คือ การสร้าง Model โดยการใช้ Data ที่ผ่านการศึกษามาแล้วในขี้นที่ 1 ไปสร้าง Model และต้องมีการทดสอบ Model ให้แน่ใจก่อนที่จะนำ Model นั้นไปใช้งาน โดยส่วนใหญ่ Data Scientist จะให้ความสนใจกับการเรียนด้านการสร้าง Model ซะส่วนใหญ่ จะเห็นได้จากมีคลาสออนไลน์ หรือ คลาสที่สอนนอกสถาบันการศึกษามากมายที่เน้นสอนตรงนี้ อาจเป็นเพราะ มีเครื่องมือที่ช่วยให้การสร้าง Model ได้ง่ายขึ้น เมื่อเทียบกับสมัยก่อน อย่างไรก็ตาม ในการทำงานจริง Data Scientist (ที่แท้จริง) ส่วนใหญ่ จะให้ความสำคัญ และใช้เวลากับการทำ Sample Space Design มากกว่า เพราะต้องแน่ใจเสียก่อนว่า Data นั้น เป็น Data ที่คุณภาพมากพอ เพื่อใช้เป็นต้นแบบให้กับ Model ได้ ยิ่งไปกว่านั้น ด้วยเครื่องมือที่ทันสมัยทำให้การสร้าง Model ไม่ต้องใช้เวลามากเหมือนในอดีต ทำให้ความสำคัญของการเป็น Data Scientist จึงเป็นเรื่องของการทำความเข้าใจข้อมูล มากกว่าการสร้าง Model เพียงอย่างเดียว ทั้งนี้ ในการทำความเข้าใจข้อมูลนี้ จะเกิดขึ้นไม่ได้ หากไม่ได้ลงสนามจริง เพราะแต่ละโจทย์ แต่ละปัญหา แต่ละอุตสาหกรรม แต่ละธุรกิจ ก็จะมีรูปแบบของข้อมูล และมีปัจจัยที่สำคัญแตกต่างกันไป ที่เรียนในบทเรียบน ก็เป็นเพียงทฤษฎี ซึ่งเมื่อถึงเวลาปฏิบัติ ผู้ปฏิบัติจะต้องนำความรู้จากหลายๆ วิชารวมกัน และออกแบบแนวทางการแก้ปัญหาด้วยตัวเอง เขาว่ากันว่า อาชีพ Data Scientist เป็นอาชีพที่ Sexy ที่เป็นเช่นนั้น เพราะเป็นอาชีพที่หาตัวจับยาก ซึ่งเมื่อใดก็ตาม ที่มีจำนวน Data Scientist มากขึ้น จนหาตัวจับได้ไม่ยาก อาชีพนี้ก็จะมีความ Sexy น้อยลง อย่างไรก็ตาม ขณะที่ Data Scientist ก็ยังคงเป็นอาชีพที่ Sexy เพราะหาคนที่เป็น Data Scientist ที่สามารถแก้ปัญหาได้จริงๆ ในตลาดแรงงานได้น้อย ทั้งนี้ ก็อาจจะเป็นเพราะ อาชีพนี้ ต้องอาศัยประสบการณ์การทำโครงการหลากหลายโครงการระดับหนึ่ง จึงเรียกได้ว่า กว่าจะเป็น Data Scientist ได้นั้นไม่ง่ายเลยจริงๆ
สาขาการเรียนในแต่ละสาขา จะมีลักษณะที่คล้ายกัน คือ มีวิชาเรียนมากกว่า 1 วิชา ซึ่งเป็นไปได้ว่า อาจารย์สอนในแต่ละวิชาที่ไม่ใช่คนเดียวกัน...