5 สิ่ง ที่คอร์สเรียน Data Science ไม่เคยสอน


อาชีพ Data Scientist เป็นอาชีพที่มาแรงในช่วง 5 ปีที่ผ่านมา แม้ว่ากระแสในช่วงหลังจะผ่อนลง แต่ปริมาณ Data Scientist ที่ตลาดต้องการยังมีอยู่ในปริมาณสูง เพียงแต่ปริมาณ Data Scientist ที่มีอยู่ในตลาดอาจจะยังไม่ตอบโจทย์ภาคธุรกิจอย่างแท้จริง

ส่วนหนึ่งก็เป็นเพราะ Business มีความคาดหวังกับ Data Scientist สูง ซึ่งเมื่อเป็นอาชีพใหม่ ทำให้มี Trainers ในปริมาณน้อย Data Scientist ที่มีประสบการณ์จึงหาได้ยากในตลาดแรงงาน

"ประสบการณ์" ที่ว่า เป็นสิ่งที่หาเรียนในคอร์สอบรมไม่ได้ ประกอบไปด้วย

1. การตั้งโจทย์ เพราะในคอร์สเรียน แค่ชื่อวิชาก็บอกอยู่แล้วว่า โจทย์นี้ต้องแก้ด้วยอะไร เช่น เรียน Time Series จะได้โจทย์อนุกรมเวลา เรียน Classification จะได้โจทย์การจัดกลุ่มแบบ Supervised Learning เป็นต้น

ในขณะที่ความเป็นจริงในโลกธุรกิจ โจทย์ต่างๆเหล่านี้ ผู้เชี่ยวชาญจะต้องช่วยกันระดมความคิดเพื่อวิเคราะห์สถานการณ์และตั้งโจทย์

2. การทำงานร่วมกันกับผู้เชี่ยวชาญในแขนงอื่นที่เกี่ยวข้อง Data Scientist มีหน้าที่มองหา Solution โดยการสร้าง Model จากทรัพยากรที่เรียกว่า "ข้อมูล"

แต่ Data Scientist ไม่ใช่ผู้เชี่ยวชาญด้านธุรกิจและไม่ใช่ผู้เชี่ยวชาญด้าน Data Architecture ทำให้ในดำเนินงานจำเป็นต้องร่วมมือกับบุคลากรท่านอื่นๆผู้มีความเชี่ยวชาญที่สนับสนุนกัน และด้วยความที่ Data Scientist อาจจะไม่รู้ว่าต้องการอะไรจากใครและไม่รู้ว่าคนแต่ละคนมีความสามารถอย่างไร ทำให้บ่อยครั้งที่เราจะเห็น Data Scientist ทำงานแบบ One-man show และส่วนใหญ่ก็จะไม่ประสบความสำเร็จเท่าใดนัก

3. การมองหาแหล่งข้อมูล และการจัดการกับข้อมูลขนาดใหญ่ ในคอร์สอบรมอาจารย์มักจะเตรียมข้อมูลมาให้หรือสร้างบรรยากาศให้เราสามารถมองหาข้อมูลที่มีอยู่เดิม

แต่ในการทำงานจริงหลายครั้งที่ต้องออกแบบช่องทางการสร้างข้อมูลใหม่ ต้องมองหาข้อมูลจากแหล่งต่างๆ ต้องจัดการกับข้อมูลขนาดใหญ่ที่ไม่สะอาดและอาจจะมีข้อมูลที่ไม่ได้เชื่อมโยงหรือจัดโครงสร้างเอาไว้ก่อน

ปัญหาเหล่านี้ถือเป็นอุปสรรคอย่างมากของ Data Scientist ซึ่งความเป็นจริงแล้วปัญหาเหล่านี้แก้ไขได้โดยการทำงานเป็น Team โดยให้ Data Engineer เป็นผู้ร่วมทีม ที่จะสามารถช่วยแก้ปัญหาเรื่องโครงสร้างของข้อมูลได้และอาจจะมี Software Engineer เป็นผู้ช่วยเสนอความคิดในการออกแบบระบบการเก็บข้อมูลได้อีกด้วย

4. การสื่อสารกับผู้ใช้งาน ในคอร์สอบรมมักจะสร้างภาพให้ Data Scientist ให้ความสำคัญกับ Model Accuracy หรือ ความซับซ้อนของการสร้าง Algorithm

แต่ในความเป็นจริง Solution ที่ตอบโจทย์ นำไปใช้ได้จริงและให้ Return ที่คุ้มค่ามากกว่าคือสิ่งที่ธุรกิจต้องการ

ดังนั้นในการสื่อสารเพื่อส่งมอบ Model จะต้องสื่อสารให้ตรงกับความคาดหวังโดยไม่พ่นไฟเป็นเทคนิคออกมามากเกินไป

หลายครั้งที่พบว่า Data Scientist มักจะสร้าง Model ได้อย่างเดียวแต่ไม่สามารถบอกได้ว่า Model ที่สร้างขึ้นมีประโยชน์อย่างไร นำไปประยุกต์ใช้กับอะไรได้บ้าง

5. Model ที่ใช้งานส่วนใหญ่ไม่ใช่ Machine Learning แม้ในคอร์สอบรม อาจารย์จะให้น้ำหนักกับ Machine Learning โดยเฉพาะหากจำเป็นต้องเขียน Paper

เราจึงมักจะเห็น Paper ที่กล่าวถึง Machine Learning มากกว่า Model ประเภทอื่นๆ แต่ในความเป็นจริงทั้งตามหลักทฤษฎีและภาคปฏิบัติ Model ที่ใช้มากที่สุด คือ Statistics, Probability และ Logic ซึ่งเป็น Model พื้นฐานที่ไม่ใช่ทุกคนจะถนัด เหตุผลที่หลายคนไม่ถนัดเพราะเคยชินกับการเรียก Library มาใช้ หรือใช้ AutoML จนไม่รู้ว่าจะเริ่มวาง Idea ในการเขียน Model เองได้อย่างไร

เหตุผลที่ว่า Machine Learning ถูกใช้น้อยกว่า Model ประเภทอื่นก็เพราะไม่ใช่ว่าทุกโจทย์จะมีข้อมูลขนาดใหญ่และไม่ใช่ทุกข้อมูลที่จะใช้เป็นต้นแบบในการ Learning ได้ ในขณะเดียวกันการวิเคราะห์พื้นฐานจะสามารถใช้เป็นสมมติฐานในการวิเคราะห์ขั้นต่อๆไปได้

"พื้นฐาน" เป็นสิ่งสำคัญที่จะทำให้สามารถต่อยอดไปได้ไกล

สนใจการประยุกต์ใช้ Data Science กับธุรกิจหรือปรึกษาทำโครงการ Big Data กับผู้เชี่ยวชาญได้ที่ inquiry@coraline.co.th