Data Science ไม่ได้มีแค่ Machine Learning
ตามทฤษฎีแล้ว Data Science คือ กระบวนการในการหาความสัมพันธ์ของข้อมูล ที่ต้องใช้หลักคณิตศาสตร์ต่างๆ หากเราอ่านแค่นี้ อาจจะยังไม่เห็นภาพ ต้องลองจินตนาการถึงคำว่า “นักวิทยาศาสตร์เคมี” สิ่งที่เห็นเป็บภาพขึ้นมาคงเป็นรูปบุคคลใส่เสื้อกาวน์ ใส่แว่นหนาๆ ถือหลอดทดลองที่มีสารเคมีสีต่างๆ แล้วเอาสารมาผสมกัน จนเกิดเป็นสารใหม่ ... ไม่ต่างกัน Data Scientist ก็คือบุคคลที่นำข้อมูลดิบต่างๆ มาผสม หรือหาความสัมพันธ์ เพื่อสร้างเป็นผลลัพธ์ใหม่เหมือนกัน สิ่งเดียวที่ต่างกันคือ นักเคมีใช้สารเคมีเป็นตัวตั้งต้น ในขณะที่ Data Scientist ใช้ Data เป็นของตั้งต้นนั้นเอง แต่อย่างไรก็ตาม เมื่อพูดถึง Big Data ซึ่งทั้งขนาดใหญ่ และต้องการความเร็วในการทำงาน ทำให้ Data Scientist จำเป็นต้องเขียนโปรแกรมเองให้ได้อีกด้วย ทำให้คนส่วนใหญ่มองภาพว่า Data Scientist มาจากสายคอมพิวเตอร์ซะมากกว่าสายวิทยาศาสตร์ ขั้นตอน การทำงานของ Data Scientist นั้น เริ่มจากการตั้งโจทย์ การมองหาข้อมูลที่ตอบโจทย์ Clean ข้อมูล สร้างโมเดล (หลายๆ ตัว) ทดสอบโมเดลเพื่อเลือกโมเดลที่ใช่ที่สุด และส่งมอบโมเดลไปใช้งานในระบบ ตามภาพ สิ่งที่สำคัญที่สุดสำหรับการเป็น Data Scientist คือ การมองหา Solution ที่ตอบโจทย์ธุรกิจให้ได้มากที่สุด ซึ่งคำว่า “ตอบโจทย์” นี้ อาจหมายถึงโมเดลที่แม่นยำที่สุด โมเดลที่คิดได้เร็วที่สุด โมเดลที่เข้ากับระบบหน้างานได้มากที่สุด หรืออื่นๆ ก็เป็นได้ แต่ไม่ว่าเราจะมองหาอะไร แต่ในที่สุดสิ่งที่ต้องเกิดขึ้นให้ได้จริง คือ ต้องนำโมเดลนั้นไปใช้ให้เกิดประโยชน์ให้ได้ Skill หรือ ทักษะต่างๆ ที่จำเป็นในการเป็น Data Scientist ได้แก่ พื้นฐานทางด้านคณิตศาสตร์ ได้แก่ สถิติ, ความน่าจะเป็น, แคลคูลัส (Calculas), พีชคณิตเชิงเส้น (Linear algebra), สมการเชิงอนุพันธ์ Differential Equations, ตรรกศาสตร์(Logic), การเพิ่มประสิทธิภาพ (Optimization), การออกแบบการทดลอง (Design of Experiment, DOE) การเขียนโปรแกรมภาษา โดยเฉพาะ R กับ Python ความรู้ด้านธุรกิจ และทักษะด้านอารมณ์ (Business and Soft Skill) ได้แก่ ความชอบในเรื่องที่ทำ, ชอบใช้ตัวเลข โดยเฉพาะ Big Data, ชอบแก้ปัญหา และหาทางออก, สามารถทำงานเป็นทีมได้, มีความคิดสร้างสรรค์, สามารถเล่าเรื่องราวเกี่ยวกับข้อมูลให้เข้าใจได้ง่าย, สามารถต่อยอดจากผลลัพธ์ให้กลายเป็นการกระทำที่สร้างประโยชน์จริงได้ ใน 3 หมวดนี้ สิ่งที่เป็นพื้นฐานสะสมกันมาตั้งแต่วัยเด็ก คือ ข้อแรก “ คณิตศาสตร์ ” ซึ่งเป็นรากฐานที่สำคัญต่อ Data Science ยิ่งนัก เพราะหากรากฐานไม่มั่นคง ก็คงไม่สามารถต่อยอดไปได้ไกล สำหรับส่วนที่ 2 เรื่องการเขียน โปรแกรมภาษา เป็นอะไรที่เรียนรู้ได้ใหม่เสมอ หากเลือกที่จะเป็น Data Scientist จริงๆ จะต้องรักการเขียนโปรแกรม และมองว่ามันสนุก และส่วนที่ยากที่สุด คือ ข้อที่ 3 ความรู้ด้านธุรกิจ และทักษะด้านอารมณ์ เพราะเป็นสิ่งที่ต้องเก็บเกี่ยวจากประสบการณ์เท่านั้น จะเห็นได้ว่า Machine Learning เป็นเพียงส่วนประกอบส่วนหนึ่ง ของการทำ Data Science เท่านั้น โดยตามคำนิยามแล้ว Machine Learning คือ การเรียนรู้ของเครื่องจักร โดยที่คำว่า “ เครื่องจักร ” ในที่นี้ก็ หมายถึง คอมพิวเตอร์นั้นเอง ซึ่งโจทย์ที่จะเป็น Machine Learning ได้นั้น เป็นโจทย์ที่ซับซ้อน ต้องมีการซุ่มตัวเลข หาค่าที่เหมาะสมที่สุด หาความสัมพันธ์ระหว่างตัวเลขไขว้กันไปมา ซึ่งต้องใช้คอมพิวเตอร์เพื่อ Simulate หรือ คำนวณหาความเหมาะสม โดยใช้ Algorithm แบบต่างๆ เช่น Artificial neural network ดังภาพ ในขณะที่การทำงานเกี่ยวกับ Data Science นั้นกว้างมาก และบางงานก็ไม่มีความเกี่ยวข้องกับ Machine Learning ด้วย ตัวอย่างเข่น การคิดสมการหา Dead Stock หรือสินค้าที่ค้างคงคลังนาน และมีท่าทีจะขายไม่ออก โดยสามารถคิดได้จาก ปริมาณวันที่ซื้อสินค้านั้นเข้ามา เปรียบเทียบระหว่าง Forecast Demand ที่คาดการณ์เอาไว้ และ Actual Demand ที่เกิดขึ้นจริง และทำการพิสูจน์หาค่า Confidential Interval เพื่อทำเป็น Rule ขึ้นมาว่า สินค้าใดบ้างที่เป็น Dead Stock ซึ่งการทำ Dead Stock Alert จะช่วยให้องค์กรสามารถจัดการกับต้นทุนค้างคงคลังได้ก่อนจะขาดทุนไปมากกว่านี้ โดยแต่ละสินค้า แต่ละองค์กร จะมี Condition หรือ ข้อจำกัดที่แตกต่างกัน ทำให้ไม่สามารถมีสมการ Dead Stock เป็นอันเดียวได้ ต้องใช้หลักการ Data Science สร้างขึ้นใหม่เพื่อให้เหมาะกับแต่ละธุรกิจ ดังนั้น Data Scientist ที่ดี จะต้องไม่ใช่แค่คนที่นั่งอยู่หลังคอมพิวเตอร์ หรือสนุกกับการเขียนโปรแกรม Coding เท่านั้น แต่ต้องเป็นคนที่ออกสำรวจหน้างาน เพื่อวิเคราะห์ปัญหา รับฟังความเห็นจากบุคคลที่เกี่ยวข้อง จนไปถึงส่งมอบและติดตามผลงานของตัวเอง เพื่อให้มั่นใจว่างานได้สำเร็จตามที่ตั้งเป้าหมายเอาไว้ จึงจะถือว่า เป็น Data Scientist ที่เป็นดั่งมนุษย์ทองคำจริงๆ
ตามทฤษฎีแล้ว Data Science คือ กระบวนการในการหาความสัมพันธ์ของข้อมูล ที่ต้องใช้หลักคณิตศาสตร์ต่างๆ หากเราอ่านแค่นี้ อาจจะยังไม่เห็นภาพ...