Model จะใช้ได้อย่างไร หากไม่มีการทำ Data Understanding
top of page

Model จะใช้ได้อย่างไร หากไม่มีการทำ Data Understanding

ในองค์กรที่มีการจัดซื้อจัดจ้าง Software หรือ ระบบ IT อยู่บ่อยครั้ง จะมีโอกาสที่พบเจอปัญหาระบบใช้งานไม่ได้ หรือไม่ตอบโจทย์ ซึ่งหากล้มเหลวจนถึงขั้นที่ไม่สามารถยอมรับได้ ก็จำเป็นต้องยกเลิกโครงการกลางคัน หรือมีปัญหากับ Vendor แบบไม่รู้จบ

ในยุคก่อน ปัญหานี้ อาจเกิดจากการความต้องการของผู้ใช้งาน หรือผู้ว่าจ้าง ไม่ตรงกับสิ่งที่ทางผู้รับจ้าง หรือ Vendor เข้าใจ โดยเฉพาะเมื่อเข้าสู่ยุค Digital ในปัจจุบัน ที่เทคโนโลยีต่างๆ เปลี่ยนแปลงไปอย่างรวดเร็ว ทำให้ความต้องการเดิมอาจเปลี่ยนแปลงไปตามกาลเวลา

ในปัจจุบัน มีระบบการทำงานแบบใหม่ เรียกว่า “Agile” ที่เน้นความยืดหยุ่นของการทำงาน ทำให้เกิดความคล่องแคล่ว เนื่องจากมีการส่งมอบงานเป็นขั้นๆ ทำให้เจ้าของโครงการ หรือผู้ใช้งาน สามารถตอบสอบความถูกต้องระหว่างทางได้ก่อนที่จะยืนยันความต้องการในลำดับถัดไป

สำหรับในโครงการ Big Data แม้จะใช้ระบบ Agile เป็นแนวทางในการทำงานแล้วนั้น ยังพบว่า สาเหตุอันดับต้นๆ ที่ทำให้โครงการไม่ประสบความสำเร็จ เป็นเพราะขาดขั้นตอน Data Understanding หรือ การทำความเข้าใจข้อมูล ก่อนที่จะสร้าง Model

ความเป็นจริงแล้ว ตาม Data Process การเขียนร่างโครงการ จำเป็นต้องมีการระบุแหล่งที่มาของข้อมูลและมีการทบทวนความพร้อมของข้อมูลเสียก่อน เพื่อให้แน่ใจว่ารายละเอียดของโครงการที่ได้เขียนไปนั้นสามารถก่อนให้เกิดขึ้นจริงได้อย่างสมบูรณ์

ก่อนที่จะสร้าง Model ก็จำเป็นต้องผ่านกระบวนการ Data Understanding เพื่อระบุความพร้อม และรายละเอียดของข้อมูล ก่อนที่จะทำ Data Preparation หรือการเตรียมข้อมูลให้อยู่ในรูปแบบที่จะสร้าง Model ต่อได้ ซึ่งในขั้นตอน Data Preparation นี้ ได้รวมถึงการทำความสะอาดข้อมูลเข้าไปด้วย

หลายโครงการ มีการข้ามขั้นตอนที่สำคัญตรงนี้ไป โดยการนำข้อมูลทั้งหมด ไปสร้าง Model หรือ นำไปใส่ใน Software เลย โดยไม่มีการทำความเข้าใจรายละเอียดของข้อมูลหรือทำความสะอาดข้อมูลเสียก่อน

เมื่อข้อมูลที่เป็นวัตถุดิบไม่ได้รับการทำความสะอาด และทางผู้ดำเนินการไม่ทำความเข้าใจว่าชุดข้อมูลนี้ ประกอบไปด้วยรายละเอียดอะไรบ้าง ผลลัพธ์ที่ได้จึงไม่ตอบโจทย์ หรือไม่สามารถประเมินความถูกต้องได้ ตัวอย่างเช่น หากต้องการพยากรณ์ยอดใช้เครื่องกดเงินอัตโนมัติแต่ไม่มีการใส่ข้อมูลรายละเอียดตู้เสีย ทำให้ลักษณะของข้อมูลในบางวันจะมียอดใช้งานเป็น 0 ซึ่งยอดใช้ที่เป็น 0 นั้นไม่สามารถนำมาเป็นต้นแบบเพื่อพยากรณ์ยอดใช้งานในอนาคตได้

ข้อมูลลักษณะนี้ จำเป็นต้องถูกแทนที่ด้วยค่าที่เหมาะสม เช่น เป็นค่าเฉลี่ยของวันก่อนหน้านี้ หรือ เป็นค่าแนวโน้มจากการใช้งานเดิม เป็นต้น เหตุผลที่ว่า เมื่อขั้นตอนนี้เป็นขั้นตอนที่สำคัญ แต่แล้วทำไมหลายๆ โครงการถึงละเลยก็เป็นเพราะขั้นตอนทั้ง Data Understanding และ Data Preparation เป็นหน้าที่ที่ต้องทำร่วมกัน ระหว่างเจ้าของข้อมูล และผู้สร้าง Model ซึ่งโดยส่วนใหญ่แล้ว จะเป็นทีมงานคนละทีมกัน เช่น ข้อมูลภายในของบริษัท ส่งไปให้ Vendor เป็นผู้สร้าง Model เป็นต้น

ยิ่งไปกว่านั้น สำหรับการ Implement ระบบสำเร็จรูป จะข้ามขั้นตอนนี้ไปโดยสิ้นเชิง เนื่องจากเป็นข้อจำกัดของ Software ที่จะใช้ข้อมูลที่นำเข้าไปเท่านั้น ทั้งนี้ ผู้นำเข้าข้อมูลจะต้องจัดเตรียมข้อมูลที่พร้อมใช้ เพื่อให้ระบบทำงานได้อย่างสมบูรณ์

แม้ว่าบาง Software จะมีการนำเสนอเครื่องมือที่สามารถใช้ทำความสะอาดข้อมูลได้แต่นั้นเป็นกลไกสำเร็จรูปที่ผู้ใช้งานจะต้องเป็นผู้พิจารณาถึงความเหมาะสมในการทำความสะอาดด้วยตัวเอง

แนวทางการแก้ปัญหาทั้งหมด คือ การทำความเข้าใจ Process ของระบบ Data ตั้งแต่การเชื่อมโยงข้อมูล การเก็บ การนำเข้าระบบ การทำความสะอาด การสร้าง Model รวมไปถึง การประเมินผลลัพธ์ที่ได้จาก Model ทั้งนี้จะต้อง ทำความเข้าใจแค่ไหน ขึ้นอยู่กับหน้าที่ หรือ Role ของแต่ละบุคคล เช่น ถ้าเป็น Data Engineer ก็จำเป็นต้องมีความเชี่ยวชาญในเรื่องการออกแบบ Pipeline และการเชื่อมโยงข้อมูล ถ้าเป็น Data Scientist จะเชี่ยวชาญด้านการสร้าง Model แต่ถ้าเป็น Project Manager จะต้องเข้าใจของเขตการทำงานทั้งหมด แต่อาจจะไม่จำเป็นต้องลงลึกถึงเทคนิคในการแก้ปัญหาแต่ละส่วน

เรื่องราวเกี่ยวกับการสร้างระบบ Data มิใช่เรื่องใหม่ เพราะ IT ย่อมาจาก Information Technology และ Software ที่มีมานานแล้วอย่าง ERP ก็ถูกสร้างมาเพื่อเก็บ และบริหารข้อมูล เพียงแต่ในยุคนี้ ยุค Digital เป็นยุคแห่งการ “ใช้” ข้อมูล ทำให้มีรายละเอียดของการใช้งาน และการพัฒนาระบบที่เป็นเอกลักษณ์มากขึ้น ข้อมูลที่ดี ไม่ได้ขึ้นอยู่กับขนาด แต่ขึ้นอยู่กับความสมบูรณ์แบบ และความหลากหลายในทางกลับกัน ข้อมูลที่ใหญ่ แต่ไม่พร้อม หรือสกปรก อาจจะไม่ใช่ข้อมูลที่ดีก็เป็นได้


< Previous
Next >
bottom of page