คุณภาพของข้อมูลกับการสร้าง Model

28 เม.ย. 2562
ยาว 1 นาที

อัปเดตเมื่อ 3 เม.ย. 2566

The quality of the data to create a Model.

เขาว่ากันว่า Artificial Intelligence (AI) นั้นฉลาด และสามารถครองโลกได้ ซึ่งนั่นเป็นเพียงความเห็นหนึ่ง อาจจะเกิดขึ้นจริง หรือไม่จริงก็ได้ แต่ที่เกิดขึ้นอย่างแน่นอน คือ AI จะกลายมาเป็นเครื่องมือ และแฝงตัวอยู่ในอุปกรณ์อิเล็กทรอนิกส์มากมาย ไม่ว่าจะเป็นกล้องถ่ายภาพ โทรศัพท์มือถือ ระบบการขอสินเชื่อในธนาคาร หรือแม้แต่ในเกมออนไลน์ก็มี AI แฝงตัวอยู่ด้วยเช่นกัน

AI เกิดจากอะไร? ความเป็นจริงแล้ว AI เกิดจากการสอนให้ระบบคอมพิวเตอร์เข้าใจกลไกต่างๆ หรือที่เรียกว่า การเทรน ซึ่งสิ่งที่เราเทรน จะเรียกว่า Machine Learning (ML) ที่หากแปลตามตัวแล้ว ML มาจากกระบวนการที่ Let machine learn from Data นั่นเอง

กระบวนการเทรนนี้ ไม่ต่างกับการสอนให้เด็กเข้าใจภาษาต่างๆ กว่าเด็กคนหนึ่งจะเข้าใจคำว่า “สวัสดี” ได้ คุณแม่จะต้องพูดซ้ำหลายครั้ง ซึ่งกระบวนการทำความเข้าใจเหล่านี้ไม่ต่างกับ Machine ที่ต้องเรียนรู้

The quality of the data to create a Model-2

การสอนให้ Machine เรียนรู้ได้ จึงต้องอาศัยปัจจัยทั้งกลไกในการเรียนรู้ หรือที่เรียกว่า Algorithm และตัวข้อมูลที่ใช้เป็นต้นแบบ ในส่วนของ Algorithm นั้น จะเป็นหน้าที่ของนักพัฒนา หรือ Developer ที่ต้องออกแบบแนวทางที่ใช้วิเคราะห์ข้อมูล เพื่อก่อให้เกิด Function โดย Function นี้ เปรียบเสมือนสมการ ที่สามารถใช้ซ้ำๆ ได้ เมื่อมีข้อมูลใหม่เข้ามา ทำให้ไม่จำเป็นต้องเกิดกระบวนการเรียนรู้ซ้ำเดิม อย่างไรก็ตาม การจะสร้าง Function ได้ จะต้องมีข้อมูลที่มากพอ ตัวอย่างเช่น สอนเด็กพูดคำว่า “สวัสดี” ครั้งเดียว เด็กจะยังไม่เข้าใจ แต่หากสอนหลายๆ ครั้ง เด็กก็จะสามารถเข้าใจได้ว่า จะต้องพูดคำนี้ เพื่อพบเจอคนใหม่ๆ ดังนั้น ข้อมูลที่ใช้เทรน จึงต้องมีคุณภาพที่มากพอ เพราะหากเป็นข้อมูลที่ไม่มีคุณภาพ ก็ยากที่จะได้ Function ที่พร้อมใช้งาน

ตัวอย่างข้อมูลที่ไม่มีคุณภาพ ได้แก่ ข้อมูลที่ Bias เช่น เมื่อต้องการวิเคราะห์ Churn Prediction (ลูกค้าที่ยกเลิกการใช้งาน) ของผู้ซื้ออสังหาริมทรัพย์ แต่มีข้อมูลของผู้ไม่ซื้อ 10% และมีข้อมูลของผู้ซื้อ 90% ในกรณีนี้ จะกลายเป็นว่า Churn Prediction ที่ได้ จะเบนไปทาง “ซื้อ” มากกว่า “ไม่ซื้อ” เพราะข้อมูลที่ใช้เทรน เป็นข้อมูลของ “ผู้ซื้อ” ไม่ใช่ “ผู้ไม่ซื้อ”

AI จะแตกต่างจาก ML ตรงที่ AI จะมีการกระทำเกิดหลังจากมีการใส่ข้อมูลใหม่เข้ามาตรง Function เรียบร้อย ในขณะที่ผลลัพธ์ของ ML จะเป็นเพียงข้อมูลที่ได้จาก Function เช่น เด็กเข้าใจคำว่า “สวัสดี” ว่าแปลว่าการทักทาย ซึ่งเด็กจะตัดสินใจอะไรก็ได้ แต่อีกกรณีหนึ่ง ถ้าพูดคำว่า “สวัสดี” แล้วต้องยกมือไหว้ทันที นี่คือ การกระทำที่ได้จากการเรียนรู้

ทั้งนี้ Function ที่ได้ จะเป็นลักษณะของงานที่เคยมีมาก่อน หรือมีความใกล้เคียงกันเท่านั้น เช่น Alpha Go สามารถเล่นโกะได้ แต่ไม่สามารถเล่มหมากรุกได้ ซึ่งเป็นข้อจำกัดของ AI

นักวิชาการหลายท่าน จึงมองว่า AI อันตราย เพราะหาก AI นั้น ไม่ได้รับการตรวจสอบ หรือประเมินผลลัพธ์อย่างถี่ถ้วน ก็จะกลายเป็นว่า เรายอมรับในผลของการกระทำของ AI นั้นไปแล้ว

ในวงการการสร้าง Data Model ของ Data Scientist ส่วนใหญ่จะเน้นที่การใช้ Library เพื่อสร้าง Machine Learning ซึ่งเป็นการใช้ Algorithm ที่มีผู้พัฒนาเอาไว้แล้ว ในความเป็นจริง ความสำคัญของการสร้าง Model ไม่ใช่เพียงการเลือก Algorithm แต่เป็นการเลือกข้อมูลด้วย ซึ่งการทำ Model แต่ละครั้ง ส่วนใหญ่แล้ว จะต้องใช้เวลากว่า 70% ที่การจัดโครงการ เตรียมข้อมูล และทำความสะอาดของข้อมูลเสียมากกว่า

The quality of the data to create a Model-3

ภาพข้างต้น เป็นรูปของ Neural Network ซึ่งเป็น Algorithm ที่ได้รับความนิยมอย่างมาก โดยตามหลักการแล้ว สิ่งที่ต้องใส่เข้าไปให้ Machine Learn คือ Input คือ วงกลมสีเหลือง เพื่อให้ได้มาซึ่ง Output ซึ่งหากใส่ Input ที่ไม่เหมาะสม ก็จะได้ Output ที่ไม่ตอบโจทย์ โดยที่ Algorithm จะไม่สามารถทราบได้เอง

Garbage in garbage out เป็นประโยคที่ใช้บ่งบอกเมื่อข้อมูลที่นำมาทดสอบ Machine มีความสกปรก สิ่งที่จะได้รับก็จะสกปรกด้วยเช่นกัน

ดังนั้น การจะนำข้อมูลอะไรเข้าไปเทรนให้ Machine หรือ แม้แต่จะนำข้อมูลอะไรมาใส่ใน Function ก็จำเป็นต้องตรวจสอบคุณภาพของข้อมูล และตรวจสอบข้อจำกัดของข้อมูลเสียก่อน เพื่อให้ได้ผลลัพธ์เป็นไปตามที่ต้องการ และเกิดประโยชน์สูงสุด