Item List

Big Data และ Data Science คืออะไรและทำอย่างไร

ดร.อสมา กุลวานิชไชยนันท์ (ดร.แป้ง) CEO & Co-Founder บริษัท Coraline ผู้เชี่ยวชาญและให้บริการด้าน Big Data ได้ให้สัมภาษณ์ในรายการช่วยคิดช่วยทำ ในหัวข้อ Big Data และ Data Science ว่าคืออะไร และทำอย่างไร เป็นคลิปที่มีประโยชน์และสามารถทำให้ท่านผู้ชมสามารถเข้าใจใน Big Data และ Data Science ได้อย่างชัดเจนมากยิ่งขึ้น

"การตีโจทย์" เป็นปัญหา Basic ของ Data Scientist

Data Scientist ถือเป็นอาชีพใหม่ที่มาแรงในบ้านเรา นั่นทำให้เกิดคอร์สสอนให้เป็น Data Scientist มากมาย ที่ในรูปแบบออนไลน์ และในสถาบันการศึกษา แต่สังเกตหรือไม่คะว่าส่วนใหญ่จะสอนเพื่อ “ใช้เครื่องมือ” โดยเฉพาะอย่างยิ่ง สอนรู้จัก Machine Learning ความหมายที่แท้จริงของ Data Science หรือ วิทยาศาสตร์ข้อมูล คือ การเข้าใจธรรมชาติของข้อมูล และสามารถสร้าง Model ใหม่ๆ ได้ มิใช่เรื่องของการใช้เครื่องมือแต่อย่างใด และถึงแม้ว่าคุณจะใช้เครื่องมือเป็น คุณก็ไม่สามารถระบุปัญหาได้อยู่ดี เป็นที่น่าสงสัยว่า หากทุกคนที่เรียน Short Course ออกมาเป็น Data Scientist ได้หมด แล้วทำไมในตลาดแรงงานทุกวันนี้ ถึงยังขาด Data Scientist ตัวจริง กุญแจสำคัญ คือ "การตีโจทย์" หากตีโจทย์ไม่ได้ จะให้มีเครื่องมือมากมายแค่ไหน ก็หา Solution ไม่ได้ แล้วการตีโจทย์ต้องเริ่มจากอะไร? ก็ต้องเริ่มจากการมีพื้นฐานความเข้าใจในคณิตศาสตร์ที่ดีเสียก่อน และที่ต้องเป็นคณิตศาสตร์ นั้นเพราะ คณิตศาสตร์เป็นศาสตร์แห่งตัวเลข และนี่เรากำลังพูดถึง “ตัวเลขมหาศาล” หัวใจหลัก จึงคือ “คณิตศาสตร์” นั่นเอง ทำไม Data Scientist หลายๆ คน ไม่สามารถตีโจทย์ได้ อาจจะเป็นเพราะ ด้วยลักษณะการศึกษาของไทย ที่เน้นให้ “เชื่อ” ในสิ่งที่มีคนบอกมาโดยตลอด โดยแทบจะไม่มีโอกาสได้ “สงสัย” หรือ “คิดแตกต่าง” ได้ เป็นนิสัยที่ติดตัวมาตั้งแต่ยังวัยเยาว์ ทำไมเด็กไทยหลายคน เชื่อในสมการ และไม่คิดที่จะพิสูจน์กลไกที่มาของสมการแต่อย่างใด ในขณะที่การทำงานเป็น Data Scientist นั้น คือการคิดหา Model ใหม่ๆ ที่ช่วยแก้ปัญหา โดยการใช้ข้อมูลเป็นตัวตั้งต้น ซึ่งเป็นการ “คิดนอกกรอบ” จึงขัดกับนิสัยของเด็กไทยหลายๆ คน พอเข้าสู่การทำงาน ก็กลายเป็นว่า ตีโจทย์ไม่ได้ ต้องรอให้มีคนบอกโจทย์ บอกวิธีทำ และรอข้อมูลที่สมบูรณ์แบบเพื่อนำไปใส่ใน Code ในรูปแบบเดิมๆ ดังนั้น Data Scientist ที่กล้าตีโจทย์ ก็จะเป็นบุคคลที่สะสมประสบการณ์ให้ตัวเอง และต่อยอดไปเรื่อยๆ ได้มากกว่า Data Scientist ที่แค่เขียน Code เป็น Data Scientist ก็เป็นอีกอาชีพหนึ่งในตลาดแรงงาน ไม่ได้เรียนยากไปกว่าอาชีพอื่นๆ เพราะแต่ละอาชีพ ต้องการ Skill และมีแนวทางในการทำงานที่แตกต่างกัน ถ้ารักที่จะทำอาชีพนั้นๆ จริงๆ แล้ว ก็ต้องไม่ย่อท้อ และจง Focus ที่ “พื้นฐาน” ของอาชีพ ก่อนที่จะใช้ “เครื่องมือ” เสมอๆ เพราะเครื่องมือ มักเปลี่ยนแปลงไปตามกาลเวลา ในขณะที่พื้นฐาน จะเป็นสิ่งที่ทำให้เราต่อยอดไปได้ไกลขึ้น

"การเชื่อมโยงข้อมูล" คือ ปัญหาใหญ่ที่รอไม่ได้

Big Data มีที่มาจาก 4V ซึ่งประกอบไปด้วย “Volume, Velocity, Variety, Veracity” ซึ่ง Variety ในที่นี้ หมายถึงความหลากหลายของข้อมูล ที่มาจากแหล่งข้อมูลหลายๆ แหล่ง และมีรูปแบบโครงสร้างของข้อมูลที่แตกต่างกัน ดังนั้นการทำโครงการ Big Data จึงจำเป็นต้องมีการเชื่อมข้อมูลส่วนนี้ และจัดการให้อยู่ในรูปที่พร้อมใช้ ปัญหาข้อมูลจากแหล่งต่างๆ แยกส่วนกันเก็บ และมีค่าที่ไม่ตรงกัน เป็นปัญหาที่พบได้บ่อยและทั่วไป ซึ่งแนวทางการแก้ก็ชัดเจนอยู่ในตัวเอง ก็คือ ต้องทำความสะอาด และออกแบบช่องทางให้เก็บรวบรวมข้อมูลเอาไว้ที่เดียว เพื่อให้เกิดความสมบูรณ์แบบของข้อมูลมากที่สุด แต่แนวทางในการแก้ปัญหานั้น ค่อนข้างลำบากมาก เพราะอะไร เพราะแต่ละส่วน ต่างก็ต้องการเป็นเจ้าของข้อมูล และอาจไม่ได้รับความร่วมมือจากเจ้าของข้อมูลเดิมก็เป็นได้ อีกทั้ง แนวทางในการเชื่อมและออกแบบระบบ ก็จำเป็นต้องมีผู้เชี่ยวชาญด้านระบบ หรือ System Engineer และ Data Engineer ที่มีประสบการณ์ เป็นผู้รับหน้าที่ออกแบบและดูแลระบบนี้ ทำไมการเชื่อมโยงข้อมูล ถึงเป็น ปัญหาใหญ่ ที่รอไม่ได้ ... เพราะไม่รู้ว่าทำไมต้องรอ รอเพื่ออะไร ยิ่งรอก็ยิ่งปล่อยให้เวลาผ่านไปโดยเปล่าประโยชน์ โดยเฉพาะอย่างยิ่ง ข้อมูลที่เกี่ยวข้องกับประชาชน เช่น สิทธิด้านการบริการต่างๆ ข้อมูลการเพาะปลูกทางการเกษตร ข้อมูลการซื้อขายผลิตภัณฑ์ทางการเกษตร ข้อมูลสุขอนามัยของประชาชน อัตราการจ้างงาน ข้อมูลประทำโครงการของภาครัฐที่สามารถตรวจสอบวันเวลาของโครงการได้ เป็นต้น ข้อมูลกลางที่ถูกนำมาเชื่อมโยงกันนี้ จะสามารถนำมาวิเคราะห์และต่อยอดได้อีกมากมาย เช่น หากมีการเชื่อมโยงข้อมูลการเกษตร การท่องเที่ยว และการจ้างงาน จะทำให้ทราบได้ว่า ในแต่ละช่วงเวลา มีอัตราว่างงานสำหรับพนักงานมากน้อยเพียงใด แต่ละภาคธุรกิจ ต้องการแรงงานทักษะอย่างไร และจะมีการวางแผนให้มีการศึกษาในอนาคตได้อย่างไร เนื่องมาจากว่า แต่ละสถานที่ท่องเที่ยว มีฤดูกาลของการท่องเที่ยว เช่นเดียวกัน การเพาะปลูกก็มีฤดูกาลของการเพาะปลูก ถ้าสามารถนำข้อมูลมาเชื่อมกับการจ้างงานของภาครัฐและเอกชนได้ จะทำให้สามารถวางแผนการจ้างงานได้ เมื่อประชาชนมีงาน ก็มีรายได้ต่อไป ทั้งนี้ โครงการการวิเคราะห์อัตราการจ้างงานแบบยั่งยืนนี้ ต้องเริ่มจากการเชื่อมโยงข้อมูลที่เกี่ยวข้องกับการจ้างงานเสียก่อน ในมุมของภาครัฐ การจัดการและบริหารข้อมูล อาจจะทำได้ยากเสียหน่อย ด้วยขนาดของข้อมูล และระบบเดิมที่มีเก็บข้อมูลแยกส่วน แต่นั่นยิ่งเป็นความท้าทายที่เป็นเครื่องพิสูจน์ว่าภาครัฐจะสามารถทำโครงการใหญ่ๆ เพื่อประชาชนนี้ได้สำเร็จหรือไม่ ในส่วนของภาคเอกชนก็เช่นกัน เพราะก่อนหน้านี้ การลงทุนกับระบบต่างๆ เป็นรูปแบบของการจัดซื้อจัดจ้างแยกส่วนกัน ทำให้มีระบบ Software หลายยี่ห้อในองค์กรเดียว ส่งผลให้ข้อมูลอยู่แยกส่วนกัน การเชื่อมโยงข้อมูล จะต้องทำด้วยความต้องการของคนใน หมายความว่า คนในองค์กรต้องเป็นคนเสนอความต้องการ เพื่อให้ผู้เชี่ยวชาญทำการเชื่อมให้ โดยอาจจะเป็น Outsource หรือจะเป็น IT ขององค์กรเป็นผู้เชื่อมก็ได้ แต่ทั้งนี้ จะต้องมีความต้องการในการเชื่อมที่ชัดเจน ปัญหาอาจไม่ได้อยู่ที่ว่า ข้อมูลไม่เชื่อมกัน เพราะเครื่องมือของการเชื่อมโยงข้อมูลนั้นมีตัวเลือกมากมายในตลาด พร้อมให้หยิบใช้ได้อย่างสะดวก ปัญหาที่แท้จริง คือ ยังไม่รู้ว่าจะต้องเอาอะไรมาเชื่อมกันอะไรมากกว่า เพราะถ้าไม่มี “เป้าหมาย” ของการทำโครงการ ก็ยังไม่ทราบอยู่ดีว่าต้องนำอะไรมาเชื่อมกับอะไร อย่างไรก็ตาม หากไม่มีการเชื่อมโยงข้อมูล ก็ไม่สามารถวิเคราะห์ข้อมูลต่อได้ ทำให้ข้อมูลที่มีอยู่ อาจไม่มีประโยชน์อะไร ซึ่งเรามีความจำเป็นที่ต้องมี Big Data ให้พร้อม ก่อนที่ AI จะเข้ามา Disrupt ระบบอะไรหลายๆ อย่าง เพราะ AI ต้องใช้ Big Data เป็นแหล่งข้อมูล แต่หากไม่มี Big Data ให้ AI เรียนรู้ AI นั้นก็จะไม่มีประโยชน์อะไรเช่นกัน ที่บอกว่า ต้องทำโดยเร็ว เพราะในแต่ละวัน มีข้อมูลเกิดขึ้นมากมาย แค่ข้อมูลเก่า ยิ่งปล่อยไป ยิ่งมีขนาดใหญ่ และมีความซับซ้อนมากขึ้น จึงต้องเร่งทำ “เดี๋ยวนี้” ทั้งนี้ งานยิ่งมีความ “ใหญ่” มากเท่าใด ก็ยิ่งต้องได้รับความร่วมมือมากเท่านั้น ในความเป็นจริง อาจไม่จำเป็นต้องมองเป็นภาพใหญ่ที่สุด ณ ที่ปลายสุด แต่เราสามารถเริ่มได้ทีละนิดละหน่อย เพราะให้เกิดเป็นผลสำเร็จเล็กๆ และเดินต่อไปเรื่อยๆ จนถึงชัยชนะที่วางเอาไว้ แต่หากเราไม่ทำอะไรเลย .... ไม่ใช่แค่เราจะหยุดนิ่ง แต่เราอาจจะกำลังเดินถอยหลัง เพื่อรอถึงวันที่คนอื่นเข้ามาทำร้ายเราก็เป็นได้ หากมีข้อมูลที่อยู่กันกระจัดกระจาย ต้องให้คนไป save หรือ ต้องรอเพื่อได้มาซึ่งข้อมูลนั้นนานแสนนาน นั่นแหละค่ะ คือ คอขวดของโครงการ Big Data อย่างหนึ่ง .... และควรได้รับการแก้ไข ด้วยการเชื่อมโยง ให้เป็นระบบที่สมบูรณ์

"ช่องว่างระหว่างธุรกิจกับผู้เชี่ยวชาญ"

ปัญหาหนึ่งที่พบมากในการทำงานด้านข้อมูล คือ ช่องว่างระหว่าง Business กับ Technician เพราะมุมมอง และเป้าหมายของสองฝั่งนี้ไม่เหมือนกัน Business มักจะมองหา Return of Investment หรือ Payback period เป็นหลัก โดยเขียน Business Case ขึ้นมาเพื่อใช้อธิบายโปรเจค ในขณะที่ Technician จะมองหา Innovation ใหม่ๆ พิสูจน์อะไรลึกๆ และมักจะอ้างถึงหลักการยากมาอธิบายหลักการ ในความเป็นจริงแล้ว ทั้ง Business และ Technician ต่างเป็นฟันเฟืองที่สำคัญในการขับเคลื่อนองค์กร เพียงแต่ทั้งสองฝ่ายนี้ มีหน้าที่ต่างกัน Business มีหน้าที่ตั้งโจทย์ บอก Condition และตัดสินใจ ในขณะที่ Technician มีหน้าที่เสนอแนวทางแก้ปัญหา และบอกข้อดี ข้อเสีย ของแต่ละข้อเสนอ ตัวอย่างเช่น การเลือก Vender ในที่นี้ Vender แต่ละเจ้าทำหน้าที่คล้าย Technician ที่มีข้อเสนอ 1 ข้อ หน้าที่ของ Business จะต้องมองให้ออกมา ว่าเจ้าไหนเหมาะกับธุรกิจมากที่สุด โดยมี Condition ต่างๆ เช่น ราคา ค่าใช้จ่าย เวลาในการ Deploy หรือความเหมาะสมทางการใช้งานอื่นๆ ซึ่งช่องว่างของทั้งสองฝ่ายที่เกิดขึ้น มักเกิดจากการสื่อสาร และความไม่เข้าใจในหน้าที่ของแต่ละฝ่าย ดังนั้น วิธีการแก้ปัญหานี้คือการสร้างความเข้าใจในหน้าที่ของฝ่ายตรงข้ามให้ชัดเจน Business ต้องสามารถถามคำถามที่ท้าทาย Technician ได้ เช่น เมื่อ Model นี้มี Accuracy 80% แล้วเราจะมีแนวทางในการรองรับ Error อีก 20% ได้อย่างไร ในทางกลับกัน Technician ต้องสามารถสอบถาม Condition ต่างๆ มาให้ได้ครบก่อนจะนำเสนอ Final Solution เช่น ช่องทางการส่งข้อมูลเพื่อยื่นอำนาจตัดสินใจ หรือ รูปแบบในการใช้งานกับหน่วยงานอื่นๆ เป็นต้น เพราะสุดท้ายแล้วเป้าหมายของการโปรเจคก็คือความสำเร็จของโปรเจคที่ต้องร่วมมือกันเป็นทีม

%Accuracy ไม่ใช่คำตอบสุดท้ายเสมอไป

%Accuracy คือ การวัดความแม่นยำของการทำนายผล ก่อนที่จะไปถึงเนื้อหาว่า ทำไม %Accuracy ไม่ใช่คำตอบสุดท้ายเสมอไป มาทำความเข้าใจกันก่อนว่า Machine Learning Model แบ่งออกเป็น ประเภทใหญ่ๆ คือ Supervised กับ Unsupervised Model แตกต่างกันที่ Supervised Model จะมีต้นแบบ หรือ Target ให้เป็นตัวอย่าง ในขณะที่ Unsupervised Model จะไม่มีต้นแบบนั้น ดังนั้น ในการวัดผลประสิทธิภาพของ Model สำหรับ Supervised Model จึงใช้ %Accuracy เป็นหลัก ทั้งนี้ ในส่วนของ Unsupervised Model จะไม่สามารถวัด %Accuracy ได้ %Accuracy อาจวัดได้จากความคลาดเคลื่อนของผลการทำนายจากค่าจริงที่เกิดขึ้น ซึ่งไม่มีตำราไหนบอกอย่างชัดเจนว่า %Accuracy ควรเป็นเท่าไหร่ เหตุผลที่ว่า ไม่มีข้อบัญญัติชัดเจน ว่า %Accuracy ที่ดีควรเป็นเท่าไหร่ เพราะว่าโจทย์ รวมไปถึง ชุดข้อมูลแต่ละแบบ จะมีข้อจำกัด และสภาพแวดล้อมที่แตกต่างกัน โดยปกติแล้ว Data Scientist จะสร้าง Model หลายๆ Model และนำผลลัพธ์มาเปรียบเทียบกัน เพื่อคัดเลือก Model ที่มีประสิทธิภาพดีที่สุด ในคำ “ประสิทธิภาพ” นั้นวัดผลได้หลากหลายรูปแบบ ไม่ว่าจะเป็น %Accuracy Speed และงบประมาณที่ใช้เพื่อการประมวลผล อย่างไรก็ตาม %Accuracy ดูเหมือนจะเป็นเรื่องที่ Data Scientist ให้ความสำคัญที่สุด เพราะนี่คือ ความท้าทายในเชิงเทคนิค (ในขณะที่เรื่องงบประมาณ อาจจะไม่ใช่ข้อจำกัดที่ Data Scientist ต้องคำนึงถึง) ตามหลักการแล้ว Data Scientist จะเลือก Model ที่มีประสิทธิภาพดีที่สุดมานำเสนอให้ Business รับทราบ และ Business มีหน้าที่ในการสอบถาม หรือ ทำการเลือก Model ที่เหมาะสมในขั้นตอนสุดท้าย ดังนั้น หาก Business ไม่เข้าใจกลไกการทำงานของ Model ก็อาจไม่สามารถตัดสินใจได้ ประเด็นสำคัญของบทความนี้ แบ่งออกเป็น 2 ประเด็น 1. ในกรณีที่ได้ผลลัพธ์ที่มี %Accuracy สูงๆ อาจต้องมีการพิจารณาปัจจัยอื่นประกอบด้วย เช่น - จำนวนข้อมูลที่นำไป Train มากพอหรือไม่ ข้อมูลที่นำไปทดสอบ สามารถเชื่อถือได้หรือไม่ - ใช้เวลาในการสร้าง Model นานเท่าไหร่ - วิธีการวัด %Accuracy คำนวณอย่างไร - ในการนำ Model ไปขึ้นระบบจริง มีขั้นตอนอย่างไร รวมไปถึง แนวทางในการเชื่อมโยงข้อมูลกับระบบอื่นๆ ตัวอย่างเช่น Netflix ได้ประกาศว่า ไม่มีการใช้ Model ที่ชนะการประกวด ซึ่งเป็น Model ที่สามารถเพิ่ม %Accuracy ในการแนะนำหนังให้ลูกค้าได้มากขึ้น 10% เหตุผลคือ การนำ Model นี้ไปขึ้นระบบจริง จะมีผลต่อระบบกลไกภายในอย่างมาก นำพามาซึ่งค่าใช้จ่ายมหาศาล เป็นต้น 2. ในกรณีที่ผลลัพธ์มี %Accuracy น้อยกว่าที่คาดการณ์เอาไว้ แม้ว่า Data Scientist จะได้ทำการสร้าง Model หลายๆ แบบ และมีการเปลี่ยนปัจจัยไปแล้วหลายครั้ง อาจเป็นไปได้ว่า ยังมีข้อมูลไม่พอ หรือ ตัวข้อมูลยังไม่มีคุณภาพมากพอ ซึ่งแนวทางการแก้ไข ไม่ใช่การสร้าง Model ที่แสนวิเศษ แต่เป็นการแก้ที่ต้นตอ นั่นคือ ช่องทางการได้มาซึ่งข้อมูล จากประสบการณ์ของทีม Coraline จะได้รับคำถามเกี่ยวกับ %Accuracy บ่อยครั้ง ซึ่งเราขอเสนอกรณีศึกษาเกี่ยวกับการทำนายยอดขายสินค้า 2 กรณีด้วยกันดังนี้ 1. โครงการแรก เราพบว่า จะมีการสั่งสินค้าจากส่วนกลางไปยังสาขาก็ต่อเมื่อสินค้าหมด หรือ ลูกค้ามาซื้อของแล้วไม่ได้ของ หลายครั้งที่พบว่า มีความต้องการสินค้า แต่ไม่มีการขายสินค้า ทำให้เห็นยอดการขายเป็น 0 บ่อยครั้ง เกิดจากการไม่มีสินค้าสำรองที่หน้าร้าน เมื่อนำข้อมูลมาสร้าง Model ทำให้ %Accuracy จึงไม่สูงมาก (ประมาณ 65%) แต่เจ้าของโครงการมีความเข้าใจในระบบฐานข้อมูลเดิมที่ไม่เรียบร้อย จึงพอใจกับผลการทำนายอย่างมาก 2. โครงการที่ 2 เราพบว่า ในส่วนของการทำงานที่หน้าร้าน มีกรณีขายสินค้าไปก่อน โดยที่ยังไม่มีการ Key สินค้าเข้าระบบ ทำให้เห็นจำนวนสินค้าคงคลังเป็นค่าติดลบ อีกทั้ง ยังมีการคืนย้อนหลังของบ่อยครั้ง เกิดจากการยิง Barcode ผิดตำแหน่ง ก่อนที่เราจะนำข้อมูลนี้ไปสร้างเป็น Model เราได้มีการปรึกษาเรื่องความถูกต้องของข้อมูลกับเข้าของโครงการ และได้รับคำตอบมาว่า ไม่สามารถเปลี่ยนแปลง Operation ได้ เนื่องจากยุ่งยากและซับซ้อนเกินไป ทำให้ Transaction รายวันในระบบมีความคลาดเคลื่อนอย่างมาก แม้จะมีการ Clean ข้อมูลเบื้องต้น แต่เป็นการ Clean ภายใต้ข้อจำกัด ทำให้ผลลัพธ์ในการทำนาย มี %Accuracy อยู่ที่ 75% อย่างไรก็ตาม ทางเราได้รับ Feedback กลับมาว่า %Accuracy นี้ น้อยเกินไป กรณีตัวอย่าง ทั้ง 2 กรณี กำลังบ่งบอกถึงความเข้าใจในการใช้ Data จากเจ้าของโครงการทั้ง 2 โครงการ หลายคนคิดว่า Big Data คือ ยาสารพัดโรค และ Data Scientist คือ ผู้วิเศษ (ในความเป็นจริง ถ้า Data Scientist เป็นผู้วิเศษขนาดนั้น ก็คงสร้าง Model ทำนายเศรษฐกิจ หรือเล่นหุ้นอยู่ที่บ้านแสนสบายกันไปทุกคนแล้ว) ทุกอย่างมีหลายด้าน (มากกว่า 2 ด้าน) ไม่ว่าจะเป็นกรณีที่ %Accuracy สูงมากๆ หรือ %Accuracy น้อยมากๆ ก็ตาม เพราะ Model เกิดจากการนำ Data มาต่อยอด และพื้นฐานการสร้าง Model คือ การลองผิดลองถูก ถ้าเรามีต้นแบบที่ถูกต้อง ก็จะสามารถเลียนแบบความถูกต้องนั้นได้ แต่ถ้าต้นแบบผิดเพี้ยน จะหวังให้ได้ผลลัพธ์ที่มีคุณภาพก็คงจะยาก ในขณะเดียวกัน %Accuracy อาจมีความเกี่ยวข้องโดยตรงต่อระบบการประมวลผล เพราะยิ่งคิดเยอะเท่าไหร่ ก็ยิ่งได้ผลลัพธ์ที่ลึกมากเท่านั้น นั่นอาจหมายถึง ค่าใช้จ่าย และความซับซ้อนของระบบที่มากเกินไป การช่วยกันตรวจสอบความถูกต้องของระบบนี้ ไม่ใช่การจับผิดซึ่งกันและกัน แต่เป็นการช่วยเหลือกันให้เกิดการปรับปรุงและพัฒนาไปในทิศทางที่ดีขึ้น เพราะเรื่องราวเกี่ยวกับ Big Data นั้นใหญ่สมชื่อ และมีผู้เกี่ยวข้องจำนวนมาก ทั้งนี้ หัวใจหลัก คือ การดำเนินโครงการได้สำเร็จสมบูรณ์ ดังนั้น “ความเข้าใจ” จึงเป็นพื้นฐานที่สำคัญ และ “ความเข้าใจ” นี้ ต้องเกิดจากการเรียนรู้ และยอมรับทั้งในหน้าที่ของตัวเอง และในความเชี่ยวชาญของผู้ร่วมทีม แม้ว่า %Accuracy จะเป็นการวัดผลที่จับต้องได้มากที่สุด แต่ก็ไม่ควรมองข้ามปัจจัยอื่นๆ ด้วย เพราะสิ่งอื่นๆ ที่วัดผลได้ยากอาจเป็นตัวที่สำคัญกว่าก็เป็นได้

10 reasons why Data Science Projects fail

10 เหตุผลที่โครงการ Data Science ล้มเหลว จากรายงานของ Gartner พบว่ามีโครงการเพียง 15% - 20% เท่านั้นที่ประสบความสำเร็จ และมีเพียง 8% ที่ได้ผลลัพธ์ที่ดี เกิดอะไรขึ้นกับโครงการเหล่านี้ ??? ใบบทความต้นแบบได้เสนอแนวคิดถึงปัญหาของความล้มเหลวไว้ดังนี้ On the business side, 1. ได้ผลลัพธ์ในเชิง Data Science ออกมาแล้ว แต่ฝั่ง Business ไม่นำผลลัพธ์ไปใช้งาน 2. ในโครงการ Data Science ไม่มีฝั่ง Business ไปเกี่ยวข้องแต่แรก ทำให้ไม่ได้รับ Credit และไม่เป็นที่ยอมรับ 3. ฝั่ง Business มีภาระงานเยอะ จนไม่สามารถเข้าใจกลไกการทำงานของโครงการ Data Science 4. ได้ลองนำผลลัพธ์ไปใช้งานแล้วแต่ให้เวลาน้อยเกินไป ทำให้ไม่เห็นถึงผลลัพธ์ที่แท้จริง 5. ทีมงานให้ความสำคัญแต่ผู้บริหารไม่ให้ความสำคัญ On the data science side, 1. Data Scientist ให้ความสำคัญกับ Algorithm หรือ วิชาการมากเกินไป 2. Data Scientist สื่อสารในเชิงธุรกิจไม่ได้ ทำให้ไม่เห็นภาพ 3. Data Scientist ตั้งสมมติฐานไม่ถูกต้อง 4. Data Scientist ยังไม่เก่งพอ On both sides, ทางธุรกิจไม่เข้าใจการทำงานในเชิง Data Science ในขณะที่ Data Scientist ไม่เข้าใจธุรกิจ ซึ่งทั้งสองฝ่ายไม่สื่อสารกัน ปัญหาเหล่านี้ มีทางแก้ โดยการ Setup โครงการอย่างมีกิจลักษณะ กล่าวคือต้องมีผู้รับผิดชอบชัดเจนในแต่ละหน้าที่ มีการรายงานความคืบหน้าที่เป็นลายลักษณ์อักษร ทุกคนต่างมีเวลาในการสื่อสาร และตรวจสอบกันและกัน แต่ละส่วนอาจจะมีการตั้งคำถามของตัวเอง เช่น Business question: โครงการนี้มีวัตถุประสงค์อย่างไร กระทบกับการทำงานส่วนไหน และใครที่ได้รับผิดกระทบบ้าง Data collection: ฝ่าย IT ต้องเตรียมข้อมูลอะไรให้ ในรูปแบบไหน ส่งมอบเมื่อไหร่ เก็บข้อมูลที่ไหน ทั้งนี้ คนที่นั่งหัวโต๊ะ เป็นคนที่มีความสำคัญอย่างมาก อาจจะเป็น Project Manager หรือ ผู้บริหาร ที่สามารถตัดสินใจได้ทั้งฝั่ง Data Science และ Business จากประสบการณ์ของ Coraline พบว่า โครงการ Data Science สามารถใช้เวลาเพียงไม่นานในการพัฒนาและขึ้นระบบ หากได้รับความร่วมมือ และมีการติดตามอย่างต่อเนื่อง References :
https://fastdatascience.com/why-do-data-science-projects.../

2 ปัญหาพื้นฐานที่ต้องแก้ด้วยโครงการ Big Data

เมื่อพูดถึงคำว่า Big Data เชื่อว่าหลายๆ คน ต้องเคยได้ยินคำนี้ และหลายบริษัท หรือ องค์กรต่าง ๆ ก็ต่างมีนโยบายที่จะต้องใช้ Big Data กันโดยทั้งสิ้น อย่างไรก็ตาม การจะกำหนดหัวข้อที่ต้องใช้ Big Data อาจไม่ใช่เรื่องง่าย เพราะการจะทำโครงการใด ๆ ควรเริ่มจาก “ปัญหา” เพราะการทำโครงการนั้นหมายถึงการแก้ปัญหา ปัญหาที่ต้องแก้โดย Big Data แบ่งออกเป็น 2 เรื่องใหญ่ ๆ ได้แก่ 1. ปัญหาเรื่องการเชื่อมโยงข้อมูล หากหน่วยงาน หรือองค์กรไหน มีปัญหาเรื่องการขอข้อมูลที่ต้องรอ การเข้าถึงข้อมูลช้า หรือแม้กระทั่ง การจะได้มาซึ่งข้อมูลยังต้องใช้วิธี Save as หรือ Key เข้าระบบใหม่ นี่ถือว่าเป็นปัญหาที่ต้องแก้ไขโดยด่วน โดยเฉพาะอย่างยิ่ง เมื่อต้องการผลักดันให้องค์กร ทำธุรกิจแบบ Data Driven และต้องการให้เกิด Digital Transformation 2. ปัญหาเรื่องการวิเคราะห์ หรือตัดสินใจที่เกิดจากการตัดสินใจหน้างานโดยไม่มีขั้นตอนในการตัดสินใจอย่างชัดเจน หากหน่วยงานหรือองค์กรไหน ยังใช้พนักงานในการตัดสินใจเป็นหลัก โดยไม่มีกฎเกณฑ์ที่ชัดเจน หรือแม้กระทั่ง การวิเคราะห์คำนวณใน Excel แล้วนำผลลัพธ์ไปแสดงผลใน Power Point ซึ่งไม่ทันการ ถือว่าเป็นความเสี่ยงด้าน Operation อย่างหนึ่ง ที่อาจไม่สามารถยอมรับได้ในยุค Digital จะเห็นได้ว่า ปัญหาทั้ง 2 ปัญหานั้น เป็นปัญหาพื้นฐาน ที่หลายองค์กรกำลังพบเจอ แต่อาจจะไม่รู้ตัวว่านี่คือปัญหา และสามารถแก้ได้โดยการทำโครงการ Big Data นอกจากนี้ ยังมีปัญหาเชิงลึก หรือ ปัญหาเรื่องธุรกิจที่ต้องการใช้ข้อมูลในการต่อยอดต่างๆ อีกมากมาย ซึ่ง Big Data สามารถช่วยได้ตราบใดก็ตามที่สามารถมีแหล่งข้อมูล เชื่อมโยงข้อมูล วิเคราะห์ข้อมูล และนำผลลัพธ์ไปใช้งานต่อให้เกิดประโยชน์สูงสุด การทำโครงการ Big Data คือ การใช้ประโยชน์จากข้อมูลให้ได้มากที่สุด มิใช่เพียงการเก็บข้อมูลเอาไว้เฉย ๆ เท่านั้น การเริ่มทำโครงการที่ดีที่สุด คือ การเริ่มจากการระบุปัญหา เพื่อนำปัญหานั้น ไปเป็นตัวตั้งต้นสำหรับการสร้าง Solution หรือ ทางออกต่อไป แต่หากไม่สามารถระบุปัญหาได้ การทำโครงการทั้งๆ ที่ยังไม่เห็นปัญหา อาจจะเป็นการเพิ่มภาระงาน หรืออาจจะเป็นการสร้างปัญหาเพิ่มเติมก็อาจจะเป็นได้ จะเห็นได้ว่า การเริ่มโครงการ ไม่ได้เริ่มจากการมีผู้เชี่ยวชาญ แต่ต้องเริ่มจากการที่เจ้าของโครงการเข้าใจตัวเองเสียก่อน เพื่อสามารถระบุได้ว่า ต้องการเทคโนโลยี หรือแม้กระทั่ง ต้องการบุคลากรในทักษะใด ที่จะสามารถช่วยแก้ปัญหานั้น ๆ ได้ต่อไป

4 Levels of Analytics

สำหรับการวิเคราะห์ข้อมูลนั้นจะแบ่งออกเป็น 4 ระดับดังนี้ 1. Descriptive คือการอธิบายสถานะของข้อมูลโดยการวิเคราะห์ในเชิงสถิติขั้นต้น เพื่อทำความเข้าใจรายละเอียดของข้อมูลนอกจากนี้ยังเป็นส่วนของการตรวจสอบและทำความสะอาดข้อมูลอีกด้วย 2. Diagnostic คือการวิเคราะห์ข้อมูลโดยศึกษาปัจจัยที่เกี่ยวข้องกันมากกว่า 2 ปัจจัย ทำให้เห็นเหตุผลของการเปลี่ยนแปลงของข้อมูลมากขึ้น อาจ Probability หรือ Clustering เข้ามาช่วยวิเคราะห์ได้ 3. Predictive คือการนำข้อมูลในอดีตมาทำนายอนาคตโดยใช้ปัจจัยที่เคยเกิดขึ้นในอดีต 4. Prescriptive คือการตั้งสมมติฐาน หากมีการเปลี่ยนแปลงเกิดขึ้นแล้วจะผลเกิดขึ้นอย่างไร ได้ผลลัพธ์อย่างไร ในการวาง Model Pipeline ขั้นตอน Descriptive จะเกิดก่อนเสมอและมักจะเป็นขั้นตอนที่ใช้เวลานานเพราะต้องทำงานกับ Data Owner และผู้เกี่ยวข้องหลายส่วนแต่เมื่อเข้าใจสถานะของข้อมูลอย่างครบถ้วนแล้วในขั้นตอนการวิเคราะห์เชิงลึกจะสามารถมองเห็น Insight และได้ผลลัพธ์ที่สร้าง Impact ได้อย่างมาก แต่หากละเลยการวิเคราะห์แบบ Descriptive ไป ผลลัพธ์ที่ได้จากการวิเคราะห์เชิงลึกหรือแม้แต่การสร้าง Model ก็อาจจะไม่ตอบโจทย์ก็เป็นได้ Model Pipeline จำเป็นจะต้องถูกออกแบบโดยผู้เชี่ยวชาญที่มีประสบการณ์เพราะเป็นการเชื่อมโยง Model เรียงร้อยต่อกันเป็นลำดับขั้น มิใช่แค่การสร้าง Model ใด Model เดียว อ่านรายละเอียดเรื่อง Model Pipeline ได้ที่ >>> https://www.facebook.com/coralineltd/posts/1089929861505829 #BigData #DataScience #Optimization #ProductivityImprovement #DigitalTransformation #MachineLearning #ArtificialIntelligence #DataManangement #DataGovernance #DataQuality #DeepLearning #Coraline We turn your DATA into your KEY of SUCCESS. Email: inquiry@coraline.co.th Tel: 099-425-5398

4 ขั้นตอนการ Clean Data สำคัญไฉน
: Why data quality is a KING?

คุณรู้หรือไม่ว่า Data Scientist ที่ทำงานจริงส่วนใหญ่ใช้เวลากว่า 80% ในการ Clean ข้อมูล และใช้อีก 20% ที่เหลือในการสร้างโมเดล การ Clean ข้อมูลนี้ เปรียบเหมือนการทำอาหาร เมื่อเรามีวัตถุดิบ นอกจากการคัดสรรวัตถุดิบอย่างพิถีพิถันแล้ว เรายังต้องนำวัตถุดิบนั้นมาทำความสะอาด ปลอกเปลือก ตัดแต่งส่วนที่เน่าเสียออก หั่นให้เป็นรูปร่างที่พร้อมปรุง และอีกหลากหลายขั้นตอน เพื่อให้อาหารจานนั้นถูกปรุงออกมาอย่างดีที่สุด เหตุผลที่ข้อมูลไม่สะอาดนั้น มีที่มาได้จากหลากหลายสาเหตุ ตั้งแต่การพิมพ์ผิด พิมพ์ตก เครื่องมือเกิด Error หรือ ข้อมูลตัวเลขที่มีความเป็นไปได้น้อยมาก เช่น คนอายุ 120 ปี หรือ ส่วนสูง 230 ซม. เป็นต้น ซึ่งในทางเทคนิคจะเรียกว่าข้อมูลที่อยู่นอกกลุ่มว่า "Outlier" ดังนั้น Data Scientist ที่ดีนั้นจำเป็นต้องแสดงให้เจ้าของข้อมูลนั้นเข้าใจว่า การ Clean Data นั้นเป็นขั้นตอนที่ยาก สำคัญ และใช้เวลานาน เพราะนอกจากการหาคำจำกัดความของ “ความไม่สะอาด” ของข้อมูลแล้ว เรายังต้องหาวิธีจัดการกับข้อมูลที่ตกหล่นหายไป หรือที่เราเรียกว่า "Missing value" อีกด้วย ทั้งหมดนี้ Data Scientist จำเป็นต้องใช้กลไกทางความคิดเพื่อออกแบบเป็นโมเดลสำหรับการ Clean Data โดยเฉพาะ เนื่องจากเรากำลังพูดถึงข้อมูลขนาดใหญ่ หรือ Big Data ที่ตาเปล่าและสองมือไม่สามารถจัดการได้ไหว ขั้นตอนเบื้องต้นในการ Clean ข้อมูล 4 ขั้นตอน ได้แก่ 1. Parsing คือ การแจกแจงข้อมูล หรือการใช้หัวข้อของชุดข้อมูล เช่น ชื่อ: สมศรี, จังหวัด: กรุงเทพ, น้ำหนัก: 75, ส่วนสูง: 160, อายุ: 60, เพศ: หญิง ความสำคัญของขั้นตอนนี้ไม่ใช่แค่การใช้ Head ของข้อมูล แต่เป็นการทำความเข้าใจว่าคำจำกัดความของชุดข้อมูลนั้นๆ คืออะไร รวมไปถึงเข้าใจค่า และความหมายของมัน เช่น มีค่าสูงสุด หรือ ต่ำสุดเท่าไหร่ เป็นต้น 2. Correcting คือ การแก้ไขข้อมูลที่ผิดพลาด เช่น ในช่องเพศ มีการใส่ตัวเลข หรือแม้กระทั่งตัวเลขที่ผิดปกติไปเนื่องจากมี 0 เกินมา ก็เป็นได้ วิธีการ Correct data นี้ต้องใช้กลยุทธ์ทางสถิติกันหน่อย ไม่ว่าจะเป็นการหาค่าเฉลี่ย ค่าเบี่ยงเบียนมาตรฐาน หรือ standard deviation หรือแม้กระทั่งการใช้ Clustering algorithm ก็ช่วยได้ หลังจากนั้นก็ต้องมาพิจารณากันต่อว่า ในช่องที่มีข้อมูลผิดพลาดนั้น เราจะมีการลบทิ้งทั้งแถวไปเลย หรือจะแก้ไขข้อมูลที่ผิดนั้นด้วยการแทนที่ด้วยตัวใดตัวหนึ่ง ถ้านึกอะไรไม่ออกก็ให้นึกถึง หลักการสิถิติเข้าไว้ก่อน ดังกราฟนี้ 3. Standardizing คือ การทำข้อมูลให้เป็นรูปแบบเดียวกัน ตัวอย่างเช่น จังหวัด กรุงเทพฯ ที่มีรูปแบบ กทม. กรุงเทพฯ และ กรุงเทพมหานคร ซึ่งคอมพิวเตอร์ไม่สามารถทราบได้เองว่ามันคือจังหวัดเดียวกัน ส่วนข้อมูลที่เป็นตัวเลขนั้น ในกรณีที่ต้องการแก้ปัญหาเรื่องหน่วย หรือความกว้างของข้อมูลที่ไม่เหมือนกัน สามารถวิธี Standard Normal Distribution ได้ ซึ่งวิธีนี้เป็นการจัดเรียงข้อมูลให้อยู่ในรูป Normalization หรือ ระฆังคว่ำที่เราคุ้นเคยกันดี สูตรการทำ Standardization คือ 4. Duplicate Elimination คือ การลบชุดข้อความซ้ำซ้อนทิ้ง ซึ่งอาจต้องใช้การเขียน Algorithm เพื่อระบุชุดข้อมูลที่ซ้ำซ้อน ด้วยความยาก และใช้เวลานานกว่าจะได้ข้อมูลที่พร้อมนำไปสร้าง Model ตอนนี้หลายๆ องค์กรที่มีโครงการทำ Big Data System จึงให้ Data Scientist เป็นผู้ออกแบบวิธีการเก็บข้อมูล ควบคู่ไปกับ Data Engineer ด้วย ซึ่งจะเห็นได้ว่า การ Clean Data นั้น ต้องอาศัยความรู้ด้านสถิติ และความคิดสร้างสรรค์ในการออกแบบ Algorithm หรือการเขียนโปรแกรมมาประกอบกัน การเป็น Data Scientist ที่ดี ควรให้ความสำคัญกับการ Clean ข้อมูลไม่แพ้การสร้าง Model เพราะหากเมื่อวัตถุดิบที่มีไม่สะอาดสมบูรณ์ ก็ยากนักที่จะได้ผลลัพธ์ออกมาสวยงามแบบได้ตามที่ต้องการ

4 ความท้าทายในการใช้ Big Data ของนักการตลาด

เชื่อหรือไม่ว่าทุกวันนี้ มีการใช้ข้อมูลถึง 2.5 Quintilian bytes (ศูนย์ 18 ตัว) ต่อวันกันเลยทีเดียว ใหญ่ขนาดไหน ลองนึกภาพดูว่า ตัวเลขนี้เทียบเท่ากับ iPAD ขนาด 32 GB จำนวน 57.5 ล้านล้านเครื่อง ซึ่งข้อมูลพวกนี้ อาจจะอยู่ในรูปของการ Like Share Download หรือทั้งในแบบที่เป็นตัวเลข ภาพนิ่ง เสียง และรวมไปถึงข้อมูลรายละเอียดจงเจาะอื่น ๆ อย่างไรก็ตาม การวิจัยจาก Chief Marketing Officer (CMO) Council พบว่าวงการการตลาดมีความตื่นตัวในการใช้พลัง Big Data น้อยมาก ตัวเลขที่ว่า คือ เพียง 7% ของนักการตลาดเท่านั้นที่ใช้กำลังทำธุรกิจแบบ Data-Driven

หากเรามองกลับไปในยุคก่อนหน้านี้ การทำการตลาด มักจะใช้ประสบการณ์และความเชี่ยวชาญส่วนบุคคลเป็นเกณฑ์ในการตัดสินใจ ที่ไม่มีถูกผิด แต่ในยุคนี้ เป็นยุคที่ผู้บริโภคมองหาความแม่นยำของข้อมูลมากขึ้น จึงเป็นความท้าทายที่นักการตลาด และ ธุรกิจต่างๆ ต้องทำการบ้านให้หนักขึ้นตามไปด้วย

สำหรับสิ่งที่เป็นความท้าทายในการใช้ Big Data ของนักการตลาด มี ดังนี้ 1. ความสมบูรณ์ และความถูกต้องของข้อมูล
ในช่วงปีหลังๆ มานี้ การจัดเก็บข้อมูล และการเข้าถึงข้อมูลสามารถทำได้ง่ายขึ้น และด้วยความเยอะเหล่านี้ จึงเป็นปรกติที่ข้อมูลนั้นจะมีความ “ไม่เป็นระเบียบ ไม่แน่นอน ไม่แม่นยำ และไม่สะอาด” ของข้อมูลรวมอยู่ด้วย ความท้าทายของนักการตลาดในข้อนี้ จึงอยู่ที่ว่า เราจะเลือกได้อย่างไร ว่าข้อมูลชุดไหน เหมาะกับ Campaign ไหน หรือตรงกับลูกค้ากลุ่มไหนมากที่สุด และที่ยากยิ่ง คือการ Clean หรือทำให้ชุดข้อมูลนั้นสมบูรณ์แบบ ถูกต้องที่สุด ก่อนที่จะนำมาวิเคราะห์ต่อไป

ในการแก้ปัญหานี้ ต้องอาศัยทั้ง Data Engineer และ Data Analyst เฉพาะทางเข้ามาช่วย เพื่อเลือก Platform ที่เหมาะสมที่สุด และอาจจะต้องมีการทำ Data Visualization เพื่อสร้างมุมมองของข้อมูล รวมไปถึงเทคนิคต่างๆ ที่เข้ามาระบุ Dirty หรือความไม่แน่นอนของชุดข้อมูลนั้น ๆ ก่อนที่จะสามารถนำไป Analysis ในขั้นตอนต่อไป ได้ 2. ความสามารถในการมอง Big Data ได้ครบ 360 องศา จนสร้างความเข้าใจเชิงลึกได้
ปัญหาที่เกิดบ่อยครั้ง คือ การที่เรามีข้อมูลแล้ว แต่ยังไม่รู้จะทำไปใช้ต่อได้อย่างไร เช่น รู้ว่ามียอดซื้อเท่าไหร่ รู้ว่ามีจำนวนลูกค้าเท่าไหร่ แต่ไม่สามารถนำข้อมูลตรงนี้ไปต่อยอดได้

การแก้ปัญหาตรงนี้ ต้องอาศัยที่ประสบการณ์การเป็นนักการตลาด และความเข้าใจเรื่องการวิเคราะห์ และเครื่องมือต่างๆ ไม่ว่าจะเป็น Machine Learning หรือ Business Intelligence ต่างๆ ซึ่งสิ่งแรกที่ต้องทำความเข้าใจก่อน คือ ข้อมูลที่เรามีอยู่นั้น มีความลึกเพียงใด เช่น มีข้อมูลลูกค้าซื้อสินค้า แต่ไม่มีข้อมูลตัวตนของลูกค้า แบบนี้ก็อาจนำไปต่อยอดได้ลำบาก เพราะการแก้ปัญหานี้ จึงต้องกระทำควบคู่กันไประหว่างทำความเข้าใจเครื่องมือในการวิเคราะห์ หรือสร้างโมเดล ไปพร้อมกับต้องสามารถระบุตัวแปร หรือข้อมูลที่ต้องใช้ในการวิเคราะห์ด้วย จึงสามารถสร้างมุมมองได้สมบูรณ์ 360 องศา 3. ปัญหา และข้อจำกัดในการเข้าถึงข้อมูลเจาะจงของลูกค้า
อย่างที่ทราบกันดีว่า Privacy หรือ ความเป็นส่วนตัวของบุคคลเป็นสิ่งที่แต่ละคนหวงแหน บางธุรกิจสามารถสร้างฐานข้อมูลของลูกค้าได้เองจากการพัฒนาระบบ Membership แต่ในบางธุรกิจจำเป็นต้องทราบข้อมูลภายนอกองค์กรมาเสริมการตลาดด้วย ตัวอย่างเช่น ธุรกิจอสังหาริมทรัพย์ ที่ผู้ซื้อขายมักเป็นลูกค้าประเภทหน้าใหม่ เป็นต้น

ปัจจุบันมีหลายภาคส่วนที่เปิดให้มีการนำข้อมูลไปใช้ต่อได้ ทั้งภาครัฐ และองค์กรต่างๆ รวมไปถึง Google เองก็มี Platform ที่สามารถ Analysis ระบุตัวต้น หรือความสนใจของคนใช้งานบน Internet ได้ 4. การตัดสินใจ หรือออกแบบ Campaign ต่างๆ ตามความต้องการจริง ไม่ทันการณ์
เพราะการวางแผนต้องใช้เวลานาน กว่าจะเก็บข้อมูล กว่าจะวิเคราะห์ ผ่านห้องประชุมนั้น ฝ่ายนี้ พอเอาเข้าจริงเมื่อถึงเวลาพบว่า พฤติกรรมของผู้บริโภคนั้นเปลี่ยนแปลงไปเสียแล้ว

ว่ากันว่า ในปี 2023 จะมีเครื่องมือต่างๆ ที่เข้ามาเป็นส่วนหนึ่งในชีวิตประจำวันของผู้บริโภค มากถึง 45 ล้านล้านเครื่อง โดยที่เครื่องมือเหล่านี้สามารถเป็นตัวสร้าง Big Data ดี ๆ ให้เหล่านักการตลาดได้ไม่รู้จบ ดังนั้นการออกโปรโมชั่นหรือกลยุทธ์ใดๆ หากใช้เวลานานเกินไป อาจทำให้ธุรกิจเสียโอกาสที่จะเติบโตได้

ดังนั้นในออกแผนการต่างๆ AI จะเข้ามามีบทบาทมากขึ้น เพื่อให้การตัดสินใจนั้นเกิดขึ้นได้ใกล้ความเป็น Real Time ให้มากที่สุด แต่การ Set ให้ AI สามารถสร้างสรรค์สิ่งต่างๆ ได้อย่างทันท่วงทีนั้น นักการตลาด และ Data Scientist ต้องช่วยกันสร้าง Machine Learning ที่มีประสิทธิภาพและตอบโจทย์ได้อย่างสูงสุดด้วย จะเห็นได้ว่า Big Data เป็นพลังเชื้อเพลิงก้อนใหญ่ยักษ์ ที่กำลังเข้ามาเปลี่ยนแปลงวงการการตลาดอย่างเลี่ยงไม่ได้ การลงทุนเก็บข้อมูลที่ว่ายากแล้ว การใช้ข้อมูล รวมไปถึงสร้าง Model ต่างๆ ให้ตอบรับกับความต้องการของธุรกิจ นั้นยากเสียยิ่งกว่า และที่น่ากลัวที่สุดคือ หาก Model ที่เราเลือกนั้นไม่ตอบโจทย์ หรือไม่สามารถนำไปใช้งานได้จริง ก็จะนำมาซึ่งความสูญเสียทางธุรกิจที่ไม่อาจประเมินมูลค่าได้ ซึ่งอย่างไรก็ตาม สิ่งที่เรากำลังต่อสู้อยู่นั้น ไม่ใช่เพียงแค่เทคโนโลยี หากแต่เป็น “เวลา” ที่ทุกวันนี้ โลกกำลังพัฒนาไปข้างหน้า อย่างก้าวกระโดด หากเรามัวแต่ล้าหลัง หรือไม่สามารถปรับตัวให้ทันได้ ก็อาจนับเป็นความผิดพลาดทางธุรกิจในอนาคตภายภาคหน้าได้

4 ความเข้าใจอย่างผิดๆ เกี่ยวกับ Big Data

1. Big Data เป็นสิ่งที่มีค่าด้วยตัวมันเอง Big Data ตามความหมายของมัน คือ ข้อมูลขนาดใหญ่ ซึ่งก็เปรียบเหมือนตัวเลข หรือประวัติต่างๆ ที่ถูกเก็บเอาไว้ แต่หากเราไม่นำข้อมูลนั้นมาวิเคราะห์ต่อ หรือทำอะไรสักอย่าง สุดท้ายข้อมูลนั้นก็จะหมดอายุ หรือสูญหายไปกับกาลเวลาอยู่ดี ตัวอย่างเช่น เมื่อเรามีประวัติการซื้อขายของลูกค้าจำนวนมาก จนกระทั่งเรียกได้ว่าเป็น Big Data สิ่งที่เราสามารถนำมาต่อยอดได้ คือ การวิเคราะห์แบ่งลักษณะกลุ่มของลูกค้า เพื่อสร้างโปรโมชั่นให้กลุ่มลูกค้าได้ถูกทางมากขึ้น การวิเคราะห์ระบบ Supply Chain และ Inventory เพื่อให้การวาง และกระจายสินค้า เป็นระบบ แม่นยำ และคุ้มค่ามากขึ้น การวิเคราะห์เพื่อวางแผนการตลาด โดยประเมินจากลักษณะการบริโภคที่เปลี่ยนแปลงไปตามช่วงเวลา 2. Big Data กำลังนำพามาซึ่งการเปลี่ยนแปลงใหญ่ การเปลี่ยนแปลงต่างๆ จะเกิดขึ้นได้จากการตั้งเป้าหมาย และวางนโยบาย เพื่อให้เกิดการกระทำ ดังนั้นโปรเจค Big Data จะนำพามาซึ่งการเปลี่ยนแปลงหรือไม่ อยู่ที่ความร่วมมือของหลายๆ ภาคส่วนที่เกี่ยวข้อง โดยส่วนตัวแค่ Big Data เองเป็นเพียงแค่ข้อมูล หรือ ผลการวิเคราะห์เท่านั้น แต่การนำผลวิเคราะห์มาใช้งานต่อต่างหาก ที่จะทำให้เกิดการเปลี่ยนแปลงใหญ่ อย่างไรก็ตาม ภาวะกลัวการเปลี่ยนแปลง เป็นสิ่งที่เลี่ยงไม่ได้ เพียงแต่ต้องปรับทัศนคติใหม่ว่าการเปลี่ยนแปลงนั้น มีผลดี หรือผลเสียต่อองค์กรอย่างไร สิ่งที่ Big Data Project จะทำให้เกิดการเปลี่ยนแปลงมากที่สุด คือ การเปลี่ยน Mindset เมื่อก่อนหน้านี้การวิเคราะห์ต่างๆ มักเกิดจากการคาดคะเนด้วยวิจารณญาณ แต่เมื่อมี Big Data เข้ามาแล้ว ข้อมูลต่างๆ จะเปรียบเสมือนเป็นที่มาที่ไปของการวิเคราะห์มากขึ้น ทำให้การจะวางแผนอะไรก็ตาม ต้องมีความชัดเจน รัดกุมมากขึ้น 3. Big Data มีค่ามากกว่า Little Data ขนาดของ Big Data ไม่มีการระบุชัดเจนว่า ควรมีเท่าไหร่ แต่มักจะเชื่อกันว่า ยิ่งใหญ่ ยิ่งดี เช่น การมีประวัติการซื้อของลูกค้า 10 ปีย้อนหลัง ดีกว่า 5 ปีย้อนหลัง ซึ่งอาจจะถูกหรือผิดก็ได้

หากทำความเข้าใจระบบข้อมูลเพิ่มเติม อาจพบว่า ข้อมูลมากเกินไปยิ่งสร้างความซับซ้อนให้การวิเคราะห์ และกลายเป็น Outlier หรือ ความผิดปกติก็เป็นได้ ข้อมูลน้อยๆ แต่มีคุณภาพ ก็สามารถสร้างให้เกิดมูลค่าที่ยิ่งใหญ่ได้ ทั้งนี้ หลายองค์กรมักอ้างว่า ยังไม่มี Big Data จึงยังไม่สามารถทำโปรเจคใดๆ ได้ ตรงนี้เป็นความเข้าใจที่ผิดพลาด เนื่องจากกระบวนการวิเคราะห์ข้อมูล สามารถเกิดขึ้นได้โดยเริ่มจากการตั้งเป้าหมาย และเมื่อเป้าหมายชัดแล้วค่อยมาวางระบบเพื่อเก็บข้อมูลต่อไปก็ไม่สาย ในทางตรงข้ามกัน ข้อมูลที่ถูกเก็บโดยไร้เป้าหมายและไร้ทิศทางต่างหาก ที่สุดท้ายแล้วก็ไม่ต่างกับขยะที่กำลังรอการเน่าเปื่อย 4. Big Data เป็นเรื่องขององค์กร หรือธุรกิจใหญ่ๆ ไม่ว่าธุรกิจเล็ก หรือใหญ่ ก็จำเป็นต้องใข้ Big Data โดยทั้งสิ้น จะเห็นได้ว่า Start Up ใหม่ๆ มักจะโปรโมทตัวเองว่าใช้ Big Data เพื่อสร้างความน่าเชื่อถือ และทำให้ภาพพจน์ขององค์กรนั้นดูทันสมัยยิ่งขึ้น การสร้าง Big Data Technology หรือแม้แต่การสร้าง Machine Learning นั้นไม่ได้มีค่าใช้จ่ายแพงอย่างที่หลายคนเข้าใจ ปัจจุบันโปรแกรมต่างๆ ที่ใช้เขียนโปรแกรม มีทั้งแบบฟรี และแบบต้องเสียค่าใช้จ่าย โดยอาจไม่จำเป็นต้องลงทุนกับ Software ราคาแพงทุกงานไป ...เรื่องของ Big Data ไม่ใช่เรื่องยากอย่างที่หลายคนกลัว อาจเพราะมันใหญ่ และมีรายละเอียดเยอะ จึงทำให้การใช้งาน Big Data จึงค่อนข้างมีอุปสรรค แท้จริงแล้ว อุปสรรคต่างๆ นี้ล้วนเป็นสิ่งที่ทุกองค์กรต้องเผชิญหน้า เพื่อพัฒนาและก้าวกระโดดต่อไป ...Big Data กำลังเข้ามามีบทบาทมากมายในธุรกิจ ไม่ว่าจะด้านการวางแผนหลังบ้าน หรือแม้กระทั่งช่องทางการขายหน้าบ้าน จึงเรียกได้ว่า ใครพร้อมก่อน ก็สามารถเป็นผู้เดินเกมได้ก่อนในกลุ่มธุรกิจนั้นๆ การลงทุนด้าน Big Data ไม่ใช่สิ่งที่แพง แต่การลงทุนกับ Big Data ที่ไม่มีความเข้าใจอย่างถ่องแท้ต่างหาก ที่จะนำพามาซึ่งผลลัพธ์แสนแพงที่อาจประเมินค่าไม่ได้

4 เป้าหมายของการทำ Digital Transformation

ในยุคนี้ เทคโนโยโลยีต่างๆ ได้ถูกพัฒนาขึ้นมาเพื่อสนับสนุนให้ผลลัพธ์อยู่ในรูปแบบ Digital ซึ่งคำว่า Digital นี้ อาจจะฟังดูแล้วเป็นเรื่องของเทคโนโลยี โดยเนื้อแท้ของความหมายแล้ว Digital แปลว่า “เกี่ยวกับตัวเลข” หรือหากจะหาคำนิยามที่จับต้องได้มากขึ้น ระบบ Digital คือ ระบบต่างๆ ที่สามารถเก็บข้อมูลในรูปแบบที่สามารถเปิดอ่านด้วยระบบคอมพิวเตอร์ได้นั่นเอง ทำไมต้องเป็น Digital เพราะการเก็บข้อมูลแบบเดิมๆ เช่น การเขียนในกระดาษ ทำให้กระบวนการใช้ข้อมูล หรือการส่งผ่านข้อมูลค่อนข้างยากลำบาก ซึ่งในยุคที่ข้อมูลเปรียบดั่งทองคำ ทำให้หลายๆ องค์กร เริ่มมีนโยบายในการใช้ประโยชน์จากข้อมูล หรือ การตัดสินใจด้วยข้อมูลมากขึ้น เป็นที่มาของการทำ “Digital Transformation” อย่างไรก็ตาม เมื่อเข้าใจที่มาที่ไปของการทำ Digital Transformation แล้ว ก็จะเข้าใจได้ว่า การเริ่มต้นวางกรอบของโครงการ ต้องเริ่มจากการระบุปัญหาเสียก่อน ตามมาด้วยกระบวนการในการแก้ปัญหา จนไปถึงแนวทางในการใช้เทคโนโลยีเพื่อสนับสนุนวิธีการแก้ปัญหา โดยทั่วไปแล้ว เป้าหมายของการทำ Digital Transformation แบ่งออกเป็น 4 ประการ ดังนี้ 1. ต้องการพัฒนากระบวนการทำงานให้มีประสิทธิภาพมากขึ้น หรือ Process Improvement เช่น การใช้ระบบในการเก็บข้อมูลการเดินรถ แทนที่การจดบันทึกด้วยกระดาษ ทำให้สามารถทราบข้อมูลได้อย่างทันที หากมีเหตุการณ์ฉุกเฉิน จะสามารถทราบถึงสถานการณ์ต่างๆ และแก้ไขได้อย่างทันท่วงที 2. ต้องการลดค่าใช้จ่าย หรือ Cost Reduction เช่น มีระบบเพื่อทำนายปริมาณการใช้ทรัพยากร และมีการแจ้งเตือนให้เตรียมวัตถุดิบล่วงหน้าก่อนเกิดการขาดแคลนวัตถุดิบ แทนที่ระบบการตรวจสอบด้วยคนหน้างาน และมีการประมาณการการใช้วัตถุดิบด้วยมนุษย์ ระบบนี้จะสามารถลดค่าเสียโอกาสทางการตลาดได้ 3. ต้องการเพิ่มรายได้ หรือ Profit Maximization เช่น ต้องการเข้าใจกลุ่มลูกค้า และการเปลี่ยนแปลงของพฤติกรรมลูกค้าอย่างอัตโนมัติ จากเดิมที่เพิ่มการขายโดยอาศัยการทำ Promotion เป็นการใช้ Data เพื่อวิเคราะห์หา Target ของกลุ่มลูกค้า ก่อนจะมีการทำ Promotion ที่เหมาะสม 4. ต้องการเปลี่ยนแนวทางการดำเนินการ หรือภาพลักษณ์ขององค์กรให้ทันสมัยมากขึ้น เช่น การลงทุนกับระบบอัจฉริยะในการตรวจจับพฤติกรรมของพนักงานขับรถ เป็นต้น เป้าหมายบางข้อ อาจสามารถนำมาคิดเป็น Return of Investment ได้ แต่บางข้อก็ไม่สามารถนำมาพิจารณาเป็นผลกำไรได้ ขึ้นอยู่กับวัตถุประสงค์ของแต่ละองค์กร แต่สิ่งที่สำคัญที่สุด คือ ความเข้าใจ และการตีโจทย์ เพราะการทำ Digital Transformation แค่ชื่อ ก็บ่งบอกอยู่แล้วว่า Transform นั่นคือ เกิดการเปลี่ยนแปลง จึงเป็นเรื่องที่ค่อนข้างละเอียดอ่อนเป็นอย่างมาก และยังกระทบต่อการทำงานในภาพใหญ่อีกด้วย เริ่มที่ Process ก่อน Technology เพราะสุดท้ายแล้ว Technology ก็เป็นแค่ตัวช่วย ในขณะที่หากเข้าใจใน Process ที่แท้จริง การลงทุนกับ Technology ที่ถูกต้อง ก็จะนำพามาซึ่งผลลัพธ์ที่สร้างคุณค่าได้อย่างหาที่เปรียบไม่ได้ การเปลี่ยนแปลงเป็นเรื่องปกติ ... การไม่ยอมเปลี่ยนแปลงต่างหาก ที่ผิดปกติ