Blog/Posts
top of page

Item List

Big Data และ Data Science คืออะไรและทำอย่างไร

ดร.อสมา กุลวานิชไชยนันท์ (ดร.แป้ง) CEO & Co-Founder บริษัท Coraline ผู้เชี่ยวชาญและให้บริการด้าน Big Data ได้ให้สัมภาษณ์ในรายการช่วยคิดช่วยทำในหัวข้อ Big Data และ Data Science ว่าคืออะไร? และทำอย่างไร? เป็นคลิปที่มีประโยชน์และสามารถทำให้ท่านผู้ชมสามารถเข้าใจใน Big Data และ Data Science ได้อย่างชัดเจนมากยิ่งขึ้น ท่านที่สนใจสามารถรับชมคลิปวิดีโอย้อนหลังได้ที่ด้านล่าง We turn your DATA into your KEY of Success. เราพาคุณขับเคลื่อนสู่ความสำเร็จด้วยข้อมูล คอราไลน์ พร้อมให้คำปรึกษาและพัฒนาโครงการ Big Data, Data Governance, Data Management, Data Analytics, Data Driven Transformations สนใจบริการติดต่อ Tel: 099-425-5398 Email: inquiry@coraline.co.th Facebook: https://www.facebook.com/coralineltd #Coraline #BigData #BigDatasolution #DataManagement #DataGovernance #DataAnalytics #DataDrivenTransformation

ChatGPT For Enterprise บริการใหม่จากคอราไลน์และไมโครซอฟท์ที่เข้าถึงได้ทุกองค์กร

บริการใหม่ของคอราไลน์ร่วมกับไมโครซอฟท์ (ประเทศไทย) สร้างผู้ช่วย AI สำหรับองค์กร (Virtual Assistant) โดยมีความสามารถดังต่อไปนี้ - สื่อสาร ตอบโต้กับพนักงานหรือลูกค้าด้วยรูปแบบคำพูดที่เปรียบเสมือนพนักงานที่เป็นมนุษย์จริงๆ - สามารถช่วยสืบค้นข้อมูลทั้งในและนอกองค์กร และนำเสนอได้อย่างรวดเร็ว - หากข้อมูลมีจำนวนมาก สามารถให้ AI ช่วยวิเคราะห์และสรุปข้อมูลให้เหลือเพียงใจความสั้นๆได้ - ดัดแปลงและเรียบเรียงข้อมูลใหม่ในรูปแบบที่ผู้ใช้งานแต่ละท่านต้องการ เช่นเปลี่ยน Code program ที่เคยเขียนไว้กับลูกค้า A เป็น Code สำหรับใช้กับลูกค้า B โดยระบุเพียงเงื่อนไขที่ต้องการเปลี่ยนแปลง โดยไม่ต้องเขียนใหม่ทั้งหมด - ข้อมูลขององค์กรที่นำมาใช้ทั้งหมด ยังคงเป็นข้อมูลลับเฉพาะภายในองค์กร ที่คนนอกไม่สามารถเข้าถึงได้แม้กระทั่งบริษัทไมโครซอฟท์เอง ขอขอบคุณ คุณ สรุจ ทิพเสนา รองกรรมการผู้จัดการ ฝ่ายโซลูชั่นองค์กร บริษัท ไมโครซอฟท์ ประเทศไทย จำกัด ที่ให้เกียรติร่วมสัมภาษณ์ให้ข้อมูลกับสื่อมวลชนร่วมกันกับทางคอราไลน์ ท่านผู้ที่สนใจ สามารถรับชมวิดีโอสัมภาษณ์ได้ที่ด้านล่าง รับชมวิดีโอสัมภาษณ์ References : https://www.bangkokbiznews.com/tech/gadget/1056607 https://www.dailynews.co.th/news/2066524/

มิติคุณภาพข้อมูล Timeliness Data ที่หลายองค์กรละเลย

ความเป็นปัจจุบัน หรือ Timeliness อ้างอิงจากสำนักงานพัฒนารัฐบาลดิจิทัล (องค์การมหาชน) สพร. หรือ DGA คือ “ข้อมูลเป็นปัจจุบันทันสมัยเพียงพอต่อการใช้งาน และพร้อมใช้งานตามที่กำหนดและในกรอบเวลาที่กำหนดไว้ หรือมีข้อมูลทันต่อการใช้งานทุกครั้งตามที่ผู้ใช้ต้องการ” ในทางปฏิบัติจำเป็นต้องมีตัวชี้วัดที่ระบุสถานะความเป็นปัจจุบันของชุดข้อมูล เช่น ชุดข้อมูลนี้มีการปรับปรุงทุกวัน ข้อมูลนี้มีการปรับปรุงทุก 1 ชั่วโมง เป็นต้น เพื่อให้ระบบสามารถเก็บ Log ความเคลื่อนไหว และสามารถประเมินได้ว่าชุดข้อมูลนี้มีการปรังปรุงหรือมีการอัพเดทล่าสุดเมื่อไหร่ เป็นไปตามตัวชี้วัดที่กำหนดเอาไว้หรือไม่ โดยสามารถคำนวณความเป็นปัจจุบันในรูปแบบของร้อยละได้ ตัวอย่างเช่น ชุดข้อมูลที่มีกำหนดการปรับปรุงทุกชั่วโมง แต่ล่าสุดในระบบมีการปรับปรุงข้อมูลเมื่อ 70 นาทีที่แล้ว แสดงว่าข้อมูลชุดนี้มีการล่าช้าในการปรับปรุงข้อมูลเกิดขึ้น 70-60 = 10 นาที ข้อมูลชุดนี้จึงมีร้อยละความเป็นปัจจุบันอยู่ที่ 98.33% ข้อมูลบางชุดอาจไม่มีการกำหนดความถี่ในการอัพเดทที่แน่นอน เพราะเป็นข้อมูลไม่ค่อยมีความเคลื่อนไหว เช่น ข้อมูล HR ของบริษัทขนาดเล็ก ที่อาจไม่มีความเคลื่อนไหวบ่อยครั้ง ในกรณีนี้อาจสามารถกำหนดความถี่ในการอัพเดทขึ้นมาเป็นตัวตั้งต้น เช่น เดือนละ 1 ครั้ง และหากข้อมูลในเดือนล่าสุดไม่มีการเปลี่ยนแปลงก็แปลว่าข้อมูลนั้นถือว่าเป็นข้อมูลที่อัพเดทล่าสุด มิติความเป็นปัจจุบันเป็นเพียง 1 ในหลายมิติของกระบวนการตรวจสอบคุณภาพของข้อมูล ซึ่งมิตินี้ ถือเป็นมิติที่ตรวจสอบได้ค่อนข้างง่าย เพราะเป็นการเช็ค log เวลาในการรับส่งข้อมูล อย่างไรก็ตามตัวชุดข้อมูลจะถูกต้องหรือไม่ อาจจะต้องมีการตรวจสอบในมิติอื่นเพิ่มเติม เพื่อให้ข้อมูลในองค์กรมีคุณภาพพร้อมใช้ จะต้องมีกระบวนการในการตรวจสอบคุณภาพของข้อมูลในมิติต่างๆ ซึ่งต้องมีการกำหนดมาตรฐานกลางในการบังคับใช้ในแต่ละองค์กร สนใจปรึกษาและออกแบบพัฒนาโครงการ Big Data, Data Analytics, Data Governance, Artificial Intelligence และ Data Driven Transformation เพื่อเพิ่มศักยภาพของธุรกิจ ติดต่อ Tel: 099-425-5398 Email: inquiry@coraline.co.th Facebook: https://www.facebook.com/coralineltd #Coraline #BigData #BigDatasolution #DataManagement #DataGovernance #DataAnalytics #DataDrivenTransformation

"การตีโจทย์" เป็นปัญหา Basic ของ Data Scientist

Data Scientist ถือเป็นอาชีพใหม่ที่มาแรงในบ้านเรา นั่นทำให้เกิดคอร์สสอนให้เป็น Data Scientist มากมาย ที่ในรูปแบบออนไลน์ และในสถาบันการศึกษา แต่สังเกตหรือไม่คะว่าส่วนใหญ่จะสอนเพื่อ “ใช้เครื่องมือ” โดยเฉพาะอย่างยิ่ง สอนรู้จัก Machine Learning ความหมายที่แท้จริงของ Data Science หรือ วิทยาศาสตร์ข้อมูล คือ การเข้าใจธรรมชาติของข้อมูล และสามารถสร้าง Model ใหม่ๆ ได้ มิใช่เรื่องของการใช้เครื่องมือแต่อย่างใด และถึงแม้ว่าคุณจะใช้เครื่องมือเป็น คุณก็ไม่สามารถระบุปัญหาได้อยู่ดี เป็นที่น่าสงสัยว่า หากทุกคนที่เรียน Short Course ออกมาเป็น Data Scientist ได้หมด แล้วทำไมในตลาดแรงงานทุกวันนี้ ถึงยังขาด Data Scientist ตัวจริง กุญแจสำคัญ คือ " การตีโจทย์" หากตีโจทย์ไม่ได้ จะให้มีเครื่องมือมากมายแค่ไหน ก็หา Solution ไม่ได้ แล้วการตีโจทย์ต้องเริ่มจากอะไร? ก็ต้องเริ่มจากการมีพื้นฐานความเข้าใจในคณิตศาสตร์ที่ดีเสียก่อน และที่ต้องเป็นคณิตศาสตร์ นั้นเพราะ คณิตศาสตร์เป็นศาสตร์แห่งตัวเลข และนี่เรากำลังพูดถึง “ตัวเลขมหาศาล” หัวใจหลัก จึงคือ “คณิตศาสตร์” นั่นเอง ทำไม Data Scientist หลายๆ คน ไม่สามารถตีโจทย์ได้ อาจจะเป็นเพราะ ด้วยลักษณะการศึกษาของไทย ที่เน้นให้ “เชื่อ” ในสิ่งที่มีคนบอกมาโดยตลอด โดยแทบจะไม่มีโอกาสได้ “สงสัย” หรือ “คิดแตกต่าง” ได้ เป็นนิสัยที่ติดตัวมาตั้งแต่ยังวัยเยาว์ ทำไมเด็กไทยหลายคน เชื่อในสมการ และไม่คิดที่จะพิสูจน์กลไกที่มาของสมการแต่อย่างใด ในขณะที่การทำงานเป็น Data Scientist นั้น คือการคิดหา Model ใหม่ๆ ที่ช่วยแก้ปัญหา โดยการใช้ข้อมูลเป็นตัวตั้งต้น ซึ่งเป็นการ “คิดนอกกรอบ” จึงขัดกับนิสัยของเด็กไทยหลายๆ คน พอเข้าสู่การทำงาน ก็กลายเป็นว่า ตีโจทย์ไม่ได้ ต้องรอให้มีคนบอกโจทย์ บอกวิธีทำ และรอข้อมูลที่สมบูรณ์แบบเพื่อนำไปใส่ใน Code ในรูปแบบเดิมๆ ดังนั้น Data Scientist ที่กล้าตีโจทย์ ก็จะเป็นบุคคลที่สะสมประสบการณ์ให้ตัวเอง และต่อยอดไปเรื่อยๆ ได้มากกว่า Data Scientist ที่แค่เขียน Code เป็น Data Scientist ก็เป็นอีกอาชีพหนึ่งในตลาดแรงงาน ไม่ได้เรียนยากไปกว่าอาชีพอื่นๆ เพราะแต่ละอาชีพ ต้องการ Skill และมีแนวทางในการทำงานที่แตกต่างกัน ถ้ารักที่จะทำอาชีพนั้นๆ จริงๆ แล้ว ก็ต้องไม่ย่อท้อ และจง Focus ที่ “พื้นฐาน” ของอาชีพ ก่อนที่จะใช้ “เครื่องมือ” เสมอๆ เพราะเครื่องมือ มักเปลี่ยนแปลงไปตามกาลเวลา ในขณะที่พื้นฐาน จะเป็นสิ่งที่ทำให้เราต่อยอดไปได้ไกลขึ้น

"การเชื่อมโยงข้อมูล" คือ ปัญหาใหญ่ที่รอไม่ได้

Big Data มีที่มาจาก 4V ซึ่งประกอบไปด้วย “Volume, Velocity, Variety, Veracity” ซึ่ง Variety ในที่นี้ หมายถึงความหลากหลายของข้อมูล ที่มาจากแหล่งข้อมูลหลายๆ แหล่ง และมีรูปแบบโครงสร้างของข้อมูลที่แตกต่างกัน ดังนั้นการทำโครงการ Big Data จึงจำเป็นต้องมีการเชื่อมข้อมูลส่วนนี้ และจัดการให้อยู่ในรูปที่พร้อมใช้ ปัญหาข้อมูลจากแหล่งต่างๆ แยกส่วนกันเก็บ และมีค่าที่ไม่ตรงกัน เป็นปัญหาที่พบได้บ่อยและทั่วไป ซึ่งแนวทางการแก้ก็ชัดเจนอยู่ในตัวเอง ก็คือ ต้องทำความสะอาด และออกแบบช่องทางให้เก็บรวบรวมข้อมูลเอาไว้ที่เดียว เพื่อให้เกิดความสมบูรณ์แบบของข้อมูลมากที่สุด แต่แนวทางในการแก้ปัญหานั้น ค่อนข้างลำบากมาก เพราะอะไร เพราะแต่ละส่วน ต่างก็ต้องการเป็นเจ้าของข้อมูล และอาจไม่ได้รับความร่วมมือจากเจ้าของข้อมูลเดิมก็เป็นได้ อีกทั้ง แนวทางในการเชื่อมและออกแบบระบบ ก็จำเป็นต้องมีผู้เชี่ยวชาญด้านระบบ หรือ System Engineer และ Data Engineer ที่มีประสบการณ์ เป็นผู้รับหน้าที่ออกแบบและดูแลระบบนี้ ทำไมการเชื่อมโยงข้อมูล ถึงเป็น ปัญหาใหญ่ ที่รอไม่ได้ ... เพราะไม่รู้ว่าทำไมต้องรอ รอเพื่ออะไร ยิ่งรอก็ยิ่งปล่อยให้เวลาผ่านไปโดยเปล่าประโยชน์ โดยเฉพาะอย่างยิ่ง ข้อมูลที่เกี่ยวข้องกับประชาชน เช่น สิทธิด้านการบริการต่างๆ ข้อมูลการเพาะปลูกทางการเกษตร ข้อมูลการซื้อขายผลิตภัณฑ์ทางการเกษตร ข้อมูลสุขอนามัยของประชาชน อัตราการจ้างงาน ข้อมูลประทำโครงการของภาครัฐที่สามารถตรวจสอบวันเวลาของโครงการได้ เป็นต้น ข้อมูลกลางที่ถูกนำมาเชื่อมโยงกันนี้ จะสามารถนำมาวิเคราะห์และต่อยอดได้อีกมากมาย เช่น หากมีการเชื่อมโยงข้อมูลการเกษตร การท่องเที่ยว และการจ้างงาน จะทำให้ทราบได้ว่า ในแต่ละช่วงเวลา มีอัตราว่างงานสำหรับพนักงานมากน้อยเพียงใด แต่ละภาคธุรกิจ ต้องการแรงงานทักษะอย่างไร และจะมีการวางแผนให้มีการศึกษาในอนาคตได้อย่างไร เนื่องมาจากว่า แต่ละสถานที่ท่องเที่ยว มีฤดูกาลของการท่องเที่ยว เช่นเดียวกัน การเพาะปลูกก็มีฤดูกาลของการเพาะปลูก ถ้าสามารถนำข้อมูลมาเชื่อมกับการจ้างงานของภาครัฐและเอกชนได้ จะทำให้สามารถวางแผนการจ้างงานได้ เมื่อประชาชนมีงาน ก็มีรายได้ต่อไป ทั้งนี้ โครงการการวิเคราะห์อัตราการจ้างงานแบบยั่งยืนนี้ ต้องเริ่มจากการเชื่อมโยงข้อมูลที่เกี่ยวข้องกับการจ้างงานเสียก่อน ในมุมของภาครัฐ การจัดการและบริหารข้อมูล อาจจะทำได้ยากเสียหน่อย ด้วยขนาดของข้อมูล และระบบเดิมที่มีเก็บข้อมูลแยกส่วน แต่นั่นยิ่งเป็นความท้าทายที่เป็นเครื่องพิสูจน์ว่าภาครัฐจะสามารถทำโครงการใหญ่ๆ เพื่อประชาชนนี้ได้สำเร็จหรือไม่ ในส่วนของภาคเอกชนก็เช่นกัน เพราะก่อนหน้านี้ การลงทุนกับระบบต่างๆ เป็นรูปแบบของการจัดซื้อจัดจ้างแยกส่วนกัน ทำให้มีระบบ Software หลายยี่ห้อในองค์กรเดียว ส่งผลให้ข้อมูลอยู่แยกส่วนกัน การเชื่อมโยงข้อมูล จะต้องทำด้วยความต้องการของคนใน หมายความว่า คนในองค์กรต้องเป็นคนเสนอความต้องการ เพื่อให้ผู้เชี่ยวชาญทำการเชื่อมให้ โดยอาจจะเป็น Outsource หรือจะเป็น IT ขององค์กรเป็นผู้เชื่อมก็ได้ แต่ทั้งนี้ จะต้องมีความต้องการในการเชื่อมที่ชัดเจน ปัญหาอาจไม่ได้อยู่ที่ว่า ข้อมูลไม่เชื่อมกัน เพราะเครื่องมือของการเชื่อมโยงข้อมูลนั้นมีตัวเลือกมากมายในตลาด พร้อมให้หยิบใช้ได้อย่างสะดวก ปัญหาที่แท้จริง คือ ยังไม่รู้ว่าจะต้องเอาอะไรมาเชื่อมกันอะไรมากกว่า เพราะถ้าไม่มี “เป้าหมาย” ของการทำโครงการ ก็ยังไม่ทราบอยู่ดีว่าต้องนำอะไรมาเชื่อมกับอะไร อย่างไรก็ตาม หากไม่มีการเชื่อมโยงข้อมูล ก็ไม่สามารถวิเคราะห์ข้อมูลต่อได้ ทำให้ข้อมูลที่มีอยู่ อาจไม่มีประโยชน์อะไร ซึ่งเรามีความจำเป็นที่ต้องมี Big Data ให้พร้อม ก่อนที่ AI จะเข้ามา Disrupt ระบบอะไรหลายๆ อย่าง เพราะ AI ต้องใช้ Big Data เป็นแหล่งข้อมูล แต่หากไม่มี Big Data ให้ AI เรียนรู้ AI นั้นก็จะไม่มีประโยชน์อะไรเช่นกัน ที่บอกว่า ต้องทำโดยเร็ว เพราะในแต่ละวัน มีข้อมูลเกิดขึ้นมากมาย แค่ข้อมูลเก่า ยิ่งปล่อยไป ยิ่งมีขนาดใหญ่ และมีความซับซ้อนมากขึ้น จึงต้องเร่งทำ “เดี๋ยวนี้” ทั้งนี้ งานยิ่งมีความ “ใหญ่” มากเท่าใด ก็ยิ่งต้องได้รับความร่วมมือมากเท่านั้น ในความเป็นจริง อาจไม่จำเป็นต้องมองเป็นภาพใหญ่ที่สุด ณ ที่ปลายสุด แต่เราสามารถเริ่มได้ทีละนิดละหน่อย เพราะให้เกิดเป็นผลสำเร็จเล็กๆ และเดินต่อไปเรื่อยๆ จนถึงชัยชนะที่วางเอาไว้ แต่หากเราไม่ทำอะไรเลย .... ไม่ใช่แค่เราจะหยุดนิ่ง แต่เราอาจจะกำลังเดินถอยหลัง เพื่อรอถึงวันที่คนอื่นเข้ามาทำร้ายเราก็เป็นได้ หากมีข้อมูลที่อยู่กันกระจัดกระจาย ต้องให้คนไป save หรือ ต้องรอเพื่อได้มาซึ่งข้อมูลนั้นนานแสนนาน นั่นแหละค่ะ คือ คอขวดของโครงการ Big Data อย่างหนึ่ง .... และควรได้รับการแก้ไข ด้วยการเชื่อมโยง ให้เป็นระบบที่สมบูรณ์

"ช่องว่างระหว่างธุรกิจกับผู้เชี่ยวชาญ"

ปัญหาหนึ่งที่พบมากในการทำงานด้านข้อมูล คือ ช่องว่างระหว่าง Business กับ Technician เพราะมุมมองและเป้าหมายของสองฝั่งนี้ไม่เหมือนกัน ฝั่ง Business มักจะมองหา Return of Investment หรือ Payback period เป็นหลัก โดยเขียน Business Case ขึ้นมาเพื่อใช้อธิบายโปรเจค ในขณะที่ Technician จะมองหา Innovation ใหม่ ๆ และมักจะอ้างถึงหลักการต่าง ๆ เพื่ออธิบายโครงการ ในความเป็นจริงแล้วทั้ง Business และ Technician ต่างก็เป็นฟันเฟืองที่สำคัญในการขับเคลื่อนองค์กร เพียงแต่ทั้งสองฝ่ายนี้มีหน้าที่ต่างกัน Business มีหน้าที่ตั้งโจทย์ บอก Condition และตัดสินใจ ในขณะที่ Technician มีหน้าที่เสนอแนวทางแก้ปัญห และบอกข้อดีข้อเสียของแต่ละข้อเสนอ ตัวอย่างเช่น การเลือก Vender ในที่นี้ Vender แต่ละเจ้าทำหน้าที่คล้าย Technician ที่มีข้อเสนอ 1 ข้อ หน้าที่ของ Business จะต้องมองให้ออกว่าเจ้าไหนเหมาะกับธุรกิจมากที่สุด โดยมี Condition ต่าง ๆ เช่น ราคา ค่าใช้จ่าย ระยะเวลาในการ Deploy หรือความเหมาะสมทางการใช้งานอื่น ๆ ซึ่งช่องว่างของทั้งสองฝ่ายที่เกิดขึ้น มักเกิดจากการสื่อสารและความไม่เข้าใจในหน้าที่ของแต่ละฝ่าย ดังนั้นวิธีการแก้ปัญหานี้คือการสร้างความเข้าใจในหน้าที่ของฝ่ายตรงข้ามให้ชัดเจน Business ต้องสามารถถามคำถามที่ท้าทาย Technician ได้ เช่น เมื่อ Model นี้มี Accuracy 80% แล้วเราจะมีแนวทางในการรองรับ Error อีก 20% ได้อย่างไร ในทางกลับกัน Technician ต้องสามารถสอบถาม Condition ต่างๆ มาให้ได้ครบก่อนจะนำเสนอ Final Solution เช่น ช่องทางการส่งข้อมูลเพื่อยื่นอำนาจตัดสินใจ หรือ รูปแบบในการใช้งานกับหน่วยงานอื่นๆ เป็นต้น เพราะสุดท้ายแล้วเป้าหมายของการโปรเจคก็คือความสำเร็จของโปรเจคที่ต้องร่วมมือกันเป็นทีม We turn your DATA into your KEY of success. เราพาคุณขับเคลื่อนสู่ความสำเร็จด้วยข้อมูล คอราไลน์ พร้อมให้คำปรึกษาและพัฒนาโครงการ Big Data, Data Governance, Data Management, Data Analytics, Data Driven Transformations, AI, ChatGPT สนใจบริการติดต่อ Tel: 02-096-4465 Email: inquiry@coraline.co.th Facebook: https://www.facebook.com/coralineltd Youtube: https://www.youtube.com/@CORALINECOLTD #Coraline #BigData #BigDatasolution #DataManagement #DataGovernance #DataAnalytics #DataDriven #Transformation #AI #ChatGPT

%Accuracy ไม่ใช่คำตอบสุดท้ายเสมอไป

%Accuracy คือ การวัดความแม่นยำของการทำนายผล ก่อนที่จะไปถึงเนื้อหาว่า ทำไม %Accuracy ไม่ใช่คำตอบสุดท้ายเสมอไป มาทำความเข้าใจกันก่อนว่า Machine Learning Model แบ่งออกเป็น ประเภทใหญ่ๆ คือ Supervised กับ Unsupervised Model แตกต่างกันที่ Supervised Model จะมีต้นแบบ หรือ Target ให้เป็นตัวอย่าง ในขณะที่ Unsupervised Model จะไม่มีต้นแบบนั้น ดังนั้น ในการวัดผลประสิทธิภาพของ Model สำหรับ Supervised Model จึงใช้ %Accuracy เป็นหลัก ทั้งนี้ ในส่วนของ Unsupervised Model จะไม่สามารถวัด %Accuracy ได้ %Accuracy อาจวัดได้จากความคลาดเคลื่อนของผลการทำนายจากค่าจริงที่เกิดขึ้น ซึ่งไม่มีตำราไหนบอกอย่างชัดเจนว่า %Accuracy ควรเป็นเท่าไหร่ เหตุผลที่ว่า ไม่มีข้อบัญญัติชัดเจน ว่า %Accuracy ที่ดีควรเป็นเท่าไหร่ เพราะว่าโจทย์ รวมไปถึง ชุดข้อมูลแต่ละแบบ จะมีข้อจำกัด และสภาพแวดล้อมที่แตกต่างกัน โดยปกติแล้ว Data Scientist จะสร้าง Model หลายๆ Model และนำผลลัพธ์มาเปรียบเทียบกัน เพื่อคัดเลือก Model ที่มีประสิทธิภาพดีที่สุด ในคำ “ประสิทธิภาพ” นั้นวัดผลได้หลากหลายรูปแบบ ไม่ว่าจะเป็น %Accuracy Speed และงบประมาณที่ใช้เพื่อการประมวลผล อย่างไรก็ตาม %Accuracy ดูเหมือนจะเป็นเรื่องที่ Data Scientist ให้ความสำคัญที่สุด เพราะนี่คือ ความท้าทายในเชิงเทคนิค (ในขณะที่เรื่องงบประมาณ อาจจะไม่ใช่ข้อจำกัดที่ Data Scientist ต้องคำนึงถึง) ตามหลักการแล้ว Data Scientist จะเลือก Model ที่มีประสิทธิภาพดีที่สุดมานำเสนอให้ Business รับทราบ และ Business มีหน้าที่ในการสอบถาม หรือ ทำการเลือก Model ที่เหมาะสมในขั้นตอนสุดท้าย ดังนั้น หาก Business ไม่เข้าใจกลไกการทำงานของ Model ก็อาจไม่สามารถตัดสินใจได้ ประเด็นสำคัญของบทความนี้ แบ่งออกเป็น 2 ประเด็น 1. ในกรณีที่ได้ผลลัพธ์ที่มี %Accuracy สูงๆ อาจต้องมีการพิจารณาปัจจัยอื่นประกอบด้วย เช่น - จำนวนข้อมูลที่นำไป Train มากพอหรือไม่ ข้อมูลที่นำไปทดสอบ สามารถเชื่อถือได้หรือไม่ - ใช้เวลาในการสร้าง Model นานเท่าไหร่ - วิธีการวัด %Accuracy คำนวณอย่างไร - ในการนำ Model ไปขึ้นระบบจริง มีขั้นตอนอย่างไร รวมไปถึง แนวทางในการเชื่อมโยงข้อมูลกับระบบอื่นๆ ตัวอย่างเช่น Netflix ได้ประกาศว่า ไม่มีการใช้ Model ที่ชนะการประกวด ซึ่งเป็น Model ที่สามารถเพิ่ม %Accuracy ในการแนะนำหนังให้ลูกค้าได้มากขึ้น 10% เหตุผลคือ การนำ Model นี้ไปขึ้นระบบจริง จะมีผลต่อระบบกลไกภายในอย่างมาก นำพามาซึ่งค่าใช้จ่ายมหาศาล เป็นต้น 2. ในกรณีที่ผลลัพธ์มี %Accuracy น้อยกว่าที่คาดการณ์เอาไว้ แม้ว่า Data Scientist จะได้ทำการสร้าง Model หลายๆ แบบ และมีการเปลี่ยนปัจจัยไปแล้วหลายครั้ง อาจเป็นไปได้ว่า ยังมีข้อมูลไม่พอ หรือ ตัวข้อมูลยังไม่มีคุณภาพมากพอ ซึ่งแนวทางการแก้ไข ไม่ใช่การสร้าง Model ที่แสนวิเศษ แต่เป็นการแก้ที่ต้นตอ นั่นคือ ช่องทางการได้มาซึ่งข้อมูล จากประสบการณ์ของทีม Coraline จะได้รับคำถามเกี่ยวกับ %Accuracy บ่อยครั้ง ซึ่งเราขอเสนอกรณีศึกษาเกี่ยวกับการทำนายยอดขายสินค้า 2 กรณีด้วยกันดังนี้ 1. โครงการแรก เราพบว่า จะมีการสั่งสินค้าจากส่วนกลางไปยังสาขาก็ต่อเมื่อสินค้าหมด หรือ ลูกค้ามาซื้อของแล้วไม่ได้ของ หลายครั้งที่พบว่า มีความต้องการสินค้า แต่ไม่มีการขายสินค้า ทำให้เห็นยอดการขายเป็น 0 บ่อยครั้ง เกิดจากการไม่มีสินค้าสำรองที่หน้าร้าน เมื่อนำข้อมูลมาสร้าง Model ทำให้ %Accuracy จึงไม่สูงมาก (ประมาณ 65%) แต่เจ้าของโครงการมีความเข้าใจในระบบฐานข้อมูลเดิมที่ไม่เรียบร้อย จึงพอใจกับผลการทำนายอย่างมาก 2. โครงการที่ 2 เราพบว่า ในส่วนของการทำงานที่หน้าร้าน มีกรณีขายสินค้าไปก่อน โดยที่ยังไม่มีการ Key สินค้าเข้าระบบ ทำให้เห็นจำนวนสินค้าคงคลังเป็นค่าติดลบ อีกทั้ง ยังมีการคืนย้อนหลังของบ่อยครั้ง เกิดจากการยิง Barcode ผิดตำแหน่ง ก่อนที่เราจะนำข้อมูลนี้ไปสร้างเป็น Model เราได้มีการปรึกษาเรื่องความถูกต้องของข้อมูลกับเข้าของโครงการ และได้รับคำตอบมาว่า ไม่สามารถเปลี่ยนแปลง Operation ได้ เนื่องจากยุ่งยากและซับซ้อนเกินไป ทำให้ Transaction รายวันในระบบมีความคลาดเคลื่อนอย่างมาก แม้จะมีการ Clean ข้อมูลเบื้องต้น แต่เป็นการ Clean ภายใต้ข้อจำกัด ทำให้ผลลัพธ์ในการทำนาย มี %Accuracy อยู่ที่ 75% อย่างไรก็ตาม ทางเราได้รับ Feedback กลับมาว่า %Accuracy นี้ น้อยเกินไป กรณีตัวอย่าง ทั้ง 2 กรณี กำลังบ่งบอกถึงความเข้าใจในการใช้ Data จากเจ้าของโครงการทั้ง 2 โครงการ หลายคนคิดว่า Big Data คือ ยาสารพัดโรค และ Data Scientist คือ ผู้วิเศษ (ในความเป็นจริง ถ้า Data Scientist เป็นผู้วิเศษขนาดนั้น ก็คงสร้าง Model ทำนายเศรษฐกิจ หรือเล่นหุ้นอยู่ที่บ้านแสนสบายกันไปทุกคนแล้ว) ทุกอย่างมีหลายด้าน (มากกว่า 2 ด้าน) ไม่ว่าจะเป็นกรณีที่ %Accuracy สูงมากๆ หรือ %Accuracy น้อยมากๆ ก็ตาม เพราะ Model เกิดจากการนำ Data มาต่อยอด และพื้นฐานการสร้าง Model คือ การลองผิดลองถูก ถ้าเรามีต้นแบบที่ถูกต้อง ก็จะสามารถเลียนแบบความถูกต้องนั้นได้ แต่ถ้าต้นแบบผิดเพี้ยน จะหวังให้ได้ผลลัพธ์ที่มีคุณภาพก็คงจะยาก ในขณะเดียวกัน %Accuracy อาจมีความเกี่ยวข้องโดยตรงต่อระบบการประมวลผล เพราะยิ่งคิดเยอะเท่าไหร่ ก็ยิ่งได้ผลลัพธ์ที่ลึกมากเท่านั้น นั่นอาจหมายถึง ค่าใช้จ่าย และความซับซ้อนของระบบที่มากเกินไป การช่วยกันตรวจสอบความถูกต้องของระบบนี้ ไม่ใช่การจับผิดซึ่งกันและกัน แต่เป็นการช่วยเหลือกันให้เกิดการปรับปรุงและพัฒนาไปในทิศทางที่ดีขึ้น เพราะเรื่องราวเกี่ยวกับ Big Data นั้นใหญ่สมชื่อ และมีผู้เกี่ยวข้องจำนวนมาก ทั้งนี้ หัวใจหลัก คือ การดำเนินโครงการได้สำเร็จสมบูรณ์ ดังนั้น “ความเข้าใจ” จึงเป็นพื้นฐานที่สำคัญ และ “ความเข้าใจ” นี้ ต้องเกิดจากการเรียนรู้ และยอมรับทั้งในหน้าที่ของตัวเอง และในความเชี่ยวชาญของผู้ร่วมทีม แม้ว่า %Accuracy จะเป็นการวัดผลที่จับต้องได้มากที่สุด แต่ก็ไม่ควรมองข้ามปัจจัยอื่นๆ ด้วย เพราะสิ่งอื่นๆ ที่วัดผลได้ยากอาจเป็นตัวที่สำคัญกว่าก็เป็นได้

10 เหตุผลที่โครงการ Data Science ล้มเหลว

จากรายงานของ Gartner พบว่ามีโครงการเพียง 15% - 20% เท่านั้นที่ประสบความสำเร็จและมีเพียง 8% ที่ได้ผลลัพธ์ที่ดี เกิดอะไรขึ้นกับโครงการเหล่านี้ ??? ใบบทความของ Fastdatascience.com ได้เสนอแนวคิดถึงปัญหาของความล้มเหลวไว้ดังนี้ จากฝั่ง Business 1. ได้ผลลัพธ์ในเชิง Data Science ออกมาแล้ว แต่ฝั่ง Business กลับไม่ได้นำผลลัพธ์ไปใช้งาน 2. ในโครงการ Data Science ไม่มีฝั่ง Business ไปเกี่ยวข้องแต่แรก ทำให้ไม่ได้รับ Credit และไม่เป็นที่ยอมรับ 3. ฝั่ง Business มีภาระงานเยอะ จนไม่สามารถเข้าใจกลไกการทำงานของโครงการ Data Science 4. ได้ลองนำผลลัพธ์ไปใช้งานแล้วแต่ให้เวลาน้อยเกินไป ทำให้ไม่เห็นถึงผลลัพธ์ที่แท้จริง 5. ทีมงานให้ความสำคัญแต่ผู้บริหารไม่ให้ความสำคัญ จากฝั่ง Data Science 1. Data Scientist ให้ความสำคัญกับ Algorithm หรือวิชาการมากเกินไป 2. Data Scientist สื่อสารในเชิงธุรกิจไม่ได้ ทำให้ไม่เห็นภาพ 3. Data Scientist ตั้งสมมติฐานไม่ถูกต้อง 4. Data Scientist ยังไม่เก่งพอ จากทั้ง 2 ฝ่าย ทางธุรกิจไม่เข้าใจการทำงานในเชิง Data Science ในขณะที่ Data Scientist ไม่เข้าใจธุรกิจ ซึ่งทั้งสองฝ่ายไม่สื่อสารกัน ปัญหาเหล่านี้ มีทางแก้โดยการ Setup โครงการอย่างมีกิจลักษณะ กล่าวคือต้องมีผู้รับผิดชอบชัดเจนในแต่ละหน้าที่ มีการรายงานความคืบหน้าที่เป็นลายลักษณ์อักษร โดยที่ทุกคนต่างมีเวลาในการสื่อสารและตรวจสอบกันและกัน ซึ่งแต่ละส่วนอาจจะมีการตั้งคำถามของตัวเอง เช่น Business question: โครงการนี้มีวัตถุประสงค์อย่างไร กระทบกับการทำงานส่วนไหนและใครที่จะได้รับผลกระทบบ้าง Data collection: ฝ่าย IT ต้องเตรียมข้อมูลอะไรให้ ในรูปแบบไหน ส่งมอบเมื่อไหร่ เก็บข้อมูลที่ไหน ทั้งนี้ คนที่นั่งหัวโต๊ะเป็นคนที่มีความสำคัญอย่างมาก อาจจะเป็น Project Manager หรือ ผู้บริหาร ที่สามารถตัดสินใจได้ทั้งฝั่ง Data Science และ Business จากประสบการณ์ของ Coraline พบว่า โครงการ Data Science สามารถใช้เวลาเพียงไม่นานในการพัฒนาและขึ้นระบบ หากได้รับความร่วมมือและมีการติดตามอย่างต่อเนื่อง References :
https://fastdatascience.com/why-do-data-science-projects.../
We turn your DATA into your KEY of success. เราพาคุณขับเคลื่อนสู่ความสำเร็จด้วยข้อมูล คอราไลน์ พร้อมให้คำปรึกษาและพัฒนาโครงการ Big Data, Data Governance, Data Management, Data Analytics, Data Driven Transformations สนใจบริการติดต่อ Tel: 099-425-5398 Email: inquiry@coraline.co.th Facebook: https://www.facebook.com/coralineltd #Coraline #BigData #BigDatasolution #DataManagement #DataGovernance #DataAnalytics #DataDrivenTransformation

2 ปัญหาพื้นฐานที่ต้องแก้ด้วยโครงการ Big Data

เมื่อพูดถึงคำว่า Big Data เชื่อว่าหลายๆ คน ต้องเคยได้ยินคำนี้ และหลายบริษัท หรือ องค์กรต่าง ๆ ก็ต่างมีนโยบายที่จะต้องใช้ Big Data กันโดยทั้งสิ้น อย่างไรก็ตาม การจะกำหนดหัวข้อที่ต้องใช้ Big Data อาจไม่ใช่เรื่องง่าย เพราะการจะทำโครงการใด ๆ ควรเริ่มจาก “ปัญหา” เพราะการทำโครงการนั้นหมายถึงการแก้ปัญหา ปัญหาที่ต้องแก้โดย Big Data แบ่งออกเป็น 2 เรื่องใหญ่ ๆ ได้แก่ 1. ปัญหาเรื่องการเชื่อมโยงข้อมูล หากหน่วยงาน หรือองค์กรไหน มีปัญหาเรื่องการขอข้อมูลที่ต้องรอ การเข้าถึงข้อมูลช้า หรือแม้กระทั่ง การจะได้มาซึ่งข้อมูลยังต้องใช้วิธี Save as หรือ Key เข้าระบบใหม่ นี่ถือว่าเป็นปัญหาที่ต้องแก้ไขโดยด่วน โดยเฉพาะอย่างยิ่ง เมื่อต้องการผลักดันให้องค์กร ทำธุรกิจแบบ Data Driven และต้องการให้เกิด Digital Transformation 2. ปัญหาเรื่องการวิเคราะห์ หรือตัดสินใจที่เกิดจากการตัดสินใจหน้างานโดยไม่มีขั้นตอนในการตัดสินใจอย่างชัดเจน หากหน่วยงานหรือองค์กรไหน ยังใช้พนักงานในการตัดสินใจเป็นหลัก โดยไม่มีกฎเกณฑ์ที่ชัดเจน หรือแม้กระทั่ง การวิเคราะห์คำนวณใน Excel แล้วนำผลลัพธ์ไปแสดงผลใน Power Point ซึ่งไม่ทันการ ถือว่าเป็นความเสี่ยงด้าน Operation อย่างหนึ่ง ที่อาจไม่สามารถยอมรับได้ในยุค Digital จะเห็นได้ว่า ปัญหาทั้ง 2 ปัญหานั้น เป็นปัญหาพื้นฐาน ที่หลายองค์กรกำลังพบเจอ แต่อาจจะไม่รู้ตัวว่านี่คือปัญหา และสามารถแก้ได้โดยการทำโครงการ Big Data นอกจากนี้ ยังมีปัญหาเชิงลึก หรือ ปัญหาเรื่องธุรกิจที่ต้องการใช้ข้อมูลในการต่อยอดต่างๆ อีกมากมาย ซึ่ง Big Data สามารถช่วยได้ตราบใดก็ตามที่สามารถมีแหล่งข้อมูล เชื่อมโยงข้อมูล วิเคราะห์ข้อมูล และนำผลลัพธ์ไปใช้งานต่อให้เกิดประโยชน์สูงสุด การทำโครงการ Big Data คือ การใช้ประโยชน์จากข้อมูลให้ได้มากที่สุด มิใช่เพียงการเก็บข้อมูลเอาไว้เฉย ๆ เท่านั้น การเริ่มทำโครงการที่ดีที่สุด คือ การเริ่มจากการระบุปัญหา เพื่อนำปัญหานั้น ไปเป็นตัวตั้งต้นสำหรับการสร้าง Solution หรือ ทางออกต่อไป แต่หากไม่สามารถระบุปัญหาได้ การทำโครงการทั้งๆ ที่ยังไม่เห็นปัญหา อาจจะเป็นการเพิ่มภาระงาน หรืออาจจะเป็นการสร้างปัญหาเพิ่มเติมก็อาจจะเป็นได้ จะเห็นได้ว่า การเริ่มโครงการ ไม่ได้เริ่มจากการมีผู้เชี่ยวชาญ แต่ต้องเริ่มจากการที่เจ้าของโครงการเข้าใจตัวเองเสียก่อน เพื่อสามารถระบุได้ว่า ต้องการเทคโนโลยี หรือแม้กระทั่ง ต้องการบุคลากรในทักษะใด ที่จะสามารถช่วยแก้ปัญหานั้น ๆ ได้ต่อไป

3 ผู้นำด้านเทคโนโลยีรวมพลัง ChatGPT ตอบโจทย์ด้านการสื่อสารองค์กรภาครัฐเอกชน

เข้าสู่ยุค AI อย่างเป็นทางการก็ว่าได้ เมื่อ Microsoft เปิดตัว Azure Open AI ที่มี ChatGPT และล่าสุด ChatGPT4 ซึ่งได้รับความสนใจจากประชาชนและมีผู้ใช้งานหลายล้านคนทั่วโลก Microsoft Thailand ได้จัดงาน AI for Thailand’s Next Chapter ซึ่งเป็นงานสัมมนาด้าน AI สำหรับภาครัฐและรัฐสาหกิจ โดยมีผู้บริหารเข้าร่วมงานและให้ความสนใจจำนวนมาก เป็นการนำเสนอแนวคิดในการนำเทคโนโลยีมาช่วยปลดล็อกศักยภาพขององค์กร พร้อมกรณีศึกษาที่ประสบความสำเร็จในการนำ Open AI, ChatGPT, Modern Data มาปรับเปลี่ยนใช้ภายในองค์กร ในรูปแบบต่างๆ เช่น การให้บริการประชาชนผ่านระบบดิจิทัล เป็นต้น
โดย 3 ผู้นำด้านเทคโนโลยี นำโดยคุณโอม ศิวะดิตถ์ National Technology Officer จาก Microsoft Thailand ยักษ์ใหญ่แห่งวงการ AI, ดร.อสมา กุลวานิชไชยนันท์ CEO บริษัท Coraline ผู้นำด้านระบบ Big Data และการจัดการข้อมูล รวมถึงคุณทัชพล ไกรสิงขร CTO จาก Amity ผู้นำด้านบริการ Chatbot โซลูชั่น ได้เปิดเผยถึงความร่วมมือกันในการสร้างบริการ ChatGPT ที่จะเป็นแรงผลักดันทั้งภาครัฐและเอกชนให้นำเทคโนโลยี AI และ GPT Model นี้มาใช้ในการพัฒนาองค์กรให้เติบโต
คุณโอม กล่าวว่า สำหรับไมโครซอฟท์ เมื่อไม่นานมานี้เรามีการเปิดตัว Azure Open AI พร้อมให้บริการ AI ในโมเดล GPT ด้วยมาตรฐานระดับ Enterprise นอกจากความสามารถรอบด้านแล้ว เรายังพัฒนาเทคโนโลยีนี้บนพื้นฐานของความรับผิดชอบต่อสังคม ที่ไมโครซอฟท์และ Open AI มีแนวทางและจุดมุ่งหมายสอดคล้องกันและเชื่อว่า AI จะเข้ามาช่วยให้ธุรกิจรวมถึงผู้คนทำสิ่งที่ตัวเองทำอยู่เดิมได้ดีขึ้น และกระตุ้นให้มีการคิดค้นแนวทางใหม่ๆ ในการประยุกต์ใช้เทคโนโลยีโดยไมโครซอฟท์ยังคงมุ่งมั่นสร้างสรรค์ให้เทคโนโลยีนี้ทำประโยชน์กับทุกภาคส่วนอย่างทั่วถึงและเท่าเทียมที่สุด เพื่อสนับสนุน AI for All หรือ AI เพื่อทุกคนและทุกองค์กรอีกด้วย
ด้านคุณทัชพล ไกรสิงขร กล่าวว่า Amity มีความเชี่ยวชาญด้านการสร้างและปรับปรุง Chatbot ด้วยเทคโนโลยี AI ที่ทันสมัย การร่วมมือกับ Microsoft และ Coraline ในโครงการนี้หวังจะเป็นส่วนผสมที่ลงตัวที่จะช่วยเพิ่มขีดความสามารถและประสิทธิภาพในการนำ AI และ ChatGPT ไปประยุกต์ใช้ในธุรกิจและองค์กร เพื่อให้ผู้รับบริการได้รับประสบการณ์ในการสื่อสารทั้งในและนอกองค์กรที่ดีขึ้นอย่างเห็นได้ชัดเจนและแตกต่างจากโซลูชันอื่นๆ ในตลาด
ขณะที่ ดร.อสมา กุลวานิชไชยนันท์ กล่าวว่า การนำ GPT ใช้ในองค์กรไม่อยากให้จำกัดอยู่เฉพาะส่วนของ Chat เพราะในความเป็นจริง GPT มีศักยภาพสูงมากในการเข้าใจภาษา จึงเป็นตัวช่วยที่ดีสำหรับองค์กรต่างๆ ที่จะนำเอา GPT ไปประยุกต์ใช้ ไม่ว่าจะเป็นเรื่องการตรวจสอบเอกสาร การบริหารทรัพยากรบุคคล หรือแม้กระทั่งกระบวนการที่ต้องเชื่อมโยงกันโดยต้องมีการค้นหา ตรวจสอบ คำนวณ ซึ่งหัวใจสำคัญคือการเข้าใจกระบวนการและเชื่อมโยงให้ข้อมูลที่เข้า-ออกจากกระบวนการต่างๆ มีความเหมาะสมที่สุด คอราไลน์มีความเชี่ยวชาญด้านความเข้าใจในกระบวนการ ด้านการบริหารจัดการข้อมูล การวาง Pipeline และกลไกในการวิเคราะห์ด้วย AI เพื่อสร้างระบบที่ตอบโจทย์และมีประสิทธิภาพสูงสุดอยู่แล้ว ดังนั้นการร่วมมือกับ Microsoft และ Amity จะช่วยให้สามารถสร้างโซลูชันที่ครบวงจร และสามารถรองรับความต้องการที่หลากหลายของธุรกิจทั้งในภาคเอกชนและองค์กรรัฐบาลต่างๆ ได้อย่างแน่นอน
เพื่อบริการที่ดีที่สุดจึงเกิดบริการ AI Virtual Assistant ซึ่งเป็นความร่วมมือระหว่าง Coraline x Amity และ Microsoft Support บริการ ChatGPT for Enterprise ผู้ช่วยเสมือนที่สามารถช่วยเพิ่มประสิทธิภาพในการทำงานภายในองค์กร “𝐂𝐨𝐫𝐚𝐥𝐢𝐧𝐞” ผู้เชี่ยวชาญด้านการจัดการข้อมูล จะช่วยวางแผนและจัดเตรียมข้อมูลของคุณให้พร้อมก่อนเชื่อมต่อกับ AI เพื่อให้มั่นใจว่าคุณจะใช้ AI ได้อย่างมีประสิทธิภาพสูงสุด “𝐀𝐦𝐢𝐭𝐲” ผู้นำด้าน AI chatbot ที่มีประสบการณ์ในการทำ Chatbot ในหลากหลายวงการธุรกิจ และเสริมประสิทธิภาพด้วย AI เชิงสนทนา ทำให้สามารถตอบโต้กับผู้ใช่ได้อย่างราบรื่น “𝐌𝐢𝐜𝐫𝐨𝐬𝐨𝐟𝐭” ผู้ให้บริการสุดยอด AI อันชาญฉลาดแห่งยุค การันตีด้วยผู้ใช้งานหลายล้านคนทั่วโลก References : https://workpointtoday.com/chatgpt01/

4 Levels of Data Analytics

สำหรับการวิเคราะห์ข้อมูลนั้นจะแบ่งออกเป็น 4 ระดับดังนี้ 1. Descriptive คือการอธิบายสถานะของข้อมูลโดยการวิเคราะห์ในเชิงสถิติขั้นต้น เพื่อทำความเข้าใจรายละเอียดของข้อมูลนอกจากนี้ยังเป็นส่วนของการตรวจสอบและทำความสะอาดข้อมูลอีกด้วย 2. Diagnostic คือการวิเคราะห์ข้อมูลโดยศึกษาปัจจัยที่เกี่ยวข้องกันมากกว่า 2 ปัจจัย ทำให้เห็นเหตุผลของการเปลี่ยนแปลงของข้อมูลมากขึ้น อาจ Probability หรือ Clustering เข้ามาช่วยวิเคราะห์ได้ 3. Predictive คือการนำข้อมูลในอดีตมาทำนายอนาคตโดยใช้ปัจจัยที่เคยเกิดขึ้นในอดีต 4. Prescriptive คือการตั้งสมมติฐาน หากมีการเปลี่ยนแปลงเกิดขึ้นแล้วจะผลเกิดขึ้นอย่างไร ได้ผลลัพธ์อย่างไร ในการวาง Model Pipeline ขั้นตอน Descriptive จะเกิดก่อนเสมอและมักจะเป็นขั้นตอนที่ใช้เวลานานเพราะต้องทำงานกับ Data Owner และผู้เกี่ยวข้องหลายส่วนแต่เมื่อเข้าใจสถานะของข้อมูลอย่างครบถ้วนแล้วในขั้นตอนการวิเคราะห์เชิงลึกจะสามารถมองเห็น Insight และได้ผลลัพธ์ที่สร้าง Impact ได้อย่างมาก แต่หากละเลยการวิเคราะห์แบบ Descriptive ไป ผลลัพธ์ที่ได้จากการวิเคราะห์เชิงลึกหรือแม้แต่การสร้าง Model ก็อาจจะไม่ตอบโจทย์ก็เป็นได้ Model Pipeline จำเป็นจะต้องถูกออกแบบโดยผู้เชี่ยวชาญที่มีประสบการณ์เพราะเป็นการเชื่อมโยง Model เรียงร้อยต่อกันเป็นลำดับขั้น มิใช่แค่การสร้าง Model ใด Model เดียว อ่านรายละเอียดเรื่อง Model Pipeline ได้ที่ >>> https://www.facebook.com/coralineltd/posts/1089929861505829 #DataAnalytics #BigData #Coraline ให้คำปรึกษาและพัฒนาโครงการ Big Data, Data Governance, Data Management, Data Analytics และ Data Driven Transformations We turn your DATA into your KEY of success. Email: inquiry@coraline.co.th Tel: 099-425-5398

4 ขั้นตอนการ Clean Data สำคัญไฉน
: Why data quality is a KING?

คุณรู้หรือไม่ว่า Data Scientist ที่ทำงานจริงส่วนใหญ่ใช้เวลากว่า 80% ในการ Clean ข้อมูล และใช้อีก 20% ที่เหลือในการสร้างโมเดล การ Clean ข้อมูลนี้ เปรียบเหมือนการทำอาหาร เมื่อเรามีวัตถุดิบ นอกจากการคัดสรรวัตถุดิบอย่างพิถีพิถันแล้ว เรายังต้องนำวัตถุดิบนั้นมาทำความสะอาด ปลอกเปลือก ตัดแต่งส่วนที่เน่าเสียออก หั่นให้เป็นรูปร่างที่พร้อมปรุง และอีกหลากหลายขั้นตอน เพื่อให้อาหารจานนั้นถูกปรุงออกมาอย่างดีที่สุด เหตุผลที่ข้อมูลไม่สะอาดนั้น มีที่มาได้จากหลากหลายสาเหตุ ตั้งแต่การพิมพ์ผิด พิมพ์ตก เครื่องมือเกิด Error หรือ ข้อมูลตัวเลขที่มีความเป็นไปได้น้อยมาก เช่น คนอายุ 120 ปี หรือ ส่วนสูง 230 ซม. เป็นต้น ซึ่งในทางเทคนิคจะเรียกว่าข้อมูลที่อยู่นอกกลุ่มว่า " Outlier" ดังนั้น Data Scientist ที่ดีนั้นจำเป็นต้องแสดงให้เจ้าของข้อมูลนั้นเข้าใจว่า การ Clean Data นั้นเป็นขั้นตอนที่ยาก สำคัญ และใช้เวลานาน เพราะนอกจากการหาคำจำกัดความของ “ความไม่สะอาด” ของข้อมูลแล้ว เรายังต้องหาวิธีจัดการกับข้อมูลที่ตกหล่นหายไป หรือที่เราเรียกว่า " Missing value" อีกด้วย ทั้งหมดนี้ Data Scientist จำเป็นต้องใช้กลไกทางความคิดเพื่อออกแบบเป็นโมเดลสำหรับการ Clean Data โดยเฉพาะ เนื่องจากเรากำลังพูดถึงข้อมูลขนาดใหญ่ หรือ Big Data ที่ตาเปล่าและสองมือไม่สามารถจัดการได้ไหว ขั้นตอนเบื้องต้นในการ Clean ข้อมูล 4 ขั้นตอน ได้แก่ 1. Parsing คือ การแจกแจงข้อมูล หรือการใช้หัวข้อของชุดข้อมูล เช่น ชื่อ: สมศรี, จังหวัด: กรุงเทพ, น้ำหนัก: 75, ส่วนสูง: 160, อายุ: 60, เพศ: หญิง ความสำคัญของขั้นตอนนี้ไม่ใช่แค่การใช้ Head ของข้อมูล แต่เป็นการทำความเข้าใจว่าคำจำกัดความของชุดข้อมูลนั้นๆ คืออะไร รวมไปถึงเข้าใจค่า และความหมายของมัน เช่น มีค่าสูงสุด หรือ ต่ำสุดเท่าไหร่ เป็นต้น 2. Correcting คือ การแก้ไขข้อมูลที่ผิดพลาด เช่น ในช่องเพศ มีการใส่ตัวเลข หรือแม้กระทั่งตัวเลขที่ผิดปกติไปเนื่องจากมี 0 เกินมา ก็เป็นได้ วิธีการ Correct data นี้ต้องใช้กลยุทธ์ทางสถิติกันหน่อย ไม่ว่าจะเป็นการหาค่าเฉลี่ย ค่าเบี่ยงเบียนมาตรฐาน หรือ standard deviation หรือแม้กระทั่งการใช้ Clustering algorithm ก็ช่วยได้ หลังจากนั้นก็ต้องมาพิจารณากันต่อว่า ในช่องที่มีข้อมูลผิดพลาดนั้น เราจะมีการลบทิ้งทั้งแถวไปเลย หรือจะแก้ไขข้อมูลที่ผิดนั้นด้วยการแทนที่ด้วยตัวใดตัวหนึ่ง ถ้านึกอะไรไม่ออกก็ให้นึกถึง หลักการสิถิติเข้าไว้ก่อน ดังกราฟนี้ 3. Standardizing คือ การทำข้อมูลให้เป็นรูปแบบเดียวกัน ตัวอย่างเช่น จังหวัด กรุงเทพฯ ที่มีรูปแบบ กทม. กรุงเทพฯ และ กรุงเทพมหานคร ซึ่งคอมพิวเตอร์ไม่สามารถทราบได้เองว่ามันคือจังหวัดเดียวกัน ส่วนข้อมูลที่เป็นตัวเลขนั้น ในกรณีที่ต้องการแก้ปัญหาเรื่องหน่วย หรือความกว้างของข้อมูลที่ไม่เหมือนกัน สามารถวิธี Standard Normal Distribution ได้ ซึ่งวิธีนี้เป็นการจัดเรียงข้อมูลให้อยู่ในรูป Normalization หรือ ระฆังคว่ำที่เราคุ้นเคยกันดี สูตรการทำ Standardization คือ 4. Duplicate Elimination คือ การลบชุดข้อความซ้ำซ้อนทิ้ง ซึ่งอาจต้องใช้การเขียน Algorithm เพื่อระบุชุดข้อมูลที่ซ้ำซ้อน ด้วยความยาก และใช้เวลานานกว่าจะได้ข้อมูลที่พร้อมนำไปสร้าง Model ตอนนี้หลายๆ องค์กรที่มีโครงการทำ Big Data System จึงให้ Data Scientist เป็นผู้ออกแบบวิธีการเก็บข้อมูล ควบคู่ไปกับ Data Engineer ด้วย ซึ่งจะเห็นได้ว่า การ Clean Data นั้น ต้องอาศัยความรู้ด้านสถิติ และความคิดสร้างสรรค์ในการออกแบบ Algorithm หรือการเขียนโปรแกรมมาประกอบกัน การเป็น Data Scientist ที่ดี ควรให้ความสำคัญกับการ Clean ข้อมูลไม่แพ้การสร้าง Model เพราะหากเมื่อวัตถุดิบที่มีไม่สะอาดสมบูรณ์ ก็ยากนักที่จะได้ผลลัพธ์ออกมาสวยงามแบบได้ตามที่ต้องการ

bottom of page