วิเคราะห์สถานการณ์ Big Data ในปี 2018 by Coraline
ในปี 2018 ที่ผ่านมา เราได้ยินคำว่า Big Data กันจนคุ้นหู ไม่ว่าจะมาจากโครงการของหน่วยงานภาครัฐ และเอกชน อย่างไรก็ตาม ผลสำรวจของ Coraline จากแต่ละวันที่เราได้รับโทรศัพท์จากลูกค้า พบว่ามีหน่วยงานต่างๆ กว่า 80% ที่มีการใช้คำว่า “Big Data” โดยที่ยังไม่รู้ว่า Data มาจากไหน ควรจะวางเป้าหมายของการดำเนินโครงการอย่างไร และมีขั้นตอนอย่างไร ความน่าประหลาดใจไม่ได้อยู่ตรงที่ว่า หลายองค์กรยังไม่เข้าใจความหมาย และความสำคัญของโครงการ Big Data แต่เป็น ในเมื่อยังไม่เข้าใจ Big Data และทำไมถึงต้องเร่งทำโครงการ ทั้งๆ ที่ยังไม่เข้าใจ จากกราฟ Google Trends ด้านล่างนี้ แสดงให้เห็นถึงการเปรียบเทียบ Trend ของคำว่า Big Data, Data Science, Machine Learning, Artificial Intelligence กราฟด้านบนนี้เป็นกราฟของ Trend ทั้งโลก ในขณะที่กราฟล่างเป็น Trend ในประเทศไทย สิ่งที่แตกต่างกันอย่างชัดเจน คือ เรื่องของเวลา จะเห็นได้ว่า Trend ของ Big Data บนโลกในนี้นั้นเริ่มนิ่งตั้งแต่ปี 2014 เป็นต้นมา ในขณะที่ Trend ของการต่อยอดข้อมูลทั้งหลาย ไม่ว่าจะเป็น Data Science, Machine Learning และ Artificial Intelligence นั้นพุ่งทยายสูงขึ้นเรื่อยๆ โดยเฉพาะตั้งแต่ปี 2015 เป็นต้นมา และในปี 2018 ที่ผ่านมานี้ กระแสของ Machine Learning ก็ได้พุ่งทยายจนชนะกระแสของ Big Data ไปเป็นที่เรียบร้อยแล้ว ในขณะที่กระแสของ Big Data ในประเทศไทย ยังคงพุ่งทยายเป็นอันดับ 1 อย่างต่อเนื่อง สาเหตุที่ Trend ของโลก กับของประเทศไทยแตกต่างกันอย่างสิ้นเชิง เพราะ ข้อมูลในหลายๆ องค์กร ยังไม่ได้ถูกจัดเก็บ และทำความสะอาด ทำให้เมื่อต้องการดำเนินโครงการ Big Data ก็จำเป็นต้องย้อนกลับมาเก็บข้อมูลเสียใหม่
ข้อมูลต่างๆ ถูกเก็บไว้แยกกันหลายส่วน และมักจะถูกเก็บไว้ในรูปแบบที่แตกต่างกัน อาจเกิดจากการใช้ระบบที่แยกส่วนกัน และมีผู้รับผิดชอบข้อมูลที่แยกจากกัน ทำให้เป็นอุปสรรคในการเชื่อมโยงข้อมูล
หลายองค์กร เข้าใจว่าการทำโครงการ Big Data ต้องเริ่มจากการมี Data เสียก่อน จึงละเลยที่จะทำความเข้าใจว่า Data ที่ควรจะเก็บ หรือ Data ที่จะนำไปใช้ต่อ คือ Data ประเภทใดกันแน่
ในประเทศไทย ยังขาดนักพัฒนา หรือ Developer อยู่มาก เป็นปัญหาต่อเนื่อง เกิดจากการที่เรามักจะพึ่งพาเทคโนโลยีของต่างชาติ และคุ้นเคยกับการใช้โปรแกรมสำเร็จรูป เกิดเป็นความเคยชิน ในขณะที่โครงการ Big Data เป็นโครงการที่ต้องพัฒนาระบบเอง ทำให้ยังไม่สามารถวางขอบเขตของการทำงานได้ เนื่องจากไม่ทราบขั้นตอนของการพัฒนาที่ถูกต้อง ในแต่ละวัน คำว่า Big Data และ คำว่า AI ได้กลายเป็นคำพูดติดหูไปแล้ว ไม่ว่าจะเป็นโครงการเล็ก หรือ โครงการใหญ่ หลายๆ โครงการ มีการอ้างถึงการใช้ Big Data และ AI แต่ไม่สามารถบอกได้ว่านำมาใช้ทำอะไร ซึ่งในฐานะที่ Coraline เป็นผู้เชี่ยวชาญ ทุกครั้งที่อ่านข่าว จะสามารถวิเคราะห์ได้ทันทีว่า ข่าวนี้เป็นข่าวที่มีแนวโน้มจะใช้เทคโนโลยีดังกล่าวจริงๆ หรือเป็นเพียงแค่ข่าว จะรู้ได้อย่างไรว่าข่าวนั้นจริง หรือไม่จริง วิเคราะห์ได้ง่ายๆ ดังนี้ ถ้ามีคำว่า Big Data จะต้องมี 4V นั่นคือ ขนาดที่ใหญ่จนระบบทั่วไปไม่สามารถรองรับได้ ต้องใช้ระบบประมวลที่มีความเร็ว ข้อมูลต่างๆ มาจากหลายๆ แหล่ง หลายที่มา และมีรูปแบบการเก็บที่ไม่เหมือนกัน ต้องผ่านการเชื่อมโยงและจัดการ ข้อมูลมีความซับซ้อน และยุ่งยาก ก่อนจะนำไปใช้ต้องมีการทำความสะอาด
ดังนั้น หากพบเจอข่าวที่อ้างว่ามีการใช้ Big Data แต่เป็นข้อมูลไม่กี่แถว โครงการนี้ อาจไม่ใช่โครงการ Big Data จริงๆ ก็เป็นได้
หากมีคำว่า AI จะต้องเป็นระบบที่มีกลไกการใช้ Data Model เป็นตัวประมวลผล และตัดสินใจ ซึ่งผลลัพธ์ที่ได้นั้น จะต้องส่งต่อไปยังระบบอื่นๆ ได้ทันที ไม่จำเป็นต้องมีการตรวจสอบด้วยมนุษย์อีกต่อไป เช่น ระบบรถขับเคลื่อนอัติโนมัติ การแนะนำสินค้าในเว็บไซต์ (แนะนำทันที ไม่ต้องมีคนตรวจสอบ) เป็นต้น แต่หากเป็นการใช้ AI เพื่อคำนวณ และให้มนุษย์ตัดสินใจภายหลัง อันนี้อาจจะเป็น Machine Learning หรือ Data Model ที่ยังไม่ถึงขั้นเป็น AI
ทั้งนี้ ความสำคัญของโครงการ ไม่ได้อยู่ที่ Big Data แต่เป็น Data หมายถึงว่า ไม่จำเป็นต้องสนใจว่าโครงการนั้นจะใหญ่แค่นั้น แต่ความสำคัญอยู่ที่ว่า แต่ละองค์กรเข้าใจโจทย์ของตัวเอง และสามารถนำข้อมูลมาใช้เป็นประโยชน์ได้มากแค่ไหนต่างหาก เมื่อมีบทความมากมาย หรือมีข่าวที่เกี่ยวข้องกับ Big Data และ AI ออกมาอย่างต่อเนื่อง ทำให้เห็นถึงกระแสความตื่นตัว แต่ทั้งนี้ หากเป็นข่าวที่มีความคลุมเคลือ ไม่ชัดเจนในการใช้เทคโนโลยี หรือเป็นการเสนอโครงการที่มีแนวโน้มว่าจะทำ และสุดท้ายไม่ได้ทำ เมื่อเป็นเช่นนี้บ่อยครั้ง จึงกลายเป็นว่า คำว่า Big Data และ AI ได้กลายเป็น Buzzword ที่ไม่มีความหมายอีกต่อไป หากเป็นเช่นนั้นจริงๆ การพัฒนาต่างๆ จะเดินถอยหลังทันที เพราะ Big Data เป็นทรัพยากรเพื่อสร้าง AI และถ้าแค่การเก็บ Data ให้มีคุณภาพยังทำไม่สำเร็จ ต่อไปจะสร้าง AI ที่มีคุณภาพออกมาได้อย่างไร ในยุค 4.0 นี้ ทุกอย่างควรต้องพัฒนาขึ้นมาอย่างมีเอกลักษณ์ มิใช่การใช้เทคโนโลยีของผู้อื่น โดยไม่เข้าใจในพื้นฐานของการพัฒนาระบบ ทั้งนี้ การพัฒนาอาจจะยากกว่าการใช้สิ่งสำเร็จรูปแบบ เพราะต้องใช้เวลาในการก่อร่างสร้างเป็นระบบขึ้นมาใหม่ แต่การใช้สิ่งที่สำเร็จรูปแบบนั้น เป็นการใช้ระบบที่ออกแบบมาจากปัญหาของผู้อื่น ที่อาจไม่เข้ากับสภาพแวดล้อมของเราก็เป็นได้ หากถาม Coraline ว่า คิดว่าในปี 2018 กระแสของ Big Data เป็นอย่างไร ก็ต้องตอบว่า “แย่กว่าที่คิด” เพราะมีโครงการที่อ้างว่าจะทำ Big Data มากมาย แต่พบว่ามีโครงการที่ทำได้สำเร็จจริงๆ จำนวนน้อยมาก ทั้งๆ ที่โครงการ Big Data ไม่ใช่โครงการก่อสร้าง ที่ต้องใช้เวลาในการทำงานแสนนาน ในทางกลับกัน โครงการ Big Data สามารถดำเนินการได้อย่างรวดเร็ว หากเข้าใจขั้นตอนการทำงานจริงๆ ในปี 2019 นี้ เป็นปีสุดท้าย ที่เราจะต้องเร่งทำ Big Data ให้สำเร็จ เพราะในปี 2020 โลกกำลังจะเข้าสู่ยุค AI เต็มตัว ไม่ว่าจะเป็นการประกาศใช้ Social Credit Scoring ของประเทศจีน ที่ใช้ AI ประเภท Image Processing ขนาดใหญ่ การเร่งพัฒนารถขับเคลื่อนอัตโนมัติของหลายๆ ประเทศ การ Disrupt ธุรกิจค้าขายด้วย E-Commerce (ซึ่งใช้ AI เป็นตัวแนะนำสินค้า) และยังมีระบบอัจฉริยะอีกมากมายที่กลายมาเป็นส่วนหนึ่งของชีวิตประจำวันของเราไปเสียแล้ว ยังมีเรื่องราวอีกมากมาย ที่ในสังคมเราต้องช่วยกันศึกษา และแชร์ความรู้ ไม่ว่าจะเป็นเรื่อง Data Privacy ที่เป็นเรื่องสำคัญอย่างมาก Open Source Data ที่ใช้แชร์ข้อมูลเพื่อเป็นประโยชน์ในภาพรวม Data Quality ที่ต้องร่วมกันเพื่อให้ได้มาซึ่งข้อมูลที่มีคุณภาพ ส่วนในระดับองค์กร ก็จะต้องทำความเข้าใจเรื่อง Modern Infrastructure แบบใหม่ ที่รอบรับข้อมูลได้มากขึ้น รวมไปถึง Data Science ที่เป็นการสร้าง Model ที่เป็นเอกลักษณ์เฉพาะตัว เรื่องราวเกี่ยวกับ Data อาจจะเป็นเรื่องใหม่ แต่ไม่ใช่เรื่องที่ยากเกินไปกว่าที่เราจะช่วยกัน ทำความเข้าใจไปด้วยกัน
ในปี 2018 ที่ผ่านมา เราได้ยินคำว่า Big Data กันจนคุ้นหู ไม่ว่าจะมาจากโครงการของหน่วยงานภาครัฐ และเอกชน อย่างไรก็ตาม ผลสำรวจของ Coraline...