ก่อนอื่นขอย้อนกลับไปถึงยุคแรกเริ่มของ Big Data เกิดจากเมื่อข้อมูลต่างๆ เกิดขึ้นมากมายอย่างรวดเร็ว โดยที่ก่อนหน้านี้จะเน้นการเก็บข้อมูลที่เป็น Structured มากกว่า ในขณะที่ปัจจับันเราพบว่าข้อมูลประเภท Unstructured เองก็ถูกใช้งานมากขึ้นเรื่อยๆ โดยเฉพาะในมุมของ Marketing ด้วยเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็ว จนทำให้หลายองค์กรปรับตัวไม่ทัน สิ่งที่เกิดขึ้นคือมีการลงระบบซ้ำซ้อน ไม่ว่าจะเป็นตัวข้อมูลเองที่มีการเก็บหลายที่ เครื่องมือที่ใช้บริหารข้อมูล รวมไปถึงเครื่องมือที่ใช้แสดงผล ปัญหาใหญ่ ไม่ใช่เรื่องของความซ้ำซ้อนนี้ แต่มันคือ การมีระบบอยู่หลากหลาย จนไม่สามารถใช้งานได้เลยสักระบบ เพราะแต่ละระบบ จะมีผู้ดูแล ผู้รับผิดชอบ และผู้ใช้งานต่างกัน กลายเป็นว่า ต่างคนต่างมีมุมมองของข้อมูลที่ไม่เหมือนกัน วิธีแก้ปัญหาแบบ Modern Data Management คือ การสร้าง Data Lake ที่เป็นแหล่งเก็บ Raw data เอาไว้ตรงกลาง เพื่อให้ Data Scientist มาเลือกนำข้อมูลไปใช้งานต่อ ซึ่งอาจจะส่งไปไว้ที่ Data Warehouse หรือแสดงผลเลยก็ได้
นอกจากนี้ พวกโปรแกรมแสดงผลต่างๆ ไม่ว่าจะเป็น BI หรือ Data integration software ทั้งหลาย ที่ดูเหมือนจะสำเร็จรูปในตัวอยู่แล้ว ก็จำเป็นต้องมี Data Scientist หรือ Data Engineer มาออกแบบแนวทางในการใช้งาน โดยที่แบ่งงานออกเป็น
Data Scientist เข้ามาดูว่าข้อมูลอะไรบ้างที่นำไปต่อยอดต่อได้ โดยอาจต้องสร้าง Code หรือ Machine Learning ขึ้นมาเพื่อเรียนรู้ข้อมูลนั้นๆ
Data Engineer เข้ามาออกแบบให้มีการใช้งาน และเก็บข้อมูลได้อย่างคุ้มค่าที่สุด
Data Analyst ทำหน้าที่เป็น User ที่ต้องใช้โปรแกรมแสดงผลข้อมูลทุกวันในการปฏิบัติงาน
ตัวอย่าง Flow Diagram ของระบบ Modern Data Pipeline
กลับมาที่ คำถามที่ว่า เมื่อมี system หลายตัวแยกกัน จะแก้ไขอย่างไร จึงมี 2 แนวทาง คือ
ยกเลิกบางระบบ เพื่อลดงานซ้ำซ้อน
เก็บระบบเก่าเอาไว้ แล้วหาทางสร้างระบบเชื่อมโยงใหม่
ทั้งนี้ เนื่องจากเทคโนโลยีใหม่ๆ ที่เกิดขึ้นในยุคนี้ มี Life-cycle ค่อนข้างต่ำ เพราะมีการ Update เกิดขึ้นตลอดเวลา ทำให้ในการวางระบบ Data ทั้งระบบ ต้องมองไปถึงความ Flexible ในการเปลี่ยนแปลงด้วย ซึ่งหลักในการแยกงานแต่ละส่วนออกจากกัน ตาม Diagram ข้างต้น จะเห็นได้ว่าหากกล่องไหนมีการเปลี่ยนแปลง จะกระทบกับกล่องใดบ้าง และควรแก้ไขอย่างไร
อย่างไรก็ตาม จากประสบการณ์ทำงาน Big Data ของ Coraline เราพบว่า ความยุ่งยากของการแก้ปัญหานี้ คือ การแก้ Mindset ขององค์กร เพราะขณะที่องค์กรตัดสินใจซื้อระบบ และ Implement ระบบนั้น คงเชื่อว่า การลง Software หรือ System หนึ่งใดๆ จะตอบโจทย์ทั้งหมดให้องค์กรได้ ซึ่งเป็นความเข้าใจที่ไม่ถูกต้อง
บางบริษัท IT อาจะมีการเสนอขายระบบที่ดูแลได้หมดครบลูป ตั้งแต่จัดเก็บ วิเคราะห์ แสดงผล และใช้งาน ให้องค์กรได้เลือกซื้อ แต่หากสังเกตจริงๆ ในขั้นตอนของการ Implement หรือลงระบบ จะต้องมีผู้เชี่ยวชาญมาปรับแก้ ปรับจูน ให้ System ของเขา เข้ากับองค์กรได้ ซึ่งการปรับจูนนี้ เป็นตัวบ่งบอกว่า ไม่มี System ใด ที่ Perfect สำเร็จรูปไปเสียหมด
บางองค์กรอาจมองว่าการมีระบบแยกกัน หรือซ้ำซ้อนกัน ไม่ได้สงผลกระทบอะไรมากในเชิงธุรกิจ ซึ่งความจริงแล้ว อาจไม่ได้ส่งผลกระทบในช่องทางการหารายได้ แต่เป็นการเสียต้นทุนไปโดยเปล่าประโยชน์ และเสียโอกาสในการได้ใช้เทคโนโลยีใหม่ ที่อาจต่อยอดให้ธุรกิจไปได้ไกลกว่านี้ก็เป็นได้ สุดท้ายนี้ปัญหาต่างๆ เหล่านี้ จึงที่มุมมองของแต่ละองค์กรจะมองข้ามปัญหาเรื่องระบบไปก่อน หรือจะลงมือแก้ไขให้เรียบร้อย ณ ตอนนี้