Metadata คือ ข้อมูลที่อธิบายถึง “ข้อมูล” (Data about Data) เหมือนเป็นลักษณะของข้อมูลนั้น โดย Metadata จะเหมาะสำหรับคนฝั่งธุรกิจมาใช้งาน (เห็นข้อมูลนี้แล้วรู้ได้เลยว่าสำคัญมากหรือน้อยกับธุรกิจ หรือเป็นส่วนประกอบของกระบวนการไหนในธุรกิจ)
โดยตัวอย่างของ metadata มีดังนี้
ข้อมูลนี้ชื่ออะไร
มีคำอธิบายข้อมูลนี้ว่าอย่างไร
ข้อมูลถูกสร้างเมื่อไหร่
ข้อมูลนี้แก้ไขล่าสุดเมื่อไหร่
ใครเป็นคนเก็บข้อมูลนี้มา
ข้อมูลอยู่ในรูปแบบ Format ไฟล์อะไร (File Extension)
ข้อมูลนี้มีขนาดเท่าไหร่
ข้อมูลนี้ถูกเก็บอยู่ที่ไหน
ข้อมูลนี้ใครมีสิทธิเข้าถึงได้ และใครมีสิทธิแก้ไขได้
รูปแบบของ Metadata มีหลายรูปแบบ ดังตัวอย่างในรูปที่ 1 - 2
จากรูปที่ 1 รูปภาพกระต่ายจะหมายถึงข้อมูล และ Metadata จะหมายถึงชื่อข้อมูล, Format ของข้อมูล, ชื่อคนเก็บข้อมูล, วันที่เก็บข้อมูล, และตำแหน่งที่เก็บข้อมูล
จากรูปที่ 2 รูปภาพ Metadata จากการกดดู Properties ของไฟล์ นอกจากนี้ยังสามารถดูรายละเอียดของข้อมูลนี้ในเชิงความปลอดภัย (Security) และรายละเอียดอื่น (Detial) ได้อีกด้วย
Data Dictionary เป็น Metadata ประเภทหนึ่งที่จะอธิบายถึงข้อมูลที่สามารถเก็บอยู่ในรูปแบบของตารางได้ เช่น TXT, CSV, Excel, JSON, XML โดย Data Dictionary จะเหมาะกับคนไอที เหมือนกับเป็น One-Stop Service ในการทำความเข้าใจข้อมูลเพื่อนำไปประมวลผลต่อได้อย่างถูกต้อง
ข้อมูลส่วนมากที่ถูกเก็บไว้ใน Data Dictionary จะมีดังนี้
ชื่อ Database
ชื่อ Schema
ชื่อ Table
ชื่อ Column
ชนิดของข้อมูล (Data Type) และจำนวนความยาวของข้อมูลที่มีได้มากสุด (Data Length)
ค่าเริ่มต้น (Default Value)
ค่าใน Column สามารถเป็น NULL หรือไม่ (Nullable)
ความหมายของ Column นั้น ๆ
ตัวอย่างข้อมูล
มี Primary Key หรือไม่
มี Indexes หรือไม่
ตัวอย่างของ Data Dictionary ในรูปที่ 3 จะแสดงถึงข้อมูลในขับขี่ โดยจะประกอบไปด้วยข้อมูลเลขที่ใบขับขี่ (License ID) ที่มีชนิดของข้อมูลเป็นจำนวนเต็ม (Integer) ได้สูงสุด 6 ตัวเลข, ชื่อจริง (Surname) ที่มีชนิดของข้อมูลเป็นข้อความ (Text) ได้สูงสุด 25 ตัวอักษร เป็นต้น
ในเชิงการใช้งาน Data Dictionary จึงมีประโยชน์สำหรับการนำข้อมูลจากแหล่งหนึ่งไปเชื่อมโยงกับอีกแหล่งหนึ่งได้มากกว่า Metadata ส่วนประโยชน์ของ Matedata ก็เพื่อให้ทราบสถานะของข้อมูลนั้น ๆ
อย่างไรก็ตาม ทั้ง Metadata และ Data Dictionary ต่างมีความสำคัญ และจำเป็นต้องมีการจัดทำ เพื่อใช้เป็น Reference สำหรับโครงการ Big Data ทั้งสิ้น
ซึ่งปัญหาข้อมูลกระจัดกระจาย และปัญหาที่ไม่สามารถเชื่อมโยงข้อมูลได้ ส่วนหนึ่งก็เป็นเพราะไม่มีการจัดทำ Metadata และ Data Dictionary เอาไว้ก่อน ทำให้ไม่ทราบว่ามีการจัดเก็บข้อมูลอะไรเอาไว้ ที่ไหน จัดเก็บอย่างไรเอาไว้บ้าง
เริ่มใหม่ ยังไม่สายแต่ถ้าไม่เริ่มปัญหาเหล่านี้อาจจะบานปลายและยากที่จะแก้ไขไปเรื่อยๆ