Continuous and Discrete Data ต่างกันอย่างไร


การทำ Data Visualization มีความสำคัญอย่างมาก ทั้งในส่วนของการทำความเข้าใจข้อมูลก่อนที่จะออกแบบ Model และในส่วนของการแสดงผลลัพธ์หลังจากผ่านการวิเคราะห์ เนื่องจากข้อมูลที่ใช้วิเคราะห์ เป็นข้อมูลขนาดใหญ่ การมองข้อมูลแบบ Visualization จะเป็นการมองแบบภาพที่ทำให้เห็นการเรียงตัวของข้อมูลได้ในระบบ Macro หรือเป็นภาพรวม ก่อนที่จะลงรายละเอียดในระดับ Micro หรือ ภาพย่อยๆ อีกครั้ง

ในปัจจุบันนั้น มีเครื่องมือด้าน Data Visualization ที่หลากหลาย ไม่ว่าจะเป็นเครื่องมือประเภท Spreadsheet หรือ Business Intelligence Software (BI) หรือแม้กระทั่งเขียนโปรแกรมภาษาต่างๆ เพื่อสร้างมุมมองของข้อมูล ก็มี Library ให้เลือกใช้ได้สะดวกมากขึ้น แต่ปัญหาใหญ่มิใช่เรื่องข้อมูล ปัญหานี้ คือ การ Visualize อย่างไร เช่น จะใช้ กราฟอะไรในโจทย์แต่ละโจทย์ หรือจะ Plot อะไร เพื่อดูอะไร เป็นต้น

การเริ่มทำ Visualization ที่ดีนั้นเราจำเป็นต้องเข้าใจ ประเภทของข้อมูลเสียก่อน ในที่นี้ หน่วยแรกของข้อมูล หรือ Data ที่ควรทราบ คือ ข้อมูลนั้น เป็นข้อมูลแบบต่อเนื่องหรือไม่ โดยแบ่งออกเป็น ข้อมูลที่มีความต่อเนื่องกัน (Continuous Data) และข้อมูลที่ไม่มีความต่อเนื่องกัน (Discrete Data)

1.Continuous Data ข้อมูลประเภทที่มีค่าต่อเนื่องกันนี้ เป็นข้อมูลที่สามารถวัดค่าเชิงปริมาณ (Quantitative) สามารถหาค่าความสัมพันธ์โดยหลักการทางคณิตศาสตร์ทั่วไปได้ เช่น อุณหภูมิ อัตราแลกเปลี่ยน หรือ ราคาน้ำมัน เป็นต้น ทั้งนี้ ในตัวข้อมูลจะมีความต่อเนื่องกัน เช่น อุณหภูมิ 25 กับ 26 หมายถึง 26 มีความร้อนที่สูงกว่า 25 เป็นต้น

การสร้าง Visualization สำหรับข้อมูลประเภทนี้ มักจะใช้รูปแบบของภาพ หรือ กราฟ ที่สะท้อนถึง ปริมาณได้ เช่น ตำแหน่งตามแกน ลำดับสี ความหนาของเส้น และขนาดของสิ่งที่แสดงถึงข้อมูลนั้น เป็นต้น

2.Discrete Data ข้อมูลประเภทที่ไม่มีความต่อเนื่องกัน เช่น เพศ ประเภทสินค้า หรือ กลุ่มเลือด เป็นต้น ข้อมูลลักษณะนี้เป็นข้อมูลที่บ่งบอกถึง สถานะ ประเภท คุณสมบัติ เชิงคุณภาพได้ (Qualitative)

การแสดงผลจากข้อมูลประเภทนี้มักใช้ สี รูปร่าง และประเภทของเส้น ในการจำแนกคุณลักษณะของข้อมูลนั้น ซึ่งแต่ละสี แต่ละรูปร่าง จะแสดงถึงคุณสมบัติของข้อมูลนั้นๆ โดยไม่จำเป็นต้องเชื่อมโยงกับข้อมูลชุดอื่น

ข้อคำนึงถึงการใช้ข้อมูลประเภทนี้ได้แก่ การพิจารณาลำดับของข้อมูล โดยสามารถแบ่งข้อมูลออกได้เป็น 2 แบบ คือ

a.Order Factor ข้อมูลที่มีปัจจัยด้านลำดับ เช่น ดี-ปานกลาง-แย่ วัน-เดือน-ปี และข้อมูลประเภทการจำแนกออกเป็นลำดับ หรือ Level เป็นต้น

b.Unorder Factor ข้อมูลอื่นๆ ที่ไม่มีความสัมพันธ์กันเชิงลำดับ เช่น สุนัข-แมว-ปลา และ Free-text data เป็นต้น จะใช้รูปทรง หรือ สีที่บ่งบอกถึงคุณสมบัติของข้อมูลนั้น

ตัวอย่างเช่น กราฟด้านล่าง แสดงข้อมูล สถิติปริมาณสัตว์ที่พบ เราจะสังเกตุได้ว่า ชื่อของสัตว์นั้นเป็นข้อมูลแบบ Discrete Data ที่ไม่ได้มีความต่อระหว่างแต่ละชื่อ ทำให้กราฟด้านซ้าย ที่เป็นกราฟเส้น อาจจะทำให้การสื่อความหมายนั้นคลาดเคลื่อน เพราะกลายเป็นว่า จาก Dog ไป Cat มีเส้นที่เชื่อมกัน กราฟเส้น จึงไม่เหมาะสำหรับการแสดงผลแบบ Discrete Data ในขณะที่กราฟแท่งแบบ Horizontal Bar Chart ด้านขวาจะให้ข้อมูลที่ดีกว่า

นี้เป็นเพียงตัวอย่างเริ่มต้นของการทำ Data Visualization แต่ได้แสดงให้เห็นทั้งในมุมการอธิบายข้อมูล และในมุมการสร้างสรรค์วิธีการอธิบายข้อมูล หากถามว่า ใครควรเป็นผู้ทำ Data Visualization คำตอบคือ Data Analyst หรือ ใครก็ตามที่ต้องเรียนวิเคราะห์ข้อมูล (ขั้นต้น) ด้วยตัวเองค่ะ

บทความถัดไป เราจะพูดถึง “การใช้รูปทรง ใน Data Visualization” ติดตามได้ที่ Coraline นะคะ

#BigData

#DataScience

#Optimization

#ProductivityImprovement

#DigitalTransformation

#MachineLearning

#ArtificialIntelligence

#Coraline ให้คำปรึกษาการทำ Big Data, Data Model, Artificial Intelligence และ Digital Transformation เพื่อเพิ่มศักยภาพของธุรกิจ

Recent Posts

Contact

Follow

02 114 7003 

77/129, 30th floor, Sinn Sathorn Tower, Thanon Krung Thon Buri, Khlong Ton Sai, Khlong San, Bangkok 10600 

©2017 by Coraline