6 ขั้นตอนการทำ Exploratory Data Analysis

Exploratory Data Analysis (EDA) ถือว่าเป็นการวิเคราะห์ข้อมูลที่จำเป็นก่อน ที่จะวิเคราะห์ข้อมูลแบบอื่นๆ เช่นงาน Predictive ลักษณะการทำงานคือ สำรวจข้อมูลในมุมต่างๆ ในทุกๆตัวแปร หรือเปรียบเทียบกันระหว่างตัวแปร วิธีการทำ EDA ก็มีหลากหลายวิธี เช่น Visualization, Statistical Analysis วิเคราะห์ตัวแปล, การทำ clustering เป็นต้น EDA จะไม่มีการตั้งธงหรือสมมุติฐานไว้ ให้ข้อมูลเป็นตัวบอก จึงเหมาะอย่างยิ่งในงานที่หา Insights Exploratory Data Analysis หรือ EDA คือกระบวนการตรวจสอบ สำรวจข้อมูลเบื้องต้น เป็นการวิเคราะห์ข้อมูลที่จำเป็นก่อนการนำข้อมูลไปใช้ หรือนำไปวิเคราะห์เชิงลึก โดยประโยชน์ของการทำ EDA จะช่วยทำให้เราเข้าใจพื้นฐานเกี่ยวกับข้อมูลชุดนั้น และเป็นการตรวจความผิดพลาดของชุดข้อมูลได้อีกด้วย แนวทางการทำ EDA มีได้หลากหลาย วันนี้ Coraline ขอนำเสนอขั้นตอนการทำ EDA 6 ขั้นตอน ดังต่อไปนี้ 1. Distinguish Attributes
การเลือกข้อมูล และเตรียมให้พร้อมวิเคราะห์ เช่น การนำข้อมูลแต่ละชุด มาทำเป็น คอลัมภ์ เพื่อให้เห็นถึงความแตกต่างของข้อมูล แยกออกเป็น Attributes หรือ คุณลักษณะต่าง ๆ เช่น เพศ สี อายุ เป็นต้น 2. Univariate Analysis
การวิเคราะห์ข้อมูลตัวแปรเดียว เป็นการวิเคราะห์เชิงสถิติ ที่ทำให้เห็นพฤติกรรมของแต่ละ Attribute เช่น มีค่าเฉลี่ยเท่าไหร่ มีผลรวมเท่าไหร่ มีความแปรปวนเท่าไหร่ ค่าโดยรวมคืออะไร เป็นต้น 3. Bi-/Multivariate Analysis
การวิเคราะห์มากกว่า 1 ตัวแปร เพื่อให้เห็นถึงความสัมพันธ์ขั้นต้น เช่น การหา Correlation และการเขียนกราฟ ​Scatterplot 4. Detect Aberrant and Missing Values
การมองหาสิ่งผิดปกติในชุดข้อมูล และการมองหาข้อมูลที่ตกหล่นหายไป 5. Detect Outlier
การวิเคราะห์หาข้อมูลที่ผิดปกติไปจากค่ากลาง หรือ Outlier 6. Feature Engineering
การสร้าง Feature หรือตัวแปรที่จะนำไปวิเคราะห์เชิงลึก เช่น การแบ่งช่วงเวลาออกเป็น 3 ช่วง การนับจำนวนธุรกรรมที่มียอดมากกว่าที่กำหนด เป็นต้น แม้ว่าการทำ EDA จะเป็นการวิเคราะห์ขั้นต้นเพื่อทำความเข้าใจชุดข้อมูล แต่ผลลัพธ์ที่ได้จากการวิเคราะห์ สามารถทำให้เห็นถึงพฤติกรรมบางอย่างของข้อมูลนั้น ๆ ดังนั้น การทำ EDA จึงเป็นพื้นฐานที่จำเป็น และสำคัญอย่างมาก สำหรับโครงการ Data Analytics ใครคือทำคนทำ EDA?? โดยทั่วไปแล้ว Data Analyst และ Data Science ทั้งสองตำแหน่งสามารถทำ EDA ได้ อย่างไรก็ตาม ขั้นตอน ความละเอียด และแนวทางอาจจะแตกต่างกัน รวมไปถึง เครื่องมือที่ใช้ทำ EDA อีกด้วย แม้ปัจจุบันจะมีเครื่องมือมากมายที่ทำให้การวิเคราะห์ข้อมูลขนาดใหญ่เกิดขึ้นได้ง่ายขึ้น แต่กระบวนการ EDA ก็ยังคงต้องอาศัยทักษะของนักวิเคราะห์เป็นส่วนใหญ่ ดังนั้น พื้นฐานสถิติ จึงเป็นหัวใจสำคัญของการวิเคราะห์ ไม่ว่าจะขั้นพื้นฐาน หรือขั้นสูง และนี้เอง ทำให้นักวิเคราะห์ที่มีพื้นฐานดี จะสามารถปรับตัวให้เข้ากับเทคโนโลยีใหม่ ๆ ได้มากกว่านักวิเคราะห์ที่เน้นการใช้เครื่องมือเพียงอย่างเดียว

6 ขั้นตอนการทำ Exploratory Data Analysis

Exploratory Data Analysis (EDA) ถือว่าเป็นการวิเคราะห์ข้อมูลที่จำเป็นก่อน ที่จะวิเคราะห์ข้อมูลแบบอื่นๆ เช่นงาน Predictive...