สถิติเบื้องต้นง่ายๆ ที่จะทำให้คุณเข้าใจการวิเคราะห์มากขึ้น (ตอนที่ 2)
top of page

สถิติเบื้องต้นง่ายๆ ที่จะทำให้คุณเข้าใจการวิเคราะห์มากขึ้น (ตอนที่ 2)


สถิติเบื้องต้นง่ายๆ ที่จะทำให้คุณเข้าใจการวิเคราะห์มากขึ้น (ตอนที่ 2)

หลังจากทำความรู้จักกับค่ากลาง ค่าเบี่ยงเบน และรูปแบบการกระจายของข้อมูลไปแล้ว ในตอนที่ 1 วันนี้เรามาทำความรู้จัก “ความสัมพันธ์” ของตัวแปรกันต่อ เริ่มจาก

1. Correlation หรือ ค่าสหสัมพันธ์ เป็นการดูทิศทางความสัมพันธ์ระหว่างตัวแปร 2 ตัว โดยมี Correlation Coefficient (r) หรือ ค่าสัมประสิทธิ์สหสัมพันธ์ เป็นตัวบ่งชี้ถึงความสัมพันธ์นี้ ซึ่งค่าสัมประสิทธิ์สหสัมพันธ์นี้จะมีค่าอยู่ระหว่าง -1.0 ถึง +1.0 ซึ่งหากมีค่าใกล้ -1.0 นั้นหมายความว่าตัวแปรทั้งสองตัวมีความสัมพันธ์กันอย่างมากในเชิงตรงกันข้าม หากมีค่าใกล้ +1.0 นั้นหมายความว่า ตัวแปรทั้งสองมีความสัมพันธ์กันโดยตรงอย่างมาก และหากมีค่าเป็น 0 นั้นหมายความว่า ตัวแปรทั้งสองตัวไม่มีความสัมพันธ์ต่อกัน

Coefficient of Correlation

...ทั้งนี้ การที่ตัวแปรทั้งสองตัวมีค่าสหสัมพันธ์แสดงออกถึงความสัมพันธ์กันนั้น หมายความว่า ตัวแปรทั้งสองมีแนวโน้มจะไปในทางเดียวกัน แต่อย่างไรก็ตามไม่ได้หมายความว่าตัวแปรทั้งสองนั้นเป็นปัจจัยหรือเป็นเหตุผลของกันและกัน ทั้งนี้จึงต้องนำไปวิเคราะห์ในเชิง Regression ต่อไป ตัวอย่างเช่น หุ้น A กับ หุ้น B ที่มีแนวโน้มขึ้นลงไปในทางเดียวกันและมีค่า Correlation Coefficient (r) หรือค่าสัมประสิทธิ์สหสัมพันธ์ สูงถึง 0.93 แต่ไม่ได้หมายความว่า หุ้น A จะมีมูลค่าเป็นจำนวนเท่าของหุ้น B เป็นต้น

Sample : Correlation

2.Linear Regression หรือ การวิเคราะห์การถดถอย เป็นการศึกษาความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไป ซึ่งได้แก่ตัว ประมาณการ (Predictor, X) และตัวตอบสนอง (Response, y) โดยเป็นความสัมพันธ์แบบเชิงเส้น (Linear) ทั้งนี้ในขั้นตอนการทำ Regression ต้องมีการเก็บจำนวน Sample space จำนวนมากพอ นั้นคือ มี x และ y ที่มีความสัมพันธ์กันหลายๆ ครั้ง เพื่อนำมาหาสมการความสัมพันธ์

sample linear Regression

...จะเห็นได้ว่า ในกราฟ มีจุดหลายจุด นั้นคือ จุดที่บ่งบอกว่า เมื่อ x มีค่าจำนวนหนึ่ง จะส่งผลให้ y มีค่าจำนวนหนึ่ง ดังนั้น จำนวนจุดจึงมีผลสำคัญต่อการทำ Regression

สมการ และกราฟข้างต้นเป็น Regression ที่คุ้นหน้าคุ้นตาเรากันดี และเชื่อว่าหลายท่านก็ใช้งานสมการนี้อยู่ทุกวัน ไม่ว่าจะเป็นการเทียบบัญญัติไตรยาง เช่น

 

ไข่ 10 ฟอง ราคา 38 บาท ไข่ 50 ฟอง ราคา 3.8 x 50 = 190 บาท เป็นต้น

 

นอกจากการซื้อของทั่วไปแล้ว สมการความเร็วรถก็เป็น Simple Linear Regression อีกด้วย คือ

 

ระยะทาง = ความเร็ว x เวลา

 

....อย่างไรก็ตาม การ Regression อาจมีค่าคลาดเคลื่อนได้ และเมื่อมีค่าประมาณการ (Predictor) มีมากกว่า 1 ตัว จะเรียกว่า Multiple Linear Regression โดยมีรูปแบบสมการดังนี้

Multiple Linear Regression

พอเริ่มมีตัวแปรหลายตัว วิธีการทำ Multiple Linear Regression ก็ดูเหมือนจะยากขึ้นแล้ว ดังนั้นจึงต้องอาศัยเครื่องไม้เครื่องมือต่างๆ เข้ามาช่วยแก้ปัญหา ซึ่ง เครื่องมือที่ง่ายที่สุด คือ Microsoft Excel

วิธีการ คือ ใช้ Tool ที่เรียกว่า Analysis ToolPak

Analysis ToolPark

....ในการทำงานจริง ประสบการณ์จะสะสมให้เราเข้าใจมากขึ้นว่างานแบบไหนจะเหมาะกับการใช้ Linear Regression ซึ่งเมื่อระบบมีความซับซ้อนมากขึ้น Linear Regression อาจจะไม่ตอบโจทย์ ก็สามารถพิจารณาใช้การ Regression แบบอื่นๆ ได้ ทั้งนี้ Linear Regression ถือเป็นพื้นฐานที่สำคัญของการทำ Algorithm ประเภท Regression ทุกตัว หากเราทำความเข้าใจจุดนี้ให้แน่นพอแล้ว ก็จะเป็นพื้นฐานที่ดีให้เข้าใจ Regression ส่วนอื่นๆ ต่อไปด้วย

....การ Regression เป็นการหาความสัมพันธ์ ในปัจจุบัน เป็นโมเดลที่ถูกใช้งานในทุกวงการ ไม่ว่าจะเป็นการพยากรณ์อากาศ หรือ การทำนายปริมาณ Demand เพื่อวางแผนระบบ supply chain เป็นต้น อย่างไรก็ตาม ค่าบ่งบอกต่างๆ ไม่ว่าจะเป็น R-square หรือ P-value จะมีที่มาที่ไป อื่นๆ ให้ได้เรียนรู้ต่อ

....บทความนี้มีความต้องการอธิบายหลักสถิติอย่างง่ายๆ เพื่อให้เห็นภาพการใช้งาน ซึ่งอาจไม่ได้ลงรายละเอียดมากนัก เหมาะสำหรับบุคคลที่กำลังสงสัยวิธีการใช้งาน บุคคลที่มีพื้นฐานแน่นอยู่แล้ว หรือต้องการหามุมมองการใช้งานจริงเพื่อเสริมความเข้าใจ

....การจะเป็นนักวิเคราะห์ หรือนักสร้างโมเดลคณิตศาสตร์ที่ดี ต้องมีพื้นฐานทางสถิติ และความน่าจะเป็นที่แน่นพอ เพราะความรู้เหล่านี้ จะเป็นรากฐานของเหตุผลในการอธิบายที่มาที่ไปของโมเดล และสามารถนำไปต่อยอดโดยการสร้าง Machine Learning ได้ ถึงแม้ว่าปัจจุบันจะมี Library หรือ Tool ต่างๆ ที่ทำให้การวิเคราะห์ และการสร้างโมเดลเกิดขึ้นได้ง่ายขึ้น แต่ในขั้นตอนการเลือกโมเดล หรือ การอธิบายการเปลี่ยนแปลงต่างๆ ที่เกิดจากการใช้โมเดลก็ยังจำเป็นต้องใช้หลักพื้นฐานทางคณิตศาสตร์ สถิติ และความน่าจะเป็นมาเป็นเหตุผลหลัก ดังนั้นพื้นฐานแน่น จึงเป็นรากฐานที่ดีของการพัฒนา และเติบโตต่อไป


แท็ก:

< Previous
Next >
bottom of page