LSM สำหรับฟังก์ชันของตัวแปรสองตัว การประมาณข้อมูลการทดลอง วิธีกำลังสองน้อยที่สุด การใช้งานจริงของ LSM สำหรับการพึ่งพาเชิงเส้นบนเครื่องคิดเลขที่ไม่สามารถตั้งโปรแกรมได้

ตัวอย่าง.

ข้อมูลการทดลองเกี่ยวกับค่าของตัวแปร เอ็กซ์และ ที่จะได้รับในตาราง

อันเป็นผลมาจากการจัดตำแหน่งฟังก์ชัน

โดยใช้ วิธีกำลังสองน้อยที่สุดประมาณข้อมูลเหล่านี้ด้วยการพึ่งพาเชิงเส้น y=ขวาน+ข(ค้นหาพารามิเตอร์ และ ). ค้นหาว่าบรรทัดใดในสองบรรทัดที่ดีกว่า (ในแง่ของวิธีกำลังสองน้อยที่สุด) เพื่อจัดแนวข้อมูลการทดลอง วาดรูป.

สาระสำคัญของวิธีกำลังสองน้อยที่สุด (LSM)

ปัญหาคือการหาสัมประสิทธิ์การพึ่งพาเชิงเส้นซึ่งเป็นฟังก์ชันของตัวแปรสองตัว และ ใช้ค่าที่น้อยที่สุด นั่นคือเมื่อได้รับข้อมูล และ ผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลการทดลองจากเส้นตรงที่พบจะน้อยที่สุด นี่คือจุดรวมของวิธีกำลังสองน้อยที่สุด

ดังนั้น วิธีแก้ของตัวอย่างจึงลดลงจนเหลือเพียงการหาจุดสิ้นสุดของฟังก์ชันของตัวแปรสองตัว

ที่มาของสูตรในการหาค่าสัมประสิทธิ์

ระบบสมการสองสมการที่ไม่ทราบค่าสองตัวจะถูกรวบรวมและแก้ไข การค้นหาอนุพันธ์ย่อยของฟังก์ชันเทียบกับตัวแปร และ , เราเปรียบอนุพันธ์เหล่านี้ให้เป็นศูนย์

เราแก้ระบบสมการผลลัพธ์ด้วยวิธีใดก็ได้ (เช่น วิธีการทดแทนหรือ ) และรับสูตรในการหาสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุด (LSM)

พร้อมข้อมูล และ การทำงาน ใช้ค่าที่น้อยที่สุด มีการให้หลักฐานข้อเท็จจริงนี้

นั่นคือวิธีทั้งหมดของกำลังสองน้อยที่สุด สูตรการหาพารามิเตอร์ มีผลรวม , , และพารามิเตอร์ n- จำนวนข้อมูลการทดลอง แนะนำให้คำนวณค่าของผลรวมเหล่านี้แยกกัน ค่าสัมประสิทธิ์ พบได้หลังการคำนวณ .

ถึงเวลาจำตัวอย่างดั้งเดิมแล้ว

สารละลาย.

ในตัวอย่างของเรา n=5. เรากรอกตารางเพื่อความสะดวกในการคำนวณจำนวนเงินที่รวมอยู่ในสูตรของค่าสัมประสิทธิ์ที่ต้องการ

ค่าในแถวที่สี่ของตารางได้มาจากการคูณค่าของแถวที่ 2 ด้วยค่าของแถวที่ 3 สำหรับแต่ละตัวเลข ฉัน.

ค่าในแถวที่ห้าของตารางได้มาจากการยกกำลังสองค่าของแถวที่ 2 สำหรับแต่ละตัวเลข ฉัน.

ค่าของคอลัมน์สุดท้ายของตารางคือผลรวมของค่าระหว่างแถว

เราใช้สูตรวิธีกำลังสองน้อยที่สุดเพื่อหาค่าสัมประสิทธิ์ และ . เราแทนที่ค่าที่เกี่ยวข้องจากคอลัมน์สุดท้ายของตาราง:

เพราะฉะนั้น, y=0.165x+2.184คือเส้นตรงโดยประมาณที่ต้องการ

มันยังคงค้นหาว่าบรรทัดไหน y=0.165x+2.184หรือ ประมาณข้อมูลเดิมได้ดีกว่า เช่น ประมาณการโดยใช้วิธีกำลังสองน้อยที่สุด

การประมาณค่าความผิดพลาดของวิธีกำลังสองน้อยที่สุด

ในการทำเช่นนี้ คุณต้องคำนวณผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลต้นฉบับจากเส้นเหล่านี้ และ ค่าที่น้อยกว่าจะสอดคล้องกับเส้นที่ประมาณข้อมูลต้นฉบับได้ดีกว่าในแง่ของวิธีกำลังสองน้อยที่สุด

เนื่องจากแล้วเส้น y=0.165x+2.184ใกล้เคียงกับข้อมูลต้นฉบับได้ดีกว่า

ภาพประกอบกราฟิกของวิธีกำลังสองน้อยที่สุด (LSM)

ทุกอย่างดูดีบนแผนภูมิ เส้นสีแดงคือเส้นที่พบ y=0.165x+2.184, เส้นสีน้ำเงินคือ จุดสีชมพูคือข้อมูลต้นฉบับ

มีไว้เพื่ออะไร การประมาณทั้งหมดนี้มีไว้เพื่ออะไร?

ส่วนตัวผมใช้แก้ปัญหาการปรับข้อมูลให้เรียบ การประมาณค่า และการประมาณค่า (ในตัวอย่างเดิมคุณอาจถูกขอให้หาค่าของค่าที่สังเกตได้ ที่ x=3หรือเมื่อใด x=6ตามวิธีของ MNC) แต่เราจะพูดถึงเรื่องนี้เพิ่มเติมในส่วนอื่นของเว็บไซต์ในภายหลัง

การพิสูจน์.

ดังนั้นเมื่อพบแล้ว และ ฟังก์ชันรับค่าที่น้อยที่สุด ซึ่งจำเป็นที่ ณ จุดนี้เมทริกซ์ของรูปแบบกำลังสองของดิฟเฟอเรนเชียลลำดับที่สองสำหรับฟังก์ชัน เป็นบวกแน่นอน มาแสดงกันเถอะ

มีแอปพลิเคชันมากมาย เนื่องจากช่วยให้สามารถแสดงฟังก์ชันที่กำหนดโดยประมาณโดยฟังก์ชันอื่นที่ง่ายกว่าได้ LSM มีประโยชน์อย่างมากในการประมวลผลการสังเกต และมีการใช้อย่างแข็งขันในการประมาณปริมาณบางปริมาณโดยอิงจากผลลัพธ์ของการวัดปริมาณอื่นๆ ที่มีข้อผิดพลาดแบบสุ่ม ในบทความนี้ คุณจะได้เรียนรู้วิธีใช้การคำนวณกำลังสองน้อยที่สุดใน Excel

คำชี้แจงปัญหาโดยใช้ตัวอย่างเฉพาะ

สมมติว่ามีตัวบ่งชี้ X และ Y สองตัว ยิ่งไปกว่านั้น Y ขึ้นอยู่กับ X เนื่องจาก OLS สนใจเราจากมุมมองของการวิเคราะห์การถดถอย (ใน Excel วิธีการของมันถูกนำมาใช้โดยใช้ฟังก์ชันในตัว) เราควรพิจารณาทันที ปัญหาเฉพาะ

ดังนั้น ให้ X เป็นพื้นที่ค้าปลีกของร้านขายของชำ มีหน่วยเป็นตารางเมตร และ Y เป็นมูลค่าการซื้อขายต่อปี มีหน่วยเป็นล้านรูเบิล

จำเป็นต้องคาดการณ์ว่าร้านค้าจะมียอดขายเท่าใด (Y) หากมีพื้นที่ค้าปลีกนี้หรือพื้นที่นั้น เห็นได้ชัดว่าฟังก์ชัน Y = f (X) เพิ่มขึ้นเนื่องจากไฮเปอร์มาร์เก็ตขายสินค้ามากกว่าแผงลอย

คำไม่กี่คำเกี่ยวกับความถูกต้องของข้อมูลเริ่มต้นที่ใช้ในการทำนาย

สมมติว่าเรามีตารางที่สร้างขึ้นโดยใช้ข้อมูลสำหรับร้านค้า n แห่ง

ตามสถิติทางคณิตศาสตร์ ผลลัพธ์จะแม่นยำไม่มากก็น้อยหากตรวจสอบข้อมูลบนวัตถุอย่างน้อย 5-6 ชิ้น นอกจากนี้ยังไม่สามารถใช้ผลลัพธ์ที่ "ผิดปกติ" ได้ โดยเฉพาะอย่างยิ่งร้านบูติกขนาดเล็กชั้นยอดอาจมีมูลค่าการซื้อขายมากกว่ามูลค่าการซื้อขายของร้านค้าปลีกขนาดใหญ่ประเภท "masmarket" หลายเท่า

สาระสำคัญของวิธีการ

ข้อมูลตารางสามารถแสดงบนระนาบคาร์ทีเซียนในรูปแบบของจุด M 1 (x 1, y 1), ... M n (x n, y n) ตอนนี้วิธีแก้ปัญหาจะลดลงเหลือการเลือกฟังก์ชันประมาณ y = f (x) ซึ่งมีกราฟที่ส่งผ่านใกล้กับจุด M 1, M 2, .. M n มากที่สุด

แน่นอน คุณสามารถใช้พหุนามระดับสูงได้ แต่ตัวเลือกนี้ไม่เพียงแต่ใช้งานยากเท่านั้น แต่ยังไม่ถูกต้องอีกด้วย เนื่องจากจะไม่สะท้อนถึงแนวโน้มหลักที่ต้องตรวจพบ วิธีแก้ปัญหาที่สมเหตุสมผลที่สุดคือการค้นหาเส้นตรง y = ax + b ซึ่งประมาณข้อมูลการทดลองได้ดีที่สุด หรือถ้าให้ละเอียดกว่านั้นคือค่าสัมประสิทธิ์ a และ b

การประเมินความแม่นยำ

ด้วยการประมาณค่าใดๆ ก็ตาม การประเมินความถูกต้องแม่นยำถือเป็นสิ่งสำคัญอย่างยิ่ง ให้เราแสดงด้วย e i ความแตกต่าง (ส่วนเบี่ยงเบน) ระหว่างค่าการทำงานและค่าทดลองสำหรับจุด x i นั่นคือ e i = y i - f (x i)

เห็นได้ชัดว่าในการประเมินความถูกต้องของการประมาณคุณสามารถใช้ผลรวมของการเบี่ยงเบนได้เช่น เมื่อเลือกเส้นตรงเพื่อเป็นตัวแทนโดยประมาณของการพึ่งพา X บน Y คุณควรให้ความสำคัญกับเส้นที่มีค่าน้อยที่สุดของ รวม e i ทุกจุดที่กำลังพิจารณา อย่างไรก็ตามไม่ใช่ทุกอย่างจะง่ายนักเนื่องจากการเบี่ยงเบนเชิงบวกก็จะมีการเบี่ยงเบนเชิงลบเช่นกัน

ปัญหานี้สามารถแก้ไขได้โดยใช้โมดูลส่วนเบี่ยงเบนหรือกำลังสอง วิธีสุดท้ายเป็นวิธีที่ใช้กันอย่างแพร่หลายที่สุด มีการใช้งานในหลายพื้นที่ รวมถึงการวิเคราะห์การถดถอย (ใช้งานใน Excel โดยใช้ฟังก์ชันในตัวสองฟังก์ชัน) และได้พิสูจน์ประสิทธิภาพมานานแล้ว

วิธีกำลังสองน้อยที่สุด

อย่างที่คุณทราบใน Excel มีฟังก์ชันผลรวมอัตโนมัติในตัวที่ช่วยให้คุณสามารถคำนวณค่าของค่าทั้งหมดที่อยู่ในช่วงที่เลือกได้ ดังนั้นจึงไม่มีอะไรขัดขวางเราจากการคำนวณค่าของนิพจน์ (e 1 2 + e 2 2 + e 3 2 + ... e n 2)

ในสัญกรณ์ทางคณิตศาสตร์ดูเหมือนว่า:

เนื่องจากการตัดสินใจเริ่มแรกให้ประมาณโดยใช้เส้นตรง เราจึงได้:

ดังนั้น ภารกิจในการค้นหาเส้นตรงที่อธิบายความสัมพันธ์เฉพาะระหว่างค่า X และ Y ได้ดีที่สุด เพื่อคำนวณค่าต่ำสุดของฟังก์ชันของตัวแปรสองตัว:

ในการทำเช่นนี้ คุณจะต้องเทียบอนุพันธ์ย่อยด้วยความเคารพกับตัวแปรใหม่ a และ b เป็นศูนย์ และแก้ระบบดั้งเดิมที่ประกอบด้วยสมการสองสมการที่มีรูปแบบที่ไม่รู้จัก 2 รูปแบบ:

หลังจากการแปลงอย่างง่าย ๆ รวมถึงการหารด้วย 2 และการเปลี่ยนแปลงผลรวม เราจะได้:

ตัวอย่างเช่น การแก้ปัญหาโดยใช้วิธีของแครมเมอร์ เราได้จุดคงที่โดยมีค่าสัมประสิทธิ์ a * และ b * นี่คือขั้นต่ำ กล่าวคือ เพื่อคาดการณ์ว่าร้านค้าจะมีมูลค่าการซื้อขายเท่าใดในพื้นที่ใดพื้นที่หนึ่ง เส้นตรง y = a * x + b * นั้นเหมาะสม ซึ่งเป็นแบบจำลองการถดถอยสำหรับตัวอย่างที่เป็นปัญหา แน่นอนว่าจะไม่อนุญาตให้คุณค้นหาผลลัพธ์ที่แน่นอน แต่จะช่วยให้คุณทราบว่าการซื้อพื้นที่เฉพาะด้วยเครดิตร้านค้าจะคุ้มค่าหรือไม่

วิธีการใช้กำลังสองน้อยที่สุดใน Excel

Excel มีฟังก์ชันสำหรับคำนวณค่าโดยใช้กำลังสองน้อยที่สุด โดยมีรูปแบบดังต่อไปนี้: “TREND” (ค่า Y ที่รู้จัก; ค่า X ที่รู้จัก; ค่า X ใหม่; ค่าคงที่) ลองใช้สูตรคำนวณ OLS ใน Excel กับตารางของเรา

ในการดำเนินการนี้ให้ป้อนเครื่องหมาย "=" ในเซลล์ที่ควรแสดงผลการคำนวณโดยใช้วิธีกำลังสองน้อยที่สุดใน Excel และเลือกฟังก์ชัน "TREND" ในหน้าต่างที่เปิดขึ้น ให้กรอกข้อมูลในช่องที่เหมาะสม โดยเน้นที่:

  • ช่วงของค่าที่ทราบสำหรับ Y (ในกรณีนี้คือข้อมูลมูลค่าการซื้อขาย)
  • ช่วง x 1 , …xn เช่น ขนาดของพื้นที่ค้าปลีก
  • ทั้งค่าที่ทราบและไม่ทราบของ x ซึ่งคุณจำเป็นต้องค้นหาขนาดของมูลค่าการซื้อขาย (สำหรับข้อมูลเกี่ยวกับตำแหน่งของพวกเขาในแผ่นงานดูด้านล่าง)

นอกจากนี้ สูตรยังมีตัวแปรเชิงตรรกะ “Const” หากคุณป้อน 1 ลงในช่องที่เกี่ยวข้อง หมายความว่าคุณควรดำเนินการคำนวณ โดยสมมติว่า b = 0

หากคุณต้องการค้นหาการพยากรณ์ค่า x มากกว่าหนึ่งค่า หลังจากป้อนสูตรแล้ว คุณไม่ควรกด "Enter" แต่คุณต้องพิมพ์ชุดค่าผสม "Shift" + "Control" + "Enter" บนแป้นพิมพ์

คุณสมบัติบางอย่าง

การวิเคราะห์การถดถอยสามารถเข้าถึงได้แม้กระทั่งกับหุ่นจำลอง สูตร Excel สำหรับการทำนายค่าของอาร์เรย์ของตัวแปรที่ไม่รู้จัก (TREND) สามารถใช้ได้แม้กระทั่งกับผู้ที่ไม่เคยได้ยินเรื่องกำลังสองน้อยที่สุดมาก่อน แค่รู้คุณสมบัติบางอย่างของงานก็เพียงพอแล้ว โดยเฉพาะอย่างยิ่ง:

  • หากคุณจัดเรียงช่วงของค่าที่ทราบของตัวแปร y ในหนึ่งแถวหรือคอลัมน์ แต่ละแถว (คอลัมน์) ที่มีค่า x ที่ทราบจะถูกรับรู้โดยโปรแกรมเป็นตัวแปรแยกกัน
  • หากไม่ได้ระบุช่วงที่รู้จัก x ในหน้าต่าง TREND เมื่อใช้ฟังก์ชันใน Excel โปรแกรมจะถือว่าเป็นอาร์เรย์ที่ประกอบด้วยจำนวนเต็มซึ่งจำนวนนั้นสอดคล้องกับช่วงที่มีค่าที่กำหนดของ ตัวแปร y
  • หากต้องการส่งออกอาร์เรย์ของค่า "ที่คาดการณ์" ต้องป้อนนิพจน์สำหรับการคำนวณแนวโน้มเป็นสูตรอาร์เรย์
  • หากไม่ได้ระบุค่าใหม่ของ x ฟังก์ชัน TREND จะถือว่ามีค่าเท่ากับค่าที่ทราบ หากไม่ได้ระบุไว้ อาร์เรย์ 1 จะถูกใช้เป็นอาร์กิวเมนต์ 2; 3; 4;… ซึ่งสมส่วนกับช่วงที่มีพารามิเตอร์ y ระบุไว้แล้ว
  • ช่วงที่มีค่า x ใหม่จะต้องมีแถวหรือคอลัมน์เหมือนกันหรือมากกว่านั้นกับช่วงที่มีค่า y ที่กำหนด กล่าวอีกนัยหนึ่ง จะต้องเป็นสัดส่วนกับตัวแปรอิสระ
  • อาร์เรย์ที่มีค่า x ที่รู้จักสามารถมีตัวแปรได้หลายตัว อย่างไรก็ตามหากเรากำลังพูดถึงเพียงสิ่งเดียวก็จำเป็นที่ช่วงที่มีค่าที่กำหนดของ x และ y จะต้องเป็นสัดส่วน ในกรณีที่มีตัวแปรหลายตัว จำเป็นที่ช่วงที่มีค่า y ที่กำหนดจะต้องอยู่ในคอลัมน์เดียวหรือหนึ่งแถว

ฟังก์ชันการคาดการณ์

ดำเนินการโดยใช้ฟังก์ชั่นหลายอย่าง หนึ่งในนั้นเรียกว่า "การคาดการณ์" คล้ายกับ “แนวโน้ม” กล่าวคือ ให้ผลลัพธ์ของการคำนวณโดยใช้วิธีกำลังสองน้อยที่สุด อย่างไรก็ตาม มีเพียง X ตัวเดียวเท่านั้น ซึ่งไม่ทราบค่าของ Y

ตอนนี้คุณรู้สูตร Excel สำหรับหุ่นจำลองที่ช่วยให้คุณคาดการณ์มูลค่าของมูลค่าในอนาคตของตัวบ่งชี้ตามแนวโน้มเชิงเส้นแล้ว

วิธีกำลังสองน้อยที่สุดเป็นวิธีหนึ่งที่ใช้กันทั่วไปและพัฒนามากที่สุดเนื่องจาก ความเรียบง่ายและประสิทธิภาพของวิธีการประมาณค่าพารามิเตอร์เชิงเส้น. ในเวลาเดียวกันควรปฏิบัติตามข้อควรระวังบางประการเมื่อใช้งานเนื่องจากแบบจำลองที่สร้างขึ้นโดยใช้อาจไม่ตรงตามข้อกำหนดหลายประการสำหรับคุณภาพของพารามิเตอร์และด้วยเหตุนี้จึงไม่ "ดี" สะท้อนถึงรูปแบบของการพัฒนากระบวนการ

ให้เราพิจารณาขั้นตอนการประมาณค่าพารามิเตอร์ของแบบจำลองเศรษฐมิติเชิงเส้นโดยใช้วิธีกำลังสองน้อยที่สุดโดยละเอียดยิ่งขึ้น แบบจำลองดังกล่าวในรูปแบบทั่วไปสามารถแสดงได้ด้วยสมการ (1.2):

y t = a 0 + a 1 x 1 t +...+ a n x nt + ε t

ข้อมูลเริ่มต้นเมื่อประมาณค่าพารามิเตอร์ a 0 , 1 ,..., a n คือเวกเตอร์ของค่าของตัวแปรตาม = (y 1 , y 2 , ... , y T)" และเมทริกซ์ของค่าของตัวแปรอิสระ

โดยที่คอลัมน์แรกประกอบด้วยคอลัมน์ที่สอดคล้องกับค่าสัมประสิทธิ์ของแบบจำลอง

วิธีการกำลังสองน้อยที่สุดมีชื่อตามหลักการพื้นฐานที่ค่าประมาณพารามิเตอร์ที่ได้รับบนพื้นฐานของมันควรเป็นไปตาม: ผลรวมของกำลังสองของข้อผิดพลาดของโมเดลควรมีค่าน้อยที่สุด

ตัวอย่างการแก้ปัญหาด้วยวิธีกำลังสองน้อยที่สุด

ตัวอย่างที่ 2.1องค์กรการค้ามีเครือข่ายประกอบด้วยร้านค้า 12 แห่งข้อมูลเกี่ยวกับกิจกรรมที่นำเสนอในตาราง 2.1.

ฝ่ายบริหารของบริษัทอยากทราบว่าขนาดรายปีจะขึ้นอยู่กับพื้นที่ขายของร้านอย่างไร

ตารางที่ 2.1

เบอร์ร้าน

มูลค่าการซื้อขายประจำปีล้านรูเบิล

พื้นที่การค้าพันตารางเมตร

คำตอบของกำลังสองน้อยที่สุดให้เราแสดงมูลค่าการซื้อขายประจำปีของร้านค้านั้นล้านรูเบิล — พื้นที่ค้าปลีกของร้าน th, พันตารางเมตร.

รูปที่.2.1. Scatterplot สำหรับตัวอย่าง 2.1

เพื่อกำหนดรูปแบบของความสัมพันธ์เชิงฟังก์ชันระหว่างตัวแปรและสร้างแผนภูมิกระจาย (รูปที่ 2.1)

จากแผนภาพกระจาย เราสามารถสรุปได้ว่ามูลค่าการซื้อขายประจำปีนั้นขึ้นอยู่กับพื้นที่ขายในเชิงบวก (เช่น y จะเพิ่มขึ้นตามการเติบโตของ ) รูปแบบการเชื่อมต่อการทำงานที่เหมาะสมที่สุดคือ เชิงเส้น.

ข้อมูลสำหรับการคำนวณเพิ่มเติมแสดงไว้ในตาราง 1 2.2. เมื่อใช้วิธีกำลังสองน้อยที่สุด เราจะประมาณค่าพารามิเตอร์ของแบบจำลองเศรษฐมิติแบบปัจจัยเดียวเชิงเส้น

ตารางที่ 2.2

ดังนั้น,

ดังนั้นเมื่อพื้นที่การค้าเพิ่มขึ้น 1,000 ตารางเมตร สิ่งอื่น ๆ ที่เท่ากัน มูลค่าการซื้อขายเฉลี่ยต่อปีเพิ่มขึ้น 67.8871 ล้านรูเบิล

ตัวอย่างที่ 2.2ฝ่ายบริหารขององค์กรสังเกตเห็นว่ามูลค่าการซื้อขายประจำปีไม่เพียงขึ้นอยู่กับพื้นที่ขายของร้านค้าเท่านั้น (ดูตัวอย่าง 2.1) แต่ยังขึ้นอยู่กับจำนวนผู้เข้าชมโดยเฉลี่ยด้วย ข้อมูลที่เกี่ยวข้องแสดงไว้ในตาราง 2.3.

ตารางที่ 2.3

สารละลาย.ให้เราแสดงจำนวนผู้เข้าชมร้านค้าโดยเฉลี่ยต่อวันพันคน

เพื่อกำหนดรูปแบบของความสัมพันธ์เชิงฟังก์ชันระหว่างตัวแปรและสร้างแผนภูมิกระจาย (รูปที่ 2.2)

จากแผนภาพกระจาย เราสามารถสรุปได้ว่ามูลค่าการซื้อขายประจำปีมีความสัมพันธ์เชิงบวกกับจำนวนผู้เข้าชมเฉลี่ยต่อวัน (เช่น y จะเพิ่มขึ้นตามการเติบโตที่ ) รูปแบบของการพึ่งพาฟังก์ชันเป็นแบบเส้นตรง

ข้าว. 2.2. Scatterplot เช่น 2.2

ตารางที่ 2.4

โดยทั่วไป จำเป็นต้องกำหนดพารามิเตอร์ของแบบจำลองเศรษฐมิติแบบสองปัจจัย

y เสื้อ = a 0 + a 1 x 1 เสื้อ + a 2 x 2 เสื้อ + ε เสื้อ

ข้อมูลที่จำเป็นสำหรับการคำนวณเพิ่มเติมแสดงไว้ในตาราง 1 2.4.

ขอให้เราประมาณค่าพารามิเตอร์ของแบบจำลองเศรษฐมิติแบบสองปัจจัยเชิงเส้นโดยใช้วิธีกำลังสองน้อยที่สุด

ดังนั้น,

การประเมินค่าสัมประสิทธิ์ = 61.6583 แสดงให้เห็นว่าสิ่งอื่น ๆ ที่เท่าเทียมกันเมื่อพื้นที่การซื้อขายเพิ่มขึ้น 1,000 m 2 มูลค่าการซื้อขายต่อปีจะเพิ่มขึ้นโดยเฉลี่ย 61.6583 ล้านรูเบิล

วิธีกำลังสองน้อยที่สุด

วิธีกำลังสองน้อยที่สุด ( MNK, OLS, กำลังสองน้อยสามัญ) - หนึ่งในวิธีพื้นฐานของการวิเคราะห์การถดถอยสำหรับการประมาณค่าพารามิเตอร์ที่ไม่รู้จักของแบบจำลองการถดถอยจากข้อมูลตัวอย่าง วิธีการนี้ขึ้นอยู่กับการลดผลรวมของกำลังสองของเศษที่เหลือจากการถดถอยให้เหลือน้อยที่สุด

ควรสังเกตว่าวิธีกำลังสองน้อยที่สุดนั้นสามารถเรียกได้ว่าเป็นวิธีการแก้ปัญหาในพื้นที่ใด ๆ หากการแก้ปัญหาประกอบด้วยหรือเป็นไปตามเกณฑ์บางประการในการลดผลรวมของกำลังสองของฟังก์ชันบางอย่างของตัวแปรที่ไม่รู้จักให้เหลือน้อยที่สุด ดังนั้น วิธีกำลังสองน้อยที่สุดยังสามารถใช้สำหรับการประมาณค่า (การประมาณ) ของฟังก์ชันที่กำหนดโดยฟังก์ชันอื่น (ที่ง่ายกว่า) เมื่อค้นหาชุดของปริมาณที่เป็นไปตามสมการหรือข้อจำกัด ซึ่งจำนวนเกินจำนวนเหล่านี้ ฯลฯ

สาระสำคัญของบรรษัทข้ามชาติ

ให้แบบจำลอง (พาราเมตริก) ของการพึ่งพาความน่าจะเป็น (การถดถอย) ระหว่างตัวแปร (อธิบาย) และปัจจัยหลายประการ (ตัวแปรอธิบาย) x

เวกเตอร์ของพารามิเตอร์แบบจำลองที่ไม่รู้จักอยู่ที่ไหน

- ข้อผิดพลาดของโมเดลแบบสุ่ม

ให้มีการสังเกตตัวอย่างค่าของตัวแปรที่ระบุด้วย อนุญาต เป็นหมายเลขสังเกต () จากนั้นเป็นค่าของตัวแปรในการสังเกต -th จากนั้นสำหรับค่าที่กำหนดของพารามิเตอร์ b คุณสามารถคำนวณค่าทางทฤษฎี (แบบจำลอง) ของตัวแปรที่อธิบาย y:

ค่าของส่วนที่เหลือขึ้นอยู่กับค่าของพารามิเตอร์ข

สาระสำคัญของ LSM (ธรรมดาคลาสสิก) คือการค้นหาพารามิเตอร์ดังกล่าว b ซึ่งผลรวมของกำลังสองของส่วนที่เหลือ (อังกฤษ. ผลรวมที่เหลือของกำลังสอง) จะน้อยที่สุด:

ในกรณีทั่วไป ปัญหานี้สามารถแก้ไขได้โดยวิธีการปรับให้เหมาะสมเชิงตัวเลข (การย่อขนาด) ในกรณีนี้มีคนพูดถึง กำลังสองน้อยที่สุดแบบไม่เชิงเส้น(NLS หรือ NLLS - ภาษาอังกฤษ กำลังสองน้อยที่สุดแบบไม่เชิงเส้น). ในหลายกรณี สามารถรับโซลูชันเชิงวิเคราะห์ได้ ในการแก้ปัญหาการย่อเล็กสุดจำเป็นต้องค้นหาจุดที่คงที่ของฟังก์ชันโดยสร้างความแตกต่างด้วยพารามิเตอร์ที่ไม่รู้จัก b เท่ากับอนุพันธ์ให้เป็นศูนย์และแก้ระบบสมการผลลัพธ์:

ถ้าข้อผิดพลาดแบบสุ่มของแบบจำลองมีการกระจายตามปกติ มีความแปรปรวนเท่ากัน และไม่มีความสัมพันธ์กัน การประมาณพารามิเตอร์กำลังสองน้อยที่สุดจะเหมือนกับการประมาณค่าวิธีความน่าจะเป็นสูงสุด (MLM)

LSM ในกรณีของโมเดลเชิงเส้น

ปล่อยให้การพึ่งพาการถดถอยเป็นเส้นตรง:

อนุญาต - เวกเตอร์คอลัมน์ของการสังเกตของตัวแปรที่อธิบาย และ - เมทริกซ์ของการสังเกตของปัจจัย (แถวของเมทริกซ์ - เวกเตอร์ของค่าปัจจัยในการสังเกตที่กำหนด โดยคอลัมน์ - เวกเตอร์ของค่าของปัจจัยที่กำหนดในการสังเกตทั้งหมด) . การแสดงเมทริกซ์ของโมเดลเชิงเส้นมีรูปแบบ:

จากนั้นเวกเตอร์ของการประมาณค่าของตัวแปรที่อธิบายและเวกเตอร์ของเศษการถดถอยจะเท่ากับ

ดังนั้นผลรวมของกำลังสองของเศษการถดถอยจะเท่ากับ

การแยกฟังก์ชันนี้ด้วยความเคารพต่อเวกเตอร์พารามิเตอร์และการทำให้อนุพันธ์เป็นศูนย์เราจะได้ระบบสมการ (ในรูปแบบเมทริกซ์):

.

การแก้ระบบสมการนี้ให้สูตรทั่วไปสำหรับการประมาณค่ากำลังสองน้อยที่สุดสำหรับแบบจำลองเชิงเส้น:

เพื่อวัตถุประสงค์ในการวิเคราะห์ การแสดงสูตรครั้งสุดท้ายจะมีประโยชน์ หากข้อมูลอยู่ในแบบจำลองการถดถอย อยู่ตรงกลางจากนั้นในการแทนค่านี้ เมทริกซ์ตัวแรกมีความหมายของเมทริกซ์ความแปรปรวนร่วมตัวอย่างของปัจจัย และเมทริกซ์ตัวที่สองคือเวกเตอร์ของความแปรปรวนร่วมของปัจจัยที่มีตัวแปรตาม หากนอกจากนี้แล้วยังมีข้อมูลอีกด้วย ทำให้เป็นมาตรฐานที่ SKO (นั่นคือท้ายที่สุดแล้ว ได้มาตรฐาน) จากนั้นเมทริกซ์แรกมีความหมายของเมทริกซ์ความสัมพันธ์ตัวอย่างของปัจจัย เวกเตอร์ที่สอง - เวกเตอร์ของความสัมพันธ์ตัวอย่างของปัจจัยกับตัวแปรตาม

คุณสมบัติที่สำคัญของการประมาณค่า LLS สำหรับแบบจำลอง มีค่าคงที่- เส้นของการถดถอยที่สร้างขึ้นผ่านจุดศูนย์ถ่วงของข้อมูลตัวอย่างนั่นคือความเท่าเทียมกันจะเกิดขึ้น:

โดยเฉพาะอย่างยิ่ง ในกรณีที่ร้ายแรง เมื่อตัวถดถอยเพียงตัวเดียวเป็นค่าคงที่ เราพบว่าการประมาณค่า OLS ของพารามิเตอร์ตัวเดียว (ค่าคงที่นั้นเอง) เท่ากับค่าเฉลี่ยของตัวแปรที่กำลังอธิบาย นั่นคือค่าเฉลี่ยเลขคณิตซึ่งเป็นที่รู้จักในเรื่องคุณสมบัติที่ดีจากกฎของจำนวนจำนวนมากก็เป็นค่าประมาณกำลังสองน้อยที่สุดเช่นกันซึ่งเป็นไปตามเกณฑ์สำหรับผลรวมขั้นต่ำของการเบี่ยงเบนกำลังสองจากนั้น

ตัวอย่าง: การถดถอยอย่างง่าย (ตามคู่)

ในกรณีของการถดถอยเชิงเส้นแบบคู่ สูตรการคำนวณจะง่ายขึ้น (คุณสามารถทำได้โดยไม่ต้องใช้พีชคณิตเมทริกซ์):

คุณสมบัติของการประมาณค่า OLS

ประการแรก เราทราบว่าสำหรับโมเดลเชิงเส้น การประมาณกำลังสองน้อยที่สุดคือการประมาณเชิงเส้น ดังต่อไปนี้จากสูตรข้างต้น สำหรับการประมาณค่า OLS ที่เป็นกลาง มีความจำเป็นและเพียงพอที่จะปฏิบัติตามเงื่อนไขที่สำคัญที่สุดของการวิเคราะห์การถดถอย: ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มที่มีเงื่อนไขของปัจจัยจะต้องเท่ากับศูนย์ เงื่อนไขนี้เป็นที่พอใจโดยเฉพาะถ้า

  1. ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มคือศูนย์ และ
  2. ปัจจัยและข้อผิดพลาดแบบสุ่มเป็นตัวแปรสุ่มอิสระ

เงื่อนไขที่สอง - เงื่อนไขของปัจจัยภายนอก - เป็นเงื่อนไขพื้นฐาน หากคุณสมบัตินี้ไม่เป็นที่พอใจ เราสามารถสรุปได้ว่าการประมาณค่าเกือบทั้งหมดจะไม่เป็นที่น่าพอใจอย่างยิ่ง โดยจะไม่สอดคล้องกันด้วยซ้ำ (นั่นคือ แม้แต่ข้อมูลจำนวนมากก็ไม่อนุญาตให้มีการประมาณการเชิงคุณภาพในกรณีนี้) ในกรณีคลาสสิก มีการตั้งสมมติฐานที่หนักแน่นกว่าเกี่ยวกับการกำหนดปัจจัย ตรงกันข้ามกับข้อผิดพลาดแบบสุ่ม ซึ่งหมายความว่าสภาพภายนอกเป็นที่พอใจโดยอัตโนมัติ ในกรณีทั่วไป เพื่อความสอดคล้องของการประมาณการ ก็เพียงพอแล้วที่จะบรรลุเงื่อนไขภายนอกร่วมกับการลู่เข้าของเมทริกซ์กับเมทริกซ์ที่ไม่ใช่เอกพจน์บางตัวโดยเพิ่มขนาดตัวอย่างจนเป็นอนันต์

นอกเหนือจากความสม่ำเสมอและความเป็นกลางแล้ว การประมาณค่าของ LSM (ปกติ) ให้มีประสิทธิผลด้วย (การประมาณค่าที่ไม่เอนเอียงเชิงเส้นที่ดีที่สุดในกลุ่ม) จำเป็นต้องปฏิบัติตามคุณสมบัติเพิ่มเติมของข้อผิดพลาดแบบสุ่ม:

สมมติฐานเหล่านี้สามารถกำหนดสูตรสำหรับเมทริกซ์ความแปรปรวนร่วมของเวกเตอร์ข้อผิดพลาดแบบสุ่มได้

เรียกว่าแบบจำลองเชิงเส้นที่ตรงตามเงื่อนไขเหล่านี้ คลาสสิค. ตัวประมาณค่ากำลังสองน้อยที่สุดสำหรับการถดถอยเชิงเส้นแบบคลาสสิกคือตัวประมาณค่าที่ไม่เอนเอียง สม่ำเสมอ และมีประสิทธิภาพมากที่สุดในกลุ่มของตัวประมาณค่าที่ไม่เอนเอียงเชิงเส้นทั้งหมด (ตัวย่อ สีฟ้า (ตัวประมาณค่าเชิงเส้นแบบไม่มีฐานที่ดีที่สุด) เป็นการประมาณค่าที่เป็นกลางเชิงเส้นที่ดีที่สุด ในวรรณคดีในประเทศมักอ้างถึงทฤษฎีบทเกาส์ - มาร์กอฟ) เนื่องจากง่ายต่อการแสดง เมทริกซ์ความแปรปรวนร่วมของเวกเตอร์การประมาณค่าสัมประสิทธิ์จะเท่ากับ:

กำลังสองน้อยที่สุดทั่วไป

วิธีการกำลังสองน้อยที่สุดทำให้สามารถสรุปได้กว้างขึ้น แทนที่จะลดผลรวมของกำลังสองของส่วนที่เหลือให้เหลือน้อยที่สุด เราสามารถลดรูปแบบกำลังสองที่แน่นอนของเวกเตอร์ที่เหลือให้เหลือน้อยที่สุด โดยที่เมทริกซ์น้ำหนักแน่นอนเชิงบวกแบบสมมาตรบางตัว กำลังสองน้อยที่สุดสามัญเป็นกรณีพิเศษของแนวทางนี้ เมื่อเมทริกซ์น้ำหนักเป็นสัดส่วนกับเมทริกซ์เอกลักษณ์ ดังที่ทราบจากทฤษฎีเมทริกซ์สมมาตร (หรือตัวดำเนินการ) มีการสลายตัวของเมทริกซ์ดังกล่าว ดังนั้น ฟังก์ชันที่ระบุสามารถแสดงได้ดังต่อไปนี้ กล่าวคือ ฟังก์ชันนี้สามารถแสดงเป็นผลรวมของกำลังสองของ "เศษเหลือ" ที่ถูกแปลงบางส่วน ดังนั้นเราจึงสามารถแยกแยะคลาสของวิธีกำลังสองน้อยที่สุดได้ - วิธี LS (กำลังสองน้อยที่สุด)

ได้รับการพิสูจน์แล้ว (ทฤษฎีบทของเอตเคน) ว่าสำหรับแบบจำลองการถดถอยเชิงเส้นทั่วไป (ซึ่งไม่มีข้อจำกัดใดๆ กำหนดไว้กับเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดแบบสุ่ม) ค่าประมาณที่มีประสิทธิภาพมากที่สุด (ในกลุ่มของการประมาณค่าที่ไม่เอนเอียงเชิงเส้น) คือค่าประมาณของสิ่งที่เรียกว่า OLS ทั่วไป (OMNK, GLS - กำลังสองน้อยที่สุดทั่วไป)- วิธี LS ที่มีเมทริกซ์น้ำหนักเท่ากับเมทริกซ์ความแปรปรวนร่วมผกผันของข้อผิดพลาดแบบสุ่ม:

จะเห็นได้ว่าสูตรสำหรับการประมาณค่า GLS ของพารามิเตอร์ของแบบจำลองเชิงเส้นมีรูปแบบ

เมทริกซ์ความแปรปรวนร่วมของการประมาณค่าเหล่านี้ ตามลำดับ จะเท่ากับ

ในความเป็นจริง สาระสำคัญของ OLS อยู่ที่การแปลง (P) บางอย่าง (เชิงเส้น) ของข้อมูลต้นฉบับและการประยุกต์กำลังสองน้อยที่สุดตามปกติกับข้อมูลที่แปลง วัตถุประสงค์ของการแปลงนี้คือ สำหรับข้อมูลที่แปลงแล้ว ข้อผิดพลาดแบบสุ่มเป็นไปตามสมมติฐานดั้งเดิมอยู่แล้ว

ถ่วงน้ำหนักกำลังสองน้อยที่สุด

ในกรณีของเมทริกซ์น้ำหนักแนวทแยง (และด้วยเหตุนี้เมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดแบบสุ่ม) เราจะเรียกว่ากำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก (WLS - Weighted Least Squares) ในกรณีนี้ ผลรวมถ่วงน้ำหนักของกำลังสองของส่วนที่เหลือของแบบจำลองจะลดลง กล่าวคือ การสังเกตแต่ละครั้งจะได้รับ "น้ำหนัก" ซึ่งเป็นสัดส่วนผกผันกับความแปรปรวนของข้อผิดพลาดแบบสุ่มในการสังเกตนี้: ข้อมูลจะถูกแปลงโดยการถ่วงน้ำหนักการสังเกต (หารด้วยจำนวนที่เป็นสัดส่วนกับค่าเบี่ยงเบนมาตรฐานที่สันนิษฐานของข้อผิดพลาดแบบสุ่ม) และใช้กำลังสองน้อยที่สุดตามปกติกับข้อมูลที่ถ่วงน้ำหนัก

กรณีพิเศษบางประการของการประยุกต์ใช้ LSM ในทางปฏิบัติ

การประมาณเชิงเส้น

พิจารณากรณีที่เป็นผลมาจากการศึกษาการพึ่งพาปริมาณสเกลาร์บางอย่างกับปริมาณสเกลาร์ที่แน่นอน (ตัวอย่างเช่น การพึ่งพาแรงดันไฟฟ้ากับความแรงของกระแส: , โดยที่ค่าคงที่คือความต้านทานของตัวนำ ) วัดปริมาณเหล่านี้ซึ่งเป็นผลมาจากค่าและค่าที่สอดคล้องกัน ข้อมูลการวัดควรบันทึกไว้ในตาราง

โต๊ะ. ผลการวัด

หมายเลขการวัด
1
2
3
4
5
6

คำถามนี้มีลักษณะดังนี้: ค่าสัมประสิทธิ์ใดที่สามารถเลือกได้เพื่ออธิบายการพึ่งพาได้ดีที่สุด ตามกำลังสองน้อยที่สุดค่านี้ควรเป็นผลรวมของการเบี่ยงเบนกำลังสองของค่าจากค่า

น้อยที่สุด

ผลรวมของการเบี่ยงเบนกำลังสองจะมีค่าสุดขั้วหนึ่งค่า - ค่าต่ำสุดซึ่งทำให้เราสามารถใช้สูตรนี้ได้ ลองหาค่าสัมประสิทธิ์จากสูตรนี้กัน เมื่อต้องการทำเช่นนี้ เราแปลงด้านซ้ายดังนี้:

สูตรสุดท้ายช่วยให้เราสามารถหาค่าสัมประสิทธิ์ ซึ่งจำเป็นในการแก้ปัญหา

เรื่องราว

จนถึงต้นศตวรรษที่ 19 นักวิทยาศาสตร์ไม่มีกฎเกณฑ์ที่แน่นอนในการแก้ระบบสมการซึ่งจำนวนไม่ทราบค่าน้อยกว่าจำนวนสมการ จนถึงเวลานั้น มีการใช้วิธีการเฉพาะ ขึ้นอยู่กับประเภทของสมการและความเฉลียวฉลาดของเครื่องคิดเลข ดังนั้นเครื่องคิดเลขที่แตกต่างกันซึ่งเริ่มต้นจากข้อมูลเชิงสังเกตเดียวกันจึงได้ข้อสรุปที่ต่างกัน Gauss (1795) ได้รับการยกย่องว่าเป็นผู้ใช้วิธีนี้เป็นครั้งแรก และ Legendre (1805) ค้นพบและตีพิมพ์โดยอิสระภายใต้ชื่อสมัยใหม่ (fr. Methode des Moindres quarres ) . ลาปลาซเชื่อมโยงวิธีการนี้เข้ากับทฤษฎีความน่าจะเป็น และนักคณิตศาสตร์ชาวอเมริกัน แอดเรน (1808) ได้พิจารณาการประยุกต์ใช้ความน่าจะเป็นของมัน วิธีการนี้แพร่หลายและปรับปรุงโดยการวิจัยเพิ่มเติมโดย Encke, Bessel, Hansen และคนอื่นๆ

การใช้ทางเลือกอื่นของบรรษัทข้ามชาติ

แนวคิดของวิธีกำลังสองน้อยที่สุดยังสามารถใช้ในกรณีอื่นที่ไม่เกี่ยวข้องโดยตรงกับการวิเคราะห์การถดถอย ความจริงก็คือผลรวมของกำลังสองเป็นหนึ่งในการวัดความใกล้ชิดที่ใช้บ่อยที่สุดสำหรับเวกเตอร์ (หน่วยเมตริกแบบยุคลิดในปริภูมิมิติจำกัด)

แอปพลิเคชั่นหนึ่งคือ "การแก้" ระบบสมการเชิงเส้นซึ่งจำนวนสมการมากกว่าจำนวนตัวแปร

โดยที่เมทริกซ์ไม่ใช่สี่เหลี่ยมจัตุรัส แต่เป็นสี่เหลี่ยมจัตุรัส

ในกรณีทั่วไป ระบบสมการดังกล่าวไม่มีวิธีแก้ปัญหา (หากอันดับนั้นมากกว่าจำนวนตัวแปรจริงๆ) ดังนั้น ระบบนี้สามารถ "แก้ไข" ได้เฉพาะในแง่ของการเลือกเวกเตอร์ดังกล่าวเท่านั้น เพื่อลด "ระยะห่าง" ระหว่างเวกเตอร์และ ในการทำเช่นนี้ คุณสามารถใช้เกณฑ์ในการลดผลรวมของผลต่างกำลังสองของส่วนซ้ายและขวาของสมการของระบบให้เหลือน้อยที่สุด ซึ่งก็คือ เป็นเรื่องง่ายที่จะแสดงให้เห็นว่าการแก้ปัญหาการย่อเล็กสุดนี้นำไปสู่การแก้ระบบสมการต่อไปนี้

ตัวอย่าง.

ข้อมูลการทดลองเกี่ยวกับค่าของตัวแปร เอ็กซ์และ ที่จะได้รับในตาราง

อันเป็นผลมาจากการจัดตำแหน่งฟังก์ชัน

โดยใช้ วิธีกำลังสองน้อยที่สุดประมาณข้อมูลเหล่านี้ด้วยการพึ่งพาเชิงเส้น y=ขวาน+ข(ค้นหาพารามิเตอร์ และ ). ค้นหาว่าบรรทัดใดในสองบรรทัดที่ดีกว่า (ในแง่ของวิธีกำลังสองน้อยที่สุด) เพื่อจัดแนวข้อมูลการทดลอง วาดรูป.

สาระสำคัญของวิธีกำลังสองน้อยที่สุด (LSM)

ปัญหาคือการหาสัมประสิทธิ์การพึ่งพาเชิงเส้นซึ่งเป็นฟังก์ชันของตัวแปรสองตัว และ ใช้ค่าที่น้อยที่สุด นั่นคือเมื่อได้รับข้อมูล และ ผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลการทดลองจากเส้นตรงที่พบจะน้อยที่สุด นี่คือจุดรวมของวิธีกำลังสองน้อยที่สุด

ดังนั้น วิธีแก้ของตัวอย่างจึงลดลงจนเหลือเพียงการหาจุดสิ้นสุดของฟังก์ชันของตัวแปรสองตัว

ที่มาของสูตรในการหาค่าสัมประสิทธิ์

ระบบสมการสองสมการที่ไม่ทราบค่าสองตัวจะถูกรวบรวมและแก้ไข การหาอนุพันธ์ย่อยของฟังก์ชัน โดยตัวแปร และ , เราเปรียบอนุพันธ์เหล่านี้ให้เป็นศูนย์

เราแก้ระบบสมการผลลัพธ์ด้วยวิธีใดก็ได้ (เช่น วิธีการทดแทนหรือ วิธีการของแครมเมอร์) และรับสูตรสำหรับการค้นหาสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุด (LSM)

พร้อมข้อมูล และ การทำงาน ใช้ค่าที่น้อยที่สุด มีการให้หลักฐานข้อเท็จจริงนี้ ด้านล่างในข้อความท้ายหน้า.

นั่นคือวิธีทั้งหมดของกำลังสองน้อยที่สุด สูตรการหาพารามิเตอร์ มีผลรวม ,, และพารามิเตอร์ n- จำนวนข้อมูลการทดลอง แนะนำให้คำนวณค่าของผลรวมเหล่านี้แยกกัน ค่าสัมประสิทธิ์ พบได้หลังการคำนวณ .

ถึงเวลาจำตัวอย่างดั้งเดิมแล้ว

สารละลาย.

ในตัวอย่างของเรา n=5. เรากรอกตารางเพื่อความสะดวกในการคำนวณจำนวนเงินที่รวมอยู่ในสูตรของค่าสัมประสิทธิ์ที่ต้องการ

ค่าในแถวที่สี่ของตารางได้มาจากการคูณค่าของแถวที่ 2 ด้วยค่าของแถวที่ 3 สำหรับแต่ละตัวเลข ฉัน.

ค่าในแถวที่ห้าของตารางได้มาจากการยกกำลังสองค่าของแถวที่ 2 สำหรับแต่ละตัวเลข ฉัน.

ค่าของคอลัมน์สุดท้ายของตารางคือผลรวมของค่าระหว่างแถว

เราใช้สูตรวิธีกำลังสองน้อยที่สุดเพื่อหาค่าสัมประสิทธิ์ และ . เราแทนที่ค่าที่เกี่ยวข้องจากคอลัมน์สุดท้ายของตาราง:

เพราะฉะนั้น, y=0.165x+2.184คือเส้นตรงโดยประมาณที่ต้องการ

มันยังคงค้นหาว่าบรรทัดไหน y=0.165x+2.184หรือ ประมาณข้อมูลเดิมได้ดีกว่า เช่น ประมาณการโดยใช้วิธีกำลังสองน้อยที่สุด

การประมาณค่าความผิดพลาดของวิธีกำลังสองน้อยที่สุด

ในการทำเช่นนี้ คุณต้องคำนวณผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลต้นฉบับจากเส้นเหล่านี้ และ ค่าที่น้อยกว่าจะสอดคล้องกับเส้นที่ประมาณข้อมูลต้นฉบับได้ดีกว่าในแง่ของวิธีกำลังสองน้อยที่สุด

เนื่องจากแล้วเส้น y=0.165x+2.184ใกล้เคียงกับข้อมูลต้นฉบับได้ดีกว่า

ภาพประกอบกราฟิกของวิธีกำลังสองน้อยที่สุด (LSM)

ทุกอย่างดูดีบนแผนภูมิ เส้นสีแดงคือเส้นที่พบ y=0.165x+2.184, เส้นสีน้ำเงินคือ จุดสีชมพูคือข้อมูลต้นฉบับ

ในทางปฏิบัติเมื่อสร้างแบบจำลองกระบวนการต่าง ๆ โดยเฉพาะอย่างยิ่งทางเศรษฐกิจ กายภาพ เทคนิค สังคม - วิธีการหนึ่งหรือวิธีอื่นในการคำนวณค่าโดยประมาณของฟังก์ชันจากค่าที่ทราบที่จุดคงที่นั้นมีการใช้กันอย่างแพร่หลาย

ปัญหาการประมาณฟังก์ชันประเภทนี้มักเกิดขึ้น:

    เมื่อสร้างสูตรโดยประมาณสำหรับการคำนวณค่าของปริมาณลักษณะเฉพาะของกระบวนการภายใต้การศึกษาโดยใช้ข้อมูลแบบตารางที่ได้รับจากการทดลอง

    ในการปริพันธ์เชิงตัวเลข การสร้างอนุพันธ์ การแก้สมการเชิงอนุพันธ์ ฯลฯ

    หากจำเป็นให้คำนวณค่าของฟังก์ชันที่จุดกึ่งกลางของช่วงเวลาที่พิจารณา

    เมื่อกำหนดค่าของปริมาณลักษณะเฉพาะของกระบวนการที่อยู่นอกช่วงเวลาที่พิจารณา โดยเฉพาะอย่างยิ่งเมื่อคาดการณ์

หากในการสร้างแบบจำลองกระบวนการบางอย่างที่ระบุโดยตาราง เราสร้างฟังก์ชันที่ประมาณอธิบายกระบวนการนี้โดยอาศัยวิธีกำลังสองน้อยที่สุด ฟังก์ชันดังกล่าวจะเรียกว่าฟังก์ชันการประมาณ (การถดถอย) และงานสร้างฟังก์ชันการประมาณจะถูกเรียกว่า ปัญหาการประมาณ

บทความนี้กล่าวถึงความสามารถของแพ็คเกจ MS Excel ในการแก้ปัญหาประเภทนี้ นอกจากนี้ยังมีวิธีการและเทคนิคในการสร้าง (สร้าง) การถดถอยสำหรับฟังก์ชันแบบตาราง (ซึ่งเป็นพื้นฐานของการวิเคราะห์การถดถอย)

Excel มีสองตัวเลือกสำหรับการสร้างการถดถอย

    การเพิ่มการถดถอยที่เลือก (เส้นแนวโน้ม) ลงในไดอะแกรมที่สร้างขึ้นบนพื้นฐานของตารางข้อมูลสำหรับคุณลักษณะกระบวนการภายใต้การศึกษา (ใช้ได้เฉพาะเมื่อมีการสร้างไดอะแกรมแล้ว)

    การใช้ฟังก์ชันทางสถิติในตัวของแผ่นงาน Excel ช่วยให้คุณสามารถรับการถดถอย (เส้นแนวโน้ม) ได้โดยตรงจากตารางข้อมูลต้นฉบับ

การเพิ่มเส้นแนวโน้มลงในแผนภูมิ

สำหรับตารางข้อมูลที่อธิบายกระบวนการและแสดงด้วยไดอะแกรม Excel มีเครื่องมือวิเคราะห์การถดถอยที่มีประสิทธิภาพซึ่งช่วยให้คุณ:

    สร้างบนพื้นฐานของวิธีกำลังสองน้อยที่สุดและเพิ่มการถดถอยห้าประเภทลงในแผนภาพ ซึ่งเป็นแบบจำลองกระบวนการภายใต้การศึกษาด้วยระดับความแม่นยำที่แตกต่างกัน

    เพิ่มสมการถดถอยที่สร้างขึ้นลงในแผนภาพ

    กำหนดระดับความสอดคล้องของการถดถอยที่เลือกกับข้อมูลที่แสดงบนแผนภูมิ

จากข้อมูลแผนภูมิ Excel ช่วยให้คุณได้รับประเภทการถดถอยเชิงเส้น พหุนาม ลอการิทึม กำลัง และเลขชี้กำลัง ซึ่งระบุโดยสมการ:

ย = ย(x)

โดยที่ x เป็นตัวแปรอิสระที่มักจะรับค่าของลำดับของจำนวนธรรมชาติ (1; 2; 3; ...) และสร้างตัวอย่างเช่นการนับถอยหลังของเวลาของกระบวนการที่กำลังศึกษา (ลักษณะ)

1 . การถดถอยเชิงเส้นเป็นสิ่งที่ดีสำหรับลักษณะการสร้างแบบจำลองที่มีค่าเพิ่มขึ้นหรือลดลงในอัตราคงที่ นี่เป็นแบบจำลองที่ง่ายที่สุดในการสร้างสำหรับกระบวนการที่กำลังศึกษาอยู่ มันถูกสร้างขึ้นตามสมการ:

y = mx + ข

โดยที่ m คือแทนเจนต์ของความชันการถดถอยเชิงเส้นกับแกน x b - พิกัดของจุดตัดของการถดถอยเชิงเส้นกับแกนพิกัด

2 . เส้นแนวโน้มพหุนามมีประโยชน์สำหรับการอธิบายคุณลักษณะที่มีความสุดขั้วที่แตกต่างกันหลายประการ (ค่าสูงสุดและค่าต่ำสุด) การเลือกระดับพหุนามจะพิจารณาจากจำนวนสุดขั้วของลักษณะเฉพาะที่กำลังศึกษา ดังนั้น พหุนามดีกรีที่สองจึงสามารถอธิบายกระบวนการที่มีค่าสูงสุดหรือต่ำสุดเพียงค่าเดียวเท่านั้น พหุนามของระดับที่สาม - ไม่เกินสองสุดขั้ว; พหุนามของระดับที่สี่ - ไม่เกินสาม extrema เป็นต้น

ในกรณีนี้ เส้นแนวโน้มจะถูกสร้างขึ้นตามสมการ:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

โดยที่ค่าสัมประสิทธิ์ c0, c1, c2,... c6 เป็นค่าคงที่ซึ่งมีการกำหนดค่าระหว่างการก่อสร้าง

3 . เส้นแนวโน้มลอการิทึมถูกนำมาใช้อย่างประสบความสำเร็จเมื่อสร้างแบบจำลองคุณลักษณะที่มีค่าเริ่มแรกเปลี่ยนแปลงอย่างรวดเร็วจากนั้นจึงค่อย ๆ มีเสถียรภาพ

y = ค ln(x) + ข

4 . เส้นแนวโน้มกฎอำนาจให้ผลลัพธ์ที่ดีหากค่าของความสัมพันธ์ภายใต้การศึกษามีลักษณะเฉพาะด้วยการเปลี่ยนแปลงอัตราการเติบโตอย่างต่อเนื่อง ตัวอย่างของการพึ่งพาอาศัยกันคือกราฟของการเคลื่อนที่ด้วยความเร่งสม่ำเสมอของรถ หากข้อมูลมีค่าเป็นศูนย์หรือลบ คุณจะไม่สามารถใช้เส้นแนวโน้มกำลังได้

สร้างตามสมการ:

y = ค xb

โดยที่สัมประสิทธิ์ b, c เป็นค่าคงที่

5 . ควรใช้เส้นแนวโน้มเอ็กซ์โพเนนเชียลเมื่ออัตราการเปลี่ยนแปลงข้อมูลเพิ่มขึ้นอย่างต่อเนื่อง สำหรับข้อมูลที่มีค่าเป็นศูนย์หรือค่าลบ การประมาณประเภทนี้จะใช้ไม่ได้เช่นกัน

สร้างตามสมการ:

y = ค ebx

โดยที่สัมประสิทธิ์ b, c เป็นค่าคงที่

เมื่อเลือกเส้นแนวโน้ม Excel จะคำนวณค่า R2 โดยอัตโนมัติซึ่งจะระบุลักษณะความน่าเชื่อถือของการประมาณ: ยิ่งค่า R2 ใกล้ถึงเอกภาพมากเท่าใด เส้นแนวโน้มก็จะประมาณกระบวนการที่กำลังศึกษาได้อย่างน่าเชื่อถือมากขึ้นเท่านั้น หากจำเป็น ค่า R2 สามารถแสดงบนแผนภูมิได้ตลอดเวลา

กำหนดโดยสูตร:

หากต้องการเพิ่มเส้นแนวโน้มลงในชุดข้อมูล:

    เปิดใช้งานแผนภูมิตามชุดข้อมูล เช่น คลิกภายในพื้นที่แผนภูมิ รายการไดอะแกรมจะปรากฏในเมนูหลัก

    หลังจากคลิกที่รายการนี้ เมนูจะปรากฏขึ้นบนหน้าจอซึ่งคุณควรเลือกคำสั่งเพิ่มเส้นแนวโน้ม

การดำเนินการเดียวกันนี้สามารถนำไปใช้ได้อย่างง่ายดายโดยเลื่อนตัวชี้เมาส์ไปเหนือกราฟที่สอดคล้องกับชุดข้อมูลชุดใดชุดหนึ่งแล้วคลิกขวา ในเมนูบริบทที่ปรากฏขึ้น ให้เลือกคำสั่งเพิ่มเส้นแนวโน้ม กล่องโต้ตอบเส้นแนวโน้มจะปรากฏขึ้นบนหน้าจอโดยเปิดแท็บประเภทไว้ (รูปที่ 1)

หลังจากนี้คุณจะต้อง:

เลือกประเภทเส้นแนวโน้มที่ต้องการบนแท็บประเภท (ประเภทเชิงเส้นจะถูกเลือกตามค่าเริ่มต้น) สำหรับประเภทพหุนาม ในฟิลด์ องศา ให้ระบุระดับของพหุนามที่เลือก

1 . ช่องสร้างบนซีรีส์จะแสดงชุดข้อมูลทั้งหมดในแผนภูมิที่ต้องการ หากต้องการเพิ่มเส้นแนวโน้มให้กับชุดข้อมูลเฉพาะ ให้เลือกชื่อในช่องสร้างบนชุดข้อมูล

หากจำเป็น โดยไปที่แท็บพารามิเตอร์ (รูปที่ 2) คุณสามารถตั้งค่าพารามิเตอร์ต่อไปนี้สำหรับเส้นแนวโน้ม:

    เปลี่ยนชื่อเส้นแนวโน้มในชื่อของฟิลด์เส้นโค้งโดยประมาณ (เรียบ)

    กำหนดจำนวนงวด (ไปข้างหน้าหรือข้างหลัง) สำหรับการพยากรณ์ในช่องพยากรณ์

    แสดงสมการของเส้นแนวโน้มในพื้นที่ไดอะแกรม ซึ่งคุณควรเปิดใช้งานการแสดงสมการบนกล่องกาเครื่องหมายไดอะแกรม

    แสดงค่าความน่าเชื่อถือของการประมาณ R2 ในพื้นที่ไดอะแกรม ซึ่งคุณควรเปิดใช้งานช่องทำเครื่องหมาย วางค่าความน่าเชื่อถือของการประมาณบนไดอะแกรม (R^2)

    ตั้งค่าจุดตัดของเส้นแนวโน้มด้วยแกน Y ซึ่งคุณควรเปิดใช้งานช่องทำเครื่องหมายสำหรับจุดตัดของเส้นโค้งโดยมีแกน Y อยู่ที่จุด

    คลิกปุ่มตกลงเพื่อปิดกล่องโต้ตอบ

ในการเริ่มแก้ไขเส้นแนวโน้มที่วาดไว้แล้ว มีสามวิธี:

    ใช้คำสั่งเส้นแนวโน้มที่เลือกจากเมนูรูปแบบ โดยเลือกเส้นแนวโน้มไว้ก่อนหน้านี้

    เลือกคำสั่งจัดรูปแบบเส้นแนวโน้มจากเมนูบริบท ซึ่งเรียกขึ้นมาโดยการคลิกขวาที่เส้นแนวโน้ม

    ดับเบิลคลิกที่เส้นแนวโน้ม

กล่องโต้ตอบรูปแบบเส้นแนวโน้มจะปรากฏบนหน้าจอ (รูปที่ 3) ซึ่งมีสามแท็บ: มุมมอง ประเภท พารามิเตอร์ และเนื้อหาของสองแท็บสุดท้ายตรงกับแท็บที่คล้ายกันของกล่องโต้ตอบเส้นแนวโน้ม (รูปที่ 1 -2) บนแท็บมุมมอง คุณสามารถตั้งค่าประเภทของเส้น สี และความหนาได้

หากต้องการลบเส้นแนวโน้มที่วาดไว้แล้ว ให้เลือกเส้นแนวโน้มที่จะลบแล้วกดปุ่ม Delete

ข้อดีของเครื่องมือวิเคราะห์การถดถอยที่พิจารณาคือ:

    ความง่ายในการสร้างเส้นแนวโน้มบนแผนภูมิโดยไม่ต้องสร้างตารางข้อมูล

    รายการประเภทเส้นแนวโน้มที่นำเสนอที่ค่อนข้างกว้าง และรายการนี้รวมถึงประเภทการถดถอยที่ใช้บ่อยที่สุด

    ความสามารถในการทำนายพฤติกรรมของกระบวนการภายใต้การศึกษาโดยจำนวนก้าวไปข้างหน้าและข้างหลังโดยพลการ (ภายในขอบเขตของสามัญสำนึก)

    ความสามารถในการรับสมการเส้นแนวโน้มในรูปแบบการวิเคราะห์

    ความเป็นไปได้ (หากจำเป็น) ในการประเมินความน่าเชื่อถือของการประมาณ

ข้อเสียมีดังต่อไปนี้:

    การสร้างเส้นแนวโน้มจะดำเนินการเฉพาะในกรณีที่มีไดอะแกรมที่สร้างขึ้นจากชุดข้อมูล

    กระบวนการสร้างชุดข้อมูลสำหรับคุณลักษณะภายใต้การศึกษาตามสมการเส้นแนวโน้มที่ได้รับนั้นค่อนข้างยุ่งเหยิง: สมการการถดถอยที่ต้องการจะได้รับการอัปเดตพร้อมกับการเปลี่ยนแปลงแต่ละครั้งในค่าของชุดข้อมูลดั้งเดิม แต่เฉพาะภายในพื้นที่แผนภูมิเท่านั้น ในขณะที่ชุดข้อมูลที่สร้างขึ้นบนพื้นฐานของแนวโน้มสมการเส้นเก่ายังคงไม่เปลี่ยนแปลง

    ในรายงาน PivotChart การเปลี่ยนมุมมองของแผนภูมิหรือรายงาน PivotTable ที่เกี่ยวข้องจะไม่รักษาเส้นแนวโน้มที่มีอยู่ ซึ่งหมายความว่าก่อนที่คุณจะวาดเส้นแนวโน้มหรือจัดรูปแบบรายงาน PivotChart คุณควรตรวจสอบให้แน่ใจว่าเค้าโครงรายงานตรงตามข้อกำหนดที่จำเป็น

เส้นแนวโน้มสามารถใช้เพื่อเสริมชุดข้อมูลที่แสดงบนแผนภูมิ เช่น กราฟ ฮิสโตแกรม แผนภูมิพื้นที่ที่ไม่เป็นมาตรฐานแบบเรียบ แผนภูมิแท่ง แผนภูมิกระจาย แผนภูมิฟอง และแผนภูมิหุ้น

คุณไม่สามารถเพิ่มเส้นแนวโน้มลงในชุดข้อมูลในรูปแบบ 3 มิติ แผนภูมิปกติ แผนภูมิเรดาร์ แผนภูมิวงกลม และแผนภูมิโดนัทได้

การใช้ฟังก์ชันในตัวของ Excel

Excel ยังมีเครื่องมือวิเคราะห์การถดถอยสำหรับการวางแผนเส้นแนวโน้มนอกพื้นที่แผนภูมิ มีฟังก์ชันเวิร์กชีททางสถิติจำนวนหนึ่งที่คุณสามารถใช้เพื่อจุดประสงค์นี้ได้ แต่ฟังก์ชันทั้งหมดอนุญาตให้คุณสร้างการถดถอยเชิงเส้นหรือเอ็กซ์โพเนนเชียลเท่านั้น

Excel มีฟังก์ชันหลายอย่างสำหรับสร้างการถดถอยเชิงเส้น โดยเฉพาะ:

    แนวโน้ม;

  • ความลาดชันและการตัด

เช่นเดียวกับฟังก์ชันต่างๆ มากมายสำหรับการสร้างเส้นแนวโน้มเอ็กซ์โพเนนเชียล โดยเฉพาะ:

    LGRFRIBL.

ควรสังเกตว่าเทคนิคในการสร้างการถดถอยโดยใช้ฟังก์ชัน TREND และ GROWTH เกือบจะเหมือนกัน สิ่งเดียวกันอาจกล่าวได้เกี่ยวกับคู่ของฟังก์ชัน LINEST และ LGRFPRIBL สำหรับฟังก์ชันทั้งสี่นี้ การสร้างตารางค่าจะใช้ฟีเจอร์ของ Excel เช่น สูตรอาร์เรย์ ซึ่งทำให้กระบวนการสร้างการถดถอยค่อนข้างเกะกะ โปรดทราบว่าในความคิดของเรา การสร้างการถดถอยเชิงเส้นนั้นทำได้ง่ายที่สุดโดยใช้ฟังก์ชัน SLOPE และ INTERCEPT โดยที่ฟังก์ชันแรกจะกำหนดความชันของการถดถอยเชิงเส้น และฟังก์ชันที่สองจะกำหนดส่วนที่ถูกดักจับโดยการถดถอยบน แกน y

ข้อดีของเครื่องมือฟังก์ชันในตัวสำหรับการวิเคราะห์การถดถอยคือ:

    กระบวนการที่ค่อนข้างง่ายและสม่ำเสมอในการสร้างชุดข้อมูลของคุณลักษณะภายใต้การศึกษาสำหรับฟังก์ชันทางสถิติในตัวทั้งหมดที่กำหนดเส้นแนวโน้ม

    วิธีการมาตรฐานสำหรับการสร้างเส้นแนวโน้มตามชุดข้อมูลที่สร้างขึ้น

    ความสามารถในการทำนายพฤติกรรมของกระบวนการที่กำลังศึกษาตามจำนวนก้าวไปข้างหน้าหรือข้างหลังที่ต้องการ

ข้อเสียรวมถึงข้อเท็จจริงที่ว่า Excel ไม่มีฟังก์ชันในตัวสำหรับการสร้างเส้นแนวโน้มประเภทอื่นๆ (ยกเว้นเชิงเส้นและเลขชี้กำลัง) สถานการณ์นี้มักไม่อนุญาตให้เลือกแบบจำลองกระบวนการที่กำลังศึกษาที่แม่นยำเพียงพอ รวมถึงการคาดการณ์ที่ใกล้เคียงกับความเป็นจริง นอกจากนี้ เมื่อใช้ฟังก์ชัน TREND และ GROWTH จะไม่ทราบสมการของเส้นแนวโน้ม

ควรสังเกตว่าผู้เขียนไม่ได้กำหนดที่จะนำเสนอหลักสูตรการวิเคราะห์การถดถอยด้วยความสมบูรณ์ในระดับใด หน้าที่หลักคือการแสดงความสามารถของแพ็คเกจ Excel โดยใช้ตัวอย่างเฉพาะเมื่อแก้ไขปัญหาการประมาณ สาธิตเครื่องมือที่มีประสิทธิภาพที่ Excel มีในการสร้างการถดถอยและการคาดการณ์ แสดงให้เห็นว่าปัญหาดังกล่าวสามารถแก้ไขได้ค่อนข้างง่ายแม้โดยผู้ใช้ที่ไม่มีความรู้กว้างขวางเกี่ยวกับการวิเคราะห์การถดถอย

ตัวอย่างการแก้ปัญหาเฉพาะ

มาดูการแก้ปัญหาเฉพาะโดยใช้เครื่องมือ Excel ที่ระบุไว้

ภารกิจที่ 1

พร้อมตารางข้อมูลเกี่ยวกับผลกำไรขององค์กรขนส่งยานยนต์ปี 2538-2545 คุณต้องทำสิ่งต่อไปนี้:

    สร้างไดอะแกรม

    เพิ่มเส้นแนวโน้มเชิงเส้นและพหุนาม (กำลังสองและลูกบาศก์) ลงในแผนภูมิ

    ใช้สมการเส้นแนวโน้ม รับข้อมูลแบบตารางเกี่ยวกับผลกำไรขององค์กรสำหรับแต่ละเส้นแนวโน้มสำหรับปี 1995-2004

    จัดทำการคาดการณ์ผลกำไรขององค์กรในปี 2546 และ 2547

การแก้ปัญหา

    ในช่วงของเซลล์ A4:C11 ของแผ่นงาน Excel ให้ป้อนแผ่นงานที่แสดงในรูปที่ 1 4.

    เมื่อเลือกช่วงของเซลล์ B4:C11 แล้ว เราจะสร้างไดอะแกรม

    เราเปิดใช้งานไดอะแกรมที่สร้างขึ้น และตามวิธีการที่อธิบายไว้ข้างต้น หลังจากเลือกประเภทของเส้นแนวโน้มในกล่องโต้ตอบเส้นแนวโน้ม (ดูรูปที่ 1) เราจะสลับกันเพิ่มเส้นแนวโน้มเชิงเส้น กำลังสอง และลูกบาศก์ลงในไดอะแกรม ในกล่องโต้ตอบเดียวกัน ให้เปิดแท็บพารามิเตอร์ (ดูรูปที่ 2) ในช่องชื่อของเส้นโค้งโดยประมาณ (เรียบ) ป้อนชื่อของแนวโน้มที่จะเพิ่ม และในฟิลด์การคาดการณ์ไปข้างหน้าสำหรับ: ระยะเวลา ให้ตั้งค่า มูลค่า 2 เนื่องจากมีแผนจะคาดการณ์กำไรในอีก 2 ปีข้างหน้า หากต้องการแสดงสมการถดถอยและค่าความน่าเชื่อถือของการประมาณ R2 ในพื้นที่ไดอะแกรม ให้เปิดใช้งานการแสดงสมการในช่องทำเครื่องหมายบนหน้าจอ และวางค่าความน่าเชื่อถือของการประมาณ (R^2) บนไดอะแกรม เพื่อการรับรู้ทางสายตาที่ดีขึ้น เราได้เปลี่ยนประเภท สี และความหนาของเส้นแนวโน้มที่สร้างขึ้น ซึ่งเราใช้แท็บมุมมองของกล่องโต้ตอบรูปแบบเส้นแนวโน้ม (ดูรูปที่ 3) แผนภาพผลลัพธ์ที่มีเส้นแนวโน้มเพิ่มจะแสดงในรูปที่ 1 5.

    เพื่อรับข้อมูลแบบตารางเกี่ยวกับผลกำไรขององค์กรสำหรับแต่ละเส้นแนวโน้มสำหรับปี 1995-2004 ลองใช้สมการเส้นแนวโน้มที่แสดงในรูปที่ 1 5. เมื่อต้องการทำเช่นนี้ ในเซลล์ในช่วง D3:F3 ให้ป้อนข้อมูลข้อความเกี่ยวกับประเภทของเส้นแนวโน้มที่เลือก: แนวโน้มเชิงเส้น แนวโน้มกำลังสอง แนวโน้มลูกบาศก์ จากนั้น ป้อนสูตรการถดถอยเชิงเส้นในเซลล์ D4 และใช้เครื่องหมายเติม คัดลอกสูตรนี้โดยมีการอ้างอิงสัมพันธ์กับช่วงเซลล์ D5:D13 ควรสังเกตว่าแต่ละเซลล์ที่มีสูตรการถดถอยเชิงเส้นจากช่วงของเซลล์ D4:D13 มีเซลล์ที่สอดคล้องกันจากช่วง A4:A13 เป็นอาร์กิวเมนต์ ในทำนองเดียวกัน สำหรับการถดถอยกำลังสอง ให้เติมช่วงของเซลล์ E4:E13 และสำหรับการถดถอยลูกบาศก์ ให้เติมช่วงของเซลล์ F4:F13 ดังนั้นจึงได้มีการรวบรวมการคาดการณ์กำไรขององค์กรในปี 2546 และ 2547 โดยใช้ 3 เทรนด์ ตารางค่าผลลัพธ์จะแสดงในรูป 6.

ภารกิจที่ 2

    สร้างไดอะแกรม

    เพิ่มเส้นแนวโน้มลอการิทึม กำลัง และเอ็กซ์โพเนนเชียลลงในแผนภูมิ

    หาสมการของเส้นแนวโน้มที่ได้รับตลอดจนค่าความน่าเชื่อถือของการประมาณ R2 สำหรับแต่ละเส้น

    ใช้สมการเส้นแนวโน้ม รับข้อมูลแบบตารางเกี่ยวกับกำไรขององค์กรสำหรับแต่ละเส้นแนวโน้มสำหรับปี 1995-2002

    คาดการณ์ผลกำไรของบริษัทในปี 2546 และ 2547 โดยใช้เส้นแนวโน้มเหล่านี้

การแก้ปัญหา

ตามวิธีการที่ให้ไว้ในการแก้ปัญหา 1 เราได้ไดอะแกรมที่บวกลอการิทึม กำลัง และเส้นแนวโน้มเอ็กซ์โพเนนเชียลเข้าไป (รูปที่ 7) ต่อไป เมื่อใช้สมการเส้นแนวโน้มที่ได้รับ เราจะกรอกตารางค่าสำหรับกำไรขององค์กร รวมถึงค่าที่คาดการณ์ไว้สำหรับปี 2546 และ 2547 (รูปที่ 8)

ในรูป 5 และรูปที่ จะเห็นได้ว่าแบบจำลองที่มีแนวโน้มลอการิทึมสอดคล้องกับค่าต่ำสุดของความน่าเชื่อถือในการประมาณ

R2 = 0.8659

ค่าสูงสุดของ R2 สอดคล้องกับแบบจำลองที่มีแนวโน้มพหุนาม: กำลังสอง (R2 = 0.9263) และลูกบาศก์ (R2 = 0.933)

ภารกิจที่ 3

ด้วยตารางข้อมูลเกี่ยวกับผลกำไรขององค์กรขนส่งยานยนต์สำหรับปี 2538-2545 ที่ระบุในภารกิจที่ 1 คุณต้องทำตามขั้นตอนต่อไปนี้

    รับชุดข้อมูลสำหรับเส้นแนวโน้มเชิงเส้นและเลขชี้กำลังโดยใช้ฟังก์ชัน TREND และ GROW

    ใช้ฟังก์ชัน TREND และ GROWTH ทำการคาดการณ์ผลกำไรขององค์กรในปี 2546 และ 2547

    สร้างไดอะแกรมสำหรับข้อมูลต้นฉบับและชุดข้อมูลผลลัพธ์

การแก้ปัญหา

ลองใช้แผ่นงานสำหรับปัญหาที่ 1 (ดูรูปที่ 4) เริ่มจากฟังก์ชัน TREND กันก่อน:

    เลือกช่วงของเซลล์ D4:D11 ซึ่งควรเต็มไปด้วยค่าของฟังก์ชัน TREND ที่สอดคล้องกับข้อมูลที่ทราบเกี่ยวกับผลกำไรขององค์กร

    เรียกคำสั่ง Function จากเมนู Insert ในกล่องโต้ตอบตัวช่วยสร้างฟังก์ชันที่ปรากฏขึ้น ให้เลือกฟังก์ชันแนวโน้มจากหมวดหมู่ทางสถิติ จากนั้นคลิกปุ่มตกลง การดำเนินการเดียวกันนี้สามารถทำได้โดยการคลิกปุ่ม (แทรกฟังก์ชัน) บนแถบเครื่องมือมาตรฐาน

    ในกล่องโต้ตอบอาร์กิวเมนต์ของฟังก์ชันที่ปรากฏขึ้น ให้ป้อนช่วงของเซลล์ C4:C11 ในช่อง Known_values_y ในช่อง Known_values_x - ช่วงของเซลล์ B4:B11;

    หากต้องการทำให้สูตรที่ป้อนกลายเป็นสูตรอาร์เรย์ ให้ใช้คีย์ผสม + +

สูตรที่เราป้อนในแถบสูตรจะมีลักษณะดังนี้: =(TREND(C4:C11,B4:B11))

เป็นผลให้ช่วงของเซลล์ D4:D11 เต็มไปด้วยค่าที่สอดคล้องกันของฟังก์ชัน TREND (รูปที่ 9)

เพื่อคาดการณ์ผลกำไรขององค์กรในปี 2546 และ 2547 จำเป็น:

    เลือกช่วงของเซลล์ D12:D13 ที่จะป้อนค่าที่คาดการณ์โดยฟังก์ชัน TREND

    เรียกใช้ฟังก์ชัน TREND และในกล่องโต้ตอบอาร์กิวเมนต์ของฟังก์ชันที่ปรากฏขึ้น ให้ป้อนในฟิลด์ Known_values_y - ช่วงของเซลล์ C4:C11; ในช่อง Known_values_x - ช่วงของเซลล์ B4:B11; และในช่อง New_values_x - ช่วงของเซลล์ B12:B13

    เปลี่ยนสูตรนี้เป็นสูตรอาร์เรย์โดยใช้คีย์ผสม Ctrl + Shift + Enter

    สูตรที่ป้อนจะมีลักษณะดังนี้: =(TREND(C4:C11;B4:B11;B12:B13)) และช่วงของเซลล์ D12:D13 จะถูกเติมด้วยค่าที่ทำนายไว้ของฟังก์ชัน TREND (ดูรูปที่ 1) 9)

ชุดข้อมูลจะถูกเติมในทำนองเดียวกันโดยใช้ฟังก์ชัน GROWTH ซึ่งใช้ในการวิเคราะห์การขึ้นต่อกันแบบไม่เชิงเส้น และทำงานในลักษณะเดียวกับ TREND ที่เป็นคู่เชิงเส้นทุกประการ

รูปที่ 10 แสดงตารางในโหมดแสดงสูตร

สำหรับข้อมูลเริ่มต้นและชุดข้อมูลที่ได้รับ แผนภาพแสดงในรูปที่ 1 สิบเอ็ด

ภารกิจที่ 4

ด้วยตารางข้อมูลเกี่ยวกับการรับการสมัครใช้บริการโดยบริการจัดส่งขององค์กรขนส่งทางรถยนต์ในช่วงวันที่ 1 ถึงวันที่ 11 ของเดือนปัจจุบันคุณต้องดำเนินการดังต่อไปนี้

    รับชุดข้อมูลสำหรับการถดถอยเชิงเส้น: การใช้ฟังก์ชัน SLOPE และ INTERCEPT โดยใช้ฟังก์ชัน LINEST

    รับชุดข้อมูลสำหรับการถดถอยเอ็กซ์โปเนนเชียลโดยใช้ฟังก์ชัน LGRFPRIBL

    ใช้ฟังก์ชันข้างต้น คาดการณ์เกี่ยวกับการรับใบสมัครไปยังบริการจัดส่งในช่วงวันที่ 12 ถึงวันที่ 14 ของเดือนปัจจุบัน

    สร้างไดอะแกรมสำหรับชุดข้อมูลต้นฉบับและข้อมูลที่ได้รับ

การแก้ปัญหา

โปรดทราบว่าต่างจากฟังก์ชัน TREND และ GROWTH ตรงที่ไม่มีฟังก์ชันใดในรายการข้างต้น (SLOPE, INTERCEPT, LINEST, LGRFPRIB) เป็นการถดถอย ฟังก์ชันเหล่านี้มีบทบาทสนับสนุนเท่านั้น โดยกำหนดพารามิเตอร์การถดถอยที่จำเป็น

สำหรับการถดถอยเชิงเส้นและเอ็กซ์โปเนนเชียลที่สร้างขึ้นโดยใช้ฟังก์ชัน SLOPE, INTERCEPT, LINEST, LGRFPRIB จะทราบลักษณะที่ปรากฏของสมการอยู่เสมอ ตรงกันข้ามกับการถดถอยเชิงเส้นและเอ็กซ์โพเนนเชียลที่สอดคล้องกับฟังก์ชัน TREND และ GROWTH

1 . มาสร้างการถดถอยเชิงเส้นด้วยสมการกัน:

y = มx+ข

โดยใช้ฟังก์ชัน SLOPE และ INTERCEPT โดยมีความชันการถดถอย m กำหนดโดยฟังก์ชัน SLOPE และเทอมอิสระ b โดยฟังก์ชัน INTERCEPT

ในการดำเนินการนี้ เราดำเนินการดังต่อไปนี้:

    ป้อนตารางต้นฉบับลงในช่วงเซลล์ A4:B14;

    ค่าของพารามิเตอร์ m จะถูกกำหนดในเซลล์ C19 เลือกฟังก์ชันความชันจากหมวดสถิติ ป้อนช่วงของเซลล์ B4:B14 ในช่องknown_values_y และช่วงของเซลล์ A4:A14 ในช่องknown_values_x สูตรจะถูกป้อนในเซลล์ C19: =SLOPE(B4:B14,A4:A14);

    เมื่อใช้เทคนิคที่คล้ายกัน จะกำหนดค่าของพารามิเตอร์ b ในเซลล์ D19 และเนื้อหาจะมีลักษณะดังนี้: =SEGMENT(B4:B14,A4:A14) ดังนั้นค่าของพารามิเตอร์ m และ b ที่จำเป็นสำหรับการสร้างการถดถอยเชิงเส้นจะถูกเก็บไว้ในเซลล์ C19, D19 ตามลำดับ

    จากนั้น ป้อนสูตรการถดถอยเชิงเส้นในเซลล์ C4 ในรูปแบบ: =$C*A4+$D ในสูตรนี้ เซลล์ C19 และ D19 จะถูกเขียนด้วยการอ้างอิงแบบสัมบูรณ์ (ที่อยู่ของเซลล์ไม่ควรเปลี่ยนแปลงในระหว่างการคัดลอกที่เป็นไปได้) เครื่องหมายอ้างอิงสัมบูรณ์ $ สามารถพิมพ์ได้จากแป้นพิมพ์หรือใช้ปุ่ม F4 หลังจากวางเคอร์เซอร์บนที่อยู่ของเซลล์แล้ว ใช้จุดจับเติม คัดลอกสูตรนี้ลงในช่วงของเซลล์ C4:C17 เราได้รับชุดข้อมูลที่ต้องการ (รูปที่ 12) เนื่องจากจำนวนคำขอเป็นจำนวนเต็ม คุณควรตั้งค่ารูปแบบตัวเลขด้วยจำนวนตำแหน่งทศนิยมเป็น 0 บนแท็บตัวเลขของหน้าต่างรูปแบบเซลล์

2 . ตอนนี้เรามาสร้างการถดถอยเชิงเส้นที่กำหนดโดยสมการ:

y = มx+ข

โดยใช้ฟังก์ชัน LINEST

สำหรับสิ่งนี้:

    ป้อนฟังก์ชัน LINEST เป็นสูตรอาร์เรย์ในช่วงเซลล์ C20:D20: =(LINEST(B4:B14,A4:A14)) เป็นผลให้เราได้รับค่าของพารามิเตอร์ m ในเซลล์ C20 และค่าของพารามิเตอร์ b ในเซลล์ D20

    ป้อนสูตรในเซลล์ D4: =$C*A4+$D;

    คัดลอกสูตรนี้โดยใช้เครื่องหมายเติมลงในช่วงเซลล์ D4:D17 และรับชุดข้อมูลที่ต้องการ

3 . เราสร้างการถดถอยเอ็กซ์โปเนนเชียลด้วยสมการ:

การใช้ฟังก์ชัน LGRFPRIBL จะดำเนินการในลักษณะเดียวกัน:

    ในช่วงเซลล์ C21:D21 เราป้อนฟังก์ชัน LGRFPRIBL เป็นสูตรอาร์เรย์: =( LGRFPRIBL (B4:B14,A4:A14)) ในกรณีนี้ ค่าของพารามิเตอร์ m จะถูกกำหนดในเซลล์ C21 และค่าของพารามิเตอร์ b จะถูกกำหนดในเซลล์ D21

    ใส่สูตรลงในเซลล์ E4: =$D*$C^A4;

    โดยใช้เครื่องหมายเติม สูตรนี้จะถูกคัดลอกไปยังช่วงของเซลล์ E4:E17 โดยที่ชุดข้อมูลสำหรับการถดถอยเอ็กซ์โปเนนเชียลจะอยู่ (ดูรูปที่ 12)

ในรูป รูปที่ 13 แสดงตารางที่คุณสามารถดูฟังก์ชันที่เราใช้กับช่วงเซลล์ที่ต้องการ รวมถึงสูตรต่างๆ

ขนาด 2 เรียกว่า ค่าสัมประสิทธิ์การตัดสินใจ.

งานในการสร้างการพึ่งพาการถดถอยคือการหาเวกเตอร์ของสัมประสิทธิ์ m ของแบบจำลอง (1) โดยที่สัมประสิทธิ์ R รับค่าสูงสุด

เพื่อประเมินความสำคัญของ R จะใช้การทดสอบ F ของฟิชเชอร์ โดยคำนวณโดยใช้สูตร

ที่ไหน n- ขนาดตัวอย่าง (จำนวนการทดลอง)

k คือจำนวนสัมประสิทธิ์แบบจำลอง

ถ้า F เกินค่าวิกฤตของข้อมูล nและ เคและความน่าจะเป็นของความเชื่อมั่นที่ยอมรับได้ จึงถือว่าค่า R มีนัยสำคัญ ตารางค่าวิกฤตของ F แสดงไว้ในหนังสืออ้างอิงเกี่ยวกับสถิติทางคณิตศาสตร์

ดังนั้นความสำคัญของ R ไม่เพียงแต่ถูกกำหนดโดยค่าของมันเท่านั้น แต่ยังรวมถึงอัตราส่วนระหว่างจำนวนการทดลองและจำนวนสัมประสิทธิ์ (พารามิเตอร์) ของแบบจำลองด้วย อันที่จริง อัตราส่วนสหสัมพันธ์สำหรับ n=2 สำหรับแบบจำลองเชิงเส้นอย่างง่ายเท่ากับ 1 (เส้นตรงเส้นเดียวสามารถลากผ่าน 2 จุดบนระนาบได้เสมอ) อย่างไรก็ตาม หากข้อมูลการทดลองเป็นตัวแปรสุ่ม ควรเชื่อถือค่า R ดังกล่าวด้วยความระมัดระวังเป็นอย่างยิ่ง โดยปกติแล้ว เพื่อให้ได้ R ที่มีนัยสำคัญและการถดถอยที่เชื่อถือได้ พวกเขาพยายามให้แน่ใจว่าจำนวนการทดลองเกินจำนวนสัมประสิทธิ์แบบจำลอง (n>k) อย่างมีนัยสำคัญ

ในการสร้างแบบจำลองการถดถอยเชิงเส้น คุณต้องมี:

1) เตรียมรายการ n แถวและ m คอลัมน์ที่มีข้อมูลการทดลอง (คอลัมน์ที่มีค่าเอาต์พุต จะต้องเป็นรายการแรกหรือรายการสุดท้าย) ตัวอย่างเช่น ลองนำข้อมูลจากงานก่อนหน้าโดยเพิ่มคอลัมน์ชื่อ “Period No” กำหนดหมายเลขช่วงตั้งแต่ 1 ถึง 12 (ซึ่งจะเป็นค่าเหล่านี้ เอ็กซ์)

2) ไปที่เมนู ข้อมูล/การวิเคราะห์ข้อมูล/การถดถอย

หากรายการ "การวิเคราะห์ข้อมูล" ในเมนู "เครื่องมือ" หายไป คุณควรไปที่รายการ "ส่วนเสริม" ในเมนูเดียวกันและทำเครื่องหมายในช่อง "แพ็คเกจการวิเคราะห์"

3) ในกล่องโต้ตอบ "การถดถอย" ให้ตั้งค่า:

· ช่วงเวลาอินพุต Y;

· ช่วงเวลาอินพุต X;

· ช่วงเอาท์พุต - เซลล์ด้านซ้ายบนของช่วงเวลาที่ผลการคำนวณจะถูกวาง (แนะนำให้วางไว้บนแผ่นงานใหม่)

4) คลิก "ตกลง" และวิเคราะห์ผลลัพธ์