خصائص العمليات لحساب الخصائص الكمية للمتغيرات العشوائية. الخصائص الرئيسية للمتغيرات العشوائية التشتت والانحراف المعياري

الغرض من تحليل الارتباطهو تحديد تقدير لقوة الاتصال بين المتغيرات العشوائية (السمات) التي تميز بعض العمليات الحقيقية.
مشاكل تحليل الارتباط:
أ) قياس درجة الارتباط (الشد ، القوة ، الشدة ، الشدة) لظاهرتين أو أكثر.
ب) اختيار العوامل التي لها أكبر تأثير على السمة الناتجة ، بناءً على قياس درجة الارتباط بين الظواهر. يتم استخدام العوامل الهامة في هذا الجانب بشكل أكبر في تحليل الانحدار.
ج) الكشف عن العلاقات السببية غير المعروفة.

أشكال مظاهر العلاقات المتبادلة متنوعة للغاية. لأنواعها الأكثر شيوعًا ، وظيفية (كاملة) و ارتباط (غير مكتمل).
علاقةيتجلى في المتوسط ​​، بالنسبة لملاحظات الكتلة ، عندما تتوافق القيم المعطاة للمتغير التابع مع عدد معين من القيم الاحتمالية للمتغير المستقل. الاتصال يسمى الارتباط، إذا كانت كل قيمة سمة عامل تتوافق مع قيمة غير عشوائية محددة جيدًا للسمة الناتجة.
يعمل مجال الارتباط كتمثيل مرئي لجدول الارتباط. إنه رسم بياني حيث يتم رسم قيم X على محور الإحداثي ، ويتم رسم قيم Y على طول المحور الإحداثي ، ويتم عرض مجموعات X و Y بالنقاط. ويمكن الحكم على وجود اتصال من خلال موقع النقاط.
مؤشرات ضيقتجعل من الممكن توصيف اعتماد تباين السمة الناتجة على تباين عامل السمات.
أفضل مؤشر لدرجة الشد علاقةيكون معامل الارتباط الخطي. عند حساب هذا المؤشر ، لا تؤخذ فقط انحرافات القيم الفردية للسمة عن المتوسط ​​في الاعتبار ، ولكن أيضًا حجم هذه الانحرافات.

القضايا الرئيسية في هذا الموضوع هي معادلات علاقة الانحدار بين السمة الناتجة والمتغير التوضيحي ، وطريقة المربعات الصغرى لتقدير معاملات نموذج الانحدار ، وتحليل جودة معادلة الانحدار الناتجة ، وبناء فترات الثقة للتنبؤ بـ قيم السمة الناتجة باستخدام معادلة الانحدار.

مثال 2


نظام المعادلات العادية.
أ ن + ب س = ∑ ص
a∑x + b∑x 2 = y x
بالنسبة لبياناتنا ، فإن نظام المعادلات له الشكل
30 أ + 5763 ب = 21460
5763 أ + 1200261 ب = 3800360
من المعادلة الأولى نعبر عنها أواستبدل في المعادلة الثانية:
نحصل على ب = -3.46 ، أ = 1379.33
معادلة الانحدار:
ص = -3.46 س + 1379.33

2. حساب معاملات معادلة الانحدار.
عينة يعني.



تباينات العينة:


الانحراف المعياري


1.1 معامل الارتباط
التغاير.

نحسب مؤشر قرب الاتصال. مثل هذا المؤشر هو معامل ارتباط خطي انتقائي ، يتم حسابه بواسطة الصيغة:

يأخذ معامل الارتباط الخطي القيم من -1 إلى +1.
يمكن أن تكون العلاقات بين الميزات ضعيفة أو قوية (قريبة). يتم تقييم معاييرهم على مقياس تشادوك:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
في مثالنا ، العلاقة بين الميزة Y والعامل X عالية ومعكوسة.
بالإضافة إلى ذلك ، يمكن تحديد معامل الارتباط الزوجي الخطي من حيث معامل الانحدار ب:

1.2 معادلة الانحدار(تقييم معادلة الانحدار).

معادلة الانحدار الخطي هي y = -3.46 x + 1379.33

يُظهر المعامل b = -3.46 متوسط ​​التغيير في المؤشر الفعال (بوحدات y) مع زيادة أو نقصان في قيمة العامل x لكل وحدة قياسها. في هذا المثال ، مع زيادة وحدة واحدة ، تنخفض y بمتوسط ​​-3.46.
يُظهر المعامل a = 1379.33 رسميًا المستوى المتوقع لـ y ، ولكن فقط إذا كانت x = 0 قريبة من قيم العينة.
ولكن إذا كانت x = 0 بعيدة عن قيم العينة x ، فيمكن أن يؤدي التفسير الحرفي إلى نتائج غير صحيحة ، وحتى إذا كان خط الانحدار يصف بدقة قيم العينة التي تمت ملاحظتها ، فلا يوجد ضمان بأن هذا سيكون أيضًا الحالة عند الاستقراء إلى اليسار أو اليمين.
من خلال استبدال القيم المقابلة لـ x في معادلة الانحدار ، من الممكن تحديد القيم المتوافقة (المتوقعة) للمؤشر الفعال y (x) لكل ملاحظة.
تحدد العلاقة بين y و x علامة معامل الانحدار b (إذا> 0 - علاقة مباشرة ، وإلا - معكوس). في مثالنا ، العلاقة معكوسة.
1.3 معامل المرونة.
من غير المرغوب فيه استخدام معاملات الانحدار (في المثال ب) للتقييم المباشر لتأثير العوامل على السمة الفعالة في حالة وجود اختلاف في وحدات القياس للمؤشر الفعال y وسمة العامل x.
لهذه الأغراض ، تُحسب معاملات المرونة ومعاملات بيتا.
يوضح متوسط ​​معامل المرونة E عدد النسبة المئوية التي ستتغير النتيجة في المتوسط ​​في الإجمالي فيمن متوسط ​​قيمته عند تغيير العامل x 1٪ من متوسط ​​قيمتها.
تم العثور على معامل المرونة من خلال الصيغة:


معامل المرونة أقل من 1. لذلك ، إذا تغيرت X بنسبة 1٪ ، فإن Y ستتغير بأقل من 1٪. بمعنى آخر ، تأثير X على Y ليس مهمًا.
معامل بيتايوضح من خلال أي جزء من قيمة الانحراف المعياري ستتغير قيمة السمة الفعالة في المتوسط ​​عندما تتغير سمة العامل بقيمة انحرافها المعياري مع قيمة المتغيرات المستقلة المتبقية الثابتة عند مستوى ثابت:

أولئك. ستؤدي الزيادة في x بقيمة الانحراف المعياري S x إلى انخفاض متوسط ​​قيمة Y بمقدار 0.74 الانحراف المعياري S y.
1.4 خطأ في التقريب.
دعونا نقيم جودة معادلة الانحدار باستخدام خطأ التقريب المطلق. متوسط ​​خطأ التقريب هو متوسط ​​انحراف القيم المحسوبة عن القيم الفعلية:


نظرًا لأن الخطأ أقل من 15٪ ، يمكن استخدام هذه المعادلة كتراجع.
تحليل التشتت.
تتمثل مهمة تحليل التباين في تحليل تباين المتغير التابع:
∑ (y i - y cp) 2 = ∑ (y (x) - y cp) 2 + ∑ (y - y (x)) 2
أين
∑ (y i - y cp) 2 - المجموع الكلي للانحرافات التربيعية ؛
∑ (y (x) - y cp) 2 - مجموع الانحرافات التربيعية الناتجة عن الانحدار ("موضح" أو "عاملي") ؛
∑ (y - y (x)) 2 - المجموع المتبقي للانحرافات التربيعية.
نسبة الارتباط النظريلعلاقة خطية تساوي معامل الارتباط r xy.
لأي شكل من أشكال الاعتماد ، يتم تحديد ضيق الاتصال باستخدام معامل الارتباط المتعدد:

هذا المعامل عالمي ، لأنه يعكس ضيق الاتصال ودقة النموذج ، ويمكن استخدامه أيضًا لأي شكل من أشكال الاتصال بين المتغيرات. عند إنشاء نموذج ارتباط أحادي العامل ، يكون معامل الارتباط المتعدد مساويًا لمعامل الارتباط الزوجي r xy.
1.6 معامل التحديد.
يسمى مربع معامل الارتباط (المتعدد) بمعامل التحديد ، والذي يوضح نسبة التباين في السمة الناتجة التي يتم شرحها من خلال تباين سمة العامل.
في أغلب الأحيان ، عند إعطاء تفسير لمعامل التحديد ، يتم التعبير عنه كنسبة مئوية.
R 2 \ u003d -0.74 2 \ u003d 0.5413
أولئك. في 54.13٪ من الحالات ، تؤدي التغييرات في x إلى تغيير في y. بمعنى آخر ، دقة اختيار معادلة الانحدار متوسطة. تعود نسبة 45.87٪ المتبقية من التغيير في Y إلى عوامل لم يتم أخذها في الاعتبار في النموذج.

فهرس

  1. الاقتصاد القياسي: كتاب مدرسي / إد. أنا. إليسيفا. - م: المالية والإحصاء ، 2001 ، ص. 34. 89.
  2. Magnus Ya.R.، Katyshev P.K.، Peresetsky A.A. الاقتصاد القياسي. الدورة الأولية. درس تعليمي. - الطبعة الثانية ، القس. - م: ديلو ، 1998 ، ص. 17..42.
  3. ورشة عمل حول الاقتصاد القياسي: Proc. البدل / I.I. إليسيفا ، S.V. كوريشيفا ، ن. جوردينكو وآخرين ؛ إد. أنا. إليسيفا. - م: المالية والإحصاء ، 2001 ، ص. 5..48.

توظف الشركة 10 أشخاص. يوضح الجدول 2 بيانات عن خبرتهم في العمل و

راتب شهري.

احسب من هذه البيانات

  • - قيمة تقدير التباين المشترك للعينة ؛
  • - قيمة معامل ارتباط بيرسون في العينة ؛
  • - تقييم اتجاه وقوة الاتصال وفقًا للقيم التي تم الحصول عليها ؛
  • - تحديد مدى شرعية البيان القائل بأن هذه الشركة تستخدم نموذج الإدارة الياباني ، والذي يتكون من افتراض أنه كلما زاد الوقت الذي يقضيه الموظف في هذه الشركة ، يجب أن يكون راتبه أعلى.

بناءً على حقل الارتباط ، يمكن للمرء أن يفترض (لعامة السكان) أن العلاقة بين جميع القيم الممكنة لـ X و Y خطية.

لحساب معلمات الانحدار ، سنقوم ببناء جدول حساب.

عينة يعني.

تباينات العينة:

ستبدو معادلة الانحدار المقدرة

ص = ب س + أ + ه ،

حيث ei هي القيم المرصودة (التقديرات) للأخطاء ei و a و b على التوالي ، وتقديرات المعلمات b وفي نموذج الانحدار الذي يجب العثور عليه.

لتقدير المعلمات b و c - استخدم LSM (المربعات الصغرى).

نظام المعادلات العادية.

أ؟ x + ب؟ x2 =؟ y * x

بالنسبة لبياناتنا ، فإن نظام المعادلات له الشكل

  • 10 أ + 307 ب = 33300
  • 307 أ + 10857 ب = 1127700

نضرب المعادلة (1) للنظام في (-30.7) ، نحصل على نظام نحله بطريقة الجمع الجبري.

  • -307a -9424.9 ب = -1022310
  • 307 أ + 10857 ب = 1127700

نحن نحصل:

1432.1 ب = 105390

حيث ب = 73.5912

الآن نجد المعامل "أ" من المعادلة (1):

  • 10 أ + 307 ب = 33300
  • 10 أ + 307 * 73.5912 = 33300
  • 10 أ = 10707.49

نحصل على معاملات الانحدار التجريبية: ب = 73.5912 ، أ = 1070.7492

معادلة الانحدار (معادلة الانحدار التجريبي):

ص = 73.5912 س + 1070.7492

التغاير.

في مثالنا ، العلاقة بين الميزة Y والعامل X عالية ومباشرة.

لذلك ، يمكننا أن نقول بأمان أنه كلما زاد الوقت الذي يعمل فيه الموظف في شركة معينة ، زاد راتبه.

4. اختبار الفروض الإحصائية. عند حل هذه المشكلة ، فإن الخطوة الأولى هي صياغة فرضية قابلة للاختبار وأخرى بديلة.

التحقق من المساواة في الأسهم العامة.

أجريت دراسة على أداء الطلاب في كليتين. يتم عرض نتائج المتغيرات في الجدول 3. هل يمكن القول بأن كلا الكليتين لهما نفس النسبة من الطلاب المتميزين؟

متوسط ​​حسابي بسيط

نختبر الفرضية حول المساواة في الأسهم العامة:

لنجد القيمة التجريبية لمعيار الطالب:

عدد درجات الحرية

و \ u003d nx + ny - 2 \ u003d 2 + 2-2 \ u003d 2

حدد قيمة tkp وفقًا لجدول توزيع Student

وفقًا لجدول الطالب نجد:

Ttabl (f ؛ ب / 2) = Ttabl (2 ؛ 0.025) = 4.303

وفقًا لجدول النقاط الحرجة لتوزيع الطالب عند مستوى أهمية b = 0.05 وعدد معين من درجات الحرية ، نجد tcr = 4.303

لأن tobs> tcr ، ثم يتم رفض فرضية العدم ، فالحصص العامة للعينتين غير متساوية.

التحقق من توحيد التوزيع العام.

تريد إدارة الجامعة معرفة كيف تغيرت شعبية كلية العلوم الإنسانية بمرور الوقت. تم تحليل عدد المتقدمين الذين تقدموا لهذه الكلية فيما يتعلق بالعدد الإجمالي للمتقدمين في العام المقابل. (ترد البيانات في الجدول 4). إذا أخذنا في الاعتبار عدد المتقدمين كعينة تمثيلية من إجمالي عدد خريجي المدارس لهذا العام ، فهل يمكن القول بأن اهتمام أطفال المدارس بتخصصات هذه الكلية لا يتغير بمرور الوقت؟

الخيار 4

الحل: جدول حساب المؤشرات.

نقطة منتصف الفاصل ، الحادي عشر

التردد التراكمي S.

التردد ، فاي / ن

لتقييم سلسلة التوزيع نجد المؤشرات التالية:

متوسط ​​الوزن

نطاق التباين هو الفرق بين القيم القصوى والدنيا لسمة السلسلة الأساسية.

R = 2008 - 1988 = 20 التشتت - يميز مقياس الانتشار حول قيمته المتوسطة (مقياس التشتت ، أي الانحراف عن المتوسط).

الانحراف المعياري (يعني خطأ أخذ العينات).

تختلف كل قيمة من قيم السلسلة عن متوسط ​​قيمة 2002.66 بمتوسط ​​6.32

اختبار الفرضية حول التوزيع الموحد لعامة السكان.

من أجل اختبار الفرضية حول التوزيع المنتظم لـ X ، أي وفقًا للقانون: f (x) = 1 / (b-a) في الفترة (أ ، ب) من الضروري:

تقدير المعلمات a و b - نهايات الفترة الزمنية التي لوحظت فيها القيم المحتملة لـ X ، وفقًا للصيغ (تشير * إلى تقديرات المعلمات):

أوجد الكثافة الاحتمالية للتوزيع المقدر f (x) = 1 / (b * - a *)

ابحث عن الترددات النظرية:

n1 = nP1 = n = n * 1 / (b * - a *) * (x1 - a *)

n2 = n3 = ... = ns-1 = n * 1 / (b * - a *) * (xi - xi-1)

ns = n * 1 / (b * - a *) * (b * - xs-1)

قارن الترددات التجريبية والنظرية باستخدام اختبار بيرسون ، بافتراض عدد درجات الحرية k = s-3 ، حيث s هو عدد فترات أخذ العينات الأولية ؛ ومع ذلك ، إذا تم تكوين مجموعة من الترددات الصغيرة ، وبالتالي الفواصل الزمنية نفسها ، فإن s هو عدد الفترات المتبقية بعد المجموعة. لنجد تقديرات المعلمات a * و b * للتوزيع المنتظم بالصيغ:

لنجد كثافة التوزيع المنتظم المفترض:

و (س) = 1 / (ب * - أ *) = 1 / (2013.62 - 1991.71) = 0.0456

لنجد الترددات النظرية:

n1 = n * f (x) (x1 - a *) = 0.77 * 0.0456 (1992-1991.71) = 0.0102

n5 = n * f (x) (b * - x4) = 0.77 * 0.0456 (2013.62-2008) = 0.2

ns = n * f (x) (xi - xi-1)

نظرًا لأن إحصائية بيرسون تقيس الفرق بين التوزيعين التجريبي والنظري ، فكلما زادت قيمته المرصودة Kobs ، كانت الحجة ضد الفرضية الرئيسية أقوى.

لذلك ، فإن المنطقة الحرجة لهذا الإحصاء تكون دائمًا يمينًا:) قد تختلف اختلافًا كبيرًا عن الخصائص المقابلة للمخطط الأصلي (غير المشوه) (، n). المخطط العادي (، م) يقلل دائمًا من القيمة المطلقة لمعامل الانحدار Ql فيما يتعلق بـ (ب 15) ، ويضعف أيضًا درجة التقارب للعلاقة بين أم (أي يقلل من القيمة المطلقة لمعامل الارتباط ص).

تأثير أخطاء القياس على قيمة معامل الارتباط. دعونا نرغب في تقدير درجة التقارب بين مكونات المتغير العشوائي العادي ثنائي الأبعاد (، TJ) ، ولكن يمكننا ملاحظتها فقط مع بعض أخطاء القياس العشوائية ، على التوالي ، es و e (انظر اعتماد D2 الرسم البياني في المقدمة). لذلك ، فإن البيانات التجريبية هي (xit i / i) ، i = 1 ، 2 ،. .. ، n ، هي عمليا عينة من قيم المتغير العشوائي ثنائي الأبعاد المشوه (، ص)) ، حيث =

طريقة R.a. يتكون من اشتقاق معادلة انحدار (بما في ذلك تقدير معلماته) ، والتي يتم من خلالها العثور على متوسط ​​قيمة متغير عشوائي ، إذا كانت قيمة متغير آخر (أو غيرها في حالة الانحدار المتعدد أو متعدد المتغيرات) معروفة. (في المقابل ، يتم استخدام تحليل الارتباط لإيجاد والتعبير عن قوة العلاقة بين المتغيرات العشوائية.)

في دراسة ارتباط العلامات غير المرتبطة بتغيير ثابت في الوقت ، تتغير كل علامة تحت تأثير العديد من الأسباب ، تؤخذ على أنها عشوائية. في سلسلة الديناميكيات ، يتم إضافة تغيير إليها خلال وقت كل سلسلة. يؤدي هذا التغيير إلى ما يسمى الارتباط التلقائي - تأثير التغيرات في مستويات السلسلة السابقة على المستويات اللاحقة. لذلك ، فإن الارتباط بين مستويات السلاسل الزمنية بشكل صحيح يظهر ضيق العلاقة بين الظواهر التي تنعكس في السلسلة الزمنية ، فقط إذا لم يكن هناك ارتباط ذاتي في كل منها. بالإضافة إلى ذلك ، يؤدي الارتباط التلقائي إلى تشويه متوسط ​​أخطاء التربيع لمعاملات الانحدار ، مما يجعل من الصعب بناء فترات ثقة لمعاملات الانحدار ، وكذلك التحقق من أهميتها.

يمكن حساب معاملات الارتباط النظرية والعينة المحددة بواسطة العلاقات (1.8) و (1.8) ، على التوالي ، بشكل رسمي لأي نظام مراقبة ثنائي الأبعاد ؛ إنها مقاييس لدرجة ضيق العلاقة الإحصائية الخطية بين السمات التي تم تحليلها. ومع ذلك ، فقط في حالة التوزيع الطبيعي المشترك للمتغيرات العشوائية قيد الدراسة و u ، يكون لمعامل الارتباط r معنى واضح كخاصية لدرجة التقارب في الاتصال بينهما. على وجه الخصوص ، في هذه الحالة ، تؤكد النسبة r - 1 وجود علاقة خطية وظيفية بحتة بين الكميات قيد الدراسة ، وتشير المعادلة r = 0 إلى استقلالها المتبادل التام. بالإضافة إلى ذلك ، يشكل معامل الارتباط ، جنبًا إلى جنب مع متوسطات وتباينات المتغيرات العشوائية و TJ ، تلك المعلمات الخمسة التي توفر معلومات شاملة حول

بعد تحديد معادلة خط الانحدار النظري ، من الضروري تحديد مدى قرب العلاقة بين سلسلتي الملاحظات. خطوط الانحدار المرسومة في الشكل. 4.1 ، ب ، ج ، هي نفسها ، ولكن في الشكل. 4.1 ، b ، النقاط أقرب (أقرب) إلى خط الانحدار مما في الشكل. 4.1 ، ج.

يفترض تحليل الارتباط أن العوامل والاستجابات عشوائية وتخضع لقانون التوزيع الطبيعي.

يتميز تقارب العلاقة بين المتغيرات العشوائية بنسبة الارتباط بيكسي. دعونا نتناول المزيد من التفاصيل حول المعنى المادي لهذا المؤشر. للقيام بذلك ، نقدم مفاهيم جديدة.

التشتت المتبقي

النقاط المرصودة بالنسبة لخط الانحدار وهي مؤشر على الخطأ في التنبؤ بالمعامل y وفقًا لمعادلة الانحدار (الشكل 4.6):



s2 = f)