L’essence de la méthode des moindres carrés est la suivante : Où est utilisée la méthode des moindres carrés ? Exemples de résolution de problèmes par la méthode des moindres carrés

Ses applications sont nombreuses, car elle permet une représentation approximative d’une fonction donnée par d’autres plus simples. Le LSM peut être extrêmement utile dans le traitement des observations, et il est activement utilisé pour estimer certaines quantités sur la base des résultats de mesures d'autres contenant des erreurs aléatoires. Dans cet article, vous apprendrez comment implémenter les calculs des moindres carrés dans Excel.

Énoncé du problème à l'aide d'un exemple précis

Supposons qu'il existe deux indicateurs X et Y. De plus, Y dépend de X. Puisque les MCO nous intéressent du point de vue de l'analyse de régression (dans Excel, ses méthodes sont implémentées à l'aide de fonctions intégrées), nous devons immédiatement considérer un problème spécifique.

Soit donc X la surface de vente d'une épicerie, mesurée en mètres carrés, et Y le chiffre d'affaires annuel, mesuré en millions de roubles.

Il est nécessaire de faire une prévision du chiffre d'affaires (Y) que réalisera le magasin s'il dispose de tel ou tel espace de vente. Évidemment, la fonction Y = f (X) est croissante, puisque l'hypermarché vend plus de marchandises que l'étal.

Quelques mots sur l'exactitude des données initiales utilisées pour la prédiction

Disons que nous avons une table construite à partir des données de n magasins.

Selon les statistiques mathématiques, les résultats seront plus ou moins corrects si les données sur au moins 5 à 6 objets sont examinées. De plus, les résultats « anormaux » ne peuvent pas être utilisés. En particulier, une petite boutique d'élite peut avoir un chiffre d'affaires plusieurs fois supérieur à celui des grands points de vente de la classe « masmarket ».

L'essence de la méthode

Les données du tableau peuvent être représentées sur un plan cartésien sous la forme de points M 1 (x 1, y 1), ... M n (x n, y n). Maintenant la solution du problème se réduira à la sélection d'une fonction d'approximation y = f (x), qui a un graphe passant le plus près possible des points M 1, M 2, .. M n.

Bien sûr, vous pouvez utiliser un polynôme de haut degré, mais cette option est non seulement difficile à mettre en œuvre, mais aussi tout simplement incorrecte, car elle ne reflétera pas la tendance principale à détecter. La solution la plus raisonnable est de rechercher la droite y = ax + b, qui se rapproche le mieux des données expérimentales, ou plus précisément des coefficients a et b.

Évaluation de la précision

Quelle que soit l'approximation, l'évaluation de son exactitude revêt une importance particulière. Notons e i la différence (écart) entre les valeurs fonctionnelles et expérimentales pour le point x i, c'est-à-dire e i = y i - f (x i).

Évidemment, pour évaluer la précision de l'approximation, vous pouvez utiliser la somme des écarts, c'est-à-dire que lors du choix d'une ligne droite pour une représentation approximative de la dépendance de X à Y, vous devez privilégier celle avec la plus petite valeur de somme e i à tous les points considérés. Cependant, tout n'est pas si simple, car à côté des écarts positifs, il y aura aussi des écarts négatifs.

Le problème peut être résolu en utilisant des modules de déviation ou leurs carrés. Cette dernière méthode est la plus utilisée. Il est utilisé dans de nombreux domaines, notamment l'analyse de régression (implémentée dans Excel à l'aide de deux fonctions intégrées), et a depuis longtemps prouvé son efficacité.

Méthode des moindres carrés

Excel, comme vous le savez, possède une fonction AutoSum intégrée qui vous permet de calculer les valeurs de toutes les valeurs situées dans la plage sélectionnée. Ainsi, rien ne nous empêchera de calculer la valeur de l'expression (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

En notation mathématique, cela ressemble à :

Puisque la décision a été initialement prise d’approximer par une ligne droite, nous avons :

Ainsi, la tâche de trouver la droite qui décrit le mieux la dépendance spécifique des quantités X et Y revient à calculer le minimum d'une fonction de deux variables :

Pour ce faire, vous devez assimiler les dérivées partielles par rapport aux nouvelles variables a et b à zéro, et résoudre un système primitif composé de deux équations à 2 inconnues de la forme :

Après quelques transformations simples, dont la division par 2 et la manipulation des sommes, on obtient :

En le résolvant, par exemple, à l'aide de la méthode de Cramer, on obtient un point stationnaire avec certains coefficients a* et b*. C'est le minimum, c'est-à-dire pour prédire le chiffre d'affaires qu'un magasin réalisera pour une certaine zone, la droite y = a * x + b * convient, qui est un modèle de régression pour l'exemple en question. Bien sûr, cela ne vous permettra pas de trouver le résultat exact, mais cela vous aidera à avoir une idée de savoir si l'achat d'une zone spécifique à crédit en magasin sera rentable.

Comment implémenter les moindres carrés dans Excel

Excel dispose d'une fonction permettant de calculer des valeurs à l'aide des moindres carrés. Il a la forme suivante : « TENDANCE » (valeurs Y connues ; valeurs X connues ; nouvelles valeurs X ; constante). Appliquons la formule de calcul des OLS dans Excel à notre tableau.

Pour cela, saisissez le signe « = » dans la cellule dans laquelle doit être affiché le résultat du calcul par la méthode des moindres carrés dans Excel et sélectionnez la fonction « TENDANCE ». Dans la fenêtre qui s'ouvre, remplissez les champs appropriés en mettant en surbrillance :

  • plage de valeurs connues pour Y (dans ce cas, les données sur le chiffre d'affaires commercial) ;
  • plage x 1 , …x n , c'est-à-dire la taille de l'espace de vente au détail ;
  • valeurs à la fois connues et inconnues de x, pour lesquelles vous devez connaître la taille du chiffre d'affaires (pour plus d'informations sur leur emplacement sur la feuille de calcul, voir ci-dessous).

De plus, la formule contient la variable logique « Const ». Si vous saisissez 1 dans le champ correspondant, cela signifie que vous devrez effectuer les calculs en supposant que b = 0.

Si vous avez besoin de connaître la prévision pour plus d'une valeur x, après avoir entré la formule, vous ne devez pas appuyer sur "Entrée", mais vous devez taper la combinaison "Shift" + "Contrôle" + "Entrée" sur le clavier.

Certaines fonctionnalités

L'analyse de régression peut être accessible même aux nuls. La formule Excel permettant de prédire la valeur d'un tableau de variables inconnues (TREND) peut être utilisée même par ceux qui n'ont jamais entendu parler des moindres carrés. Il suffit de connaître quelques-unes des caractéristiques de son travail. En particulier:

  • Si vous organisez la plage de valeurs connues de la variable y dans une ligne ou une colonne, alors chaque ligne (colonne) avec des valeurs connues de x sera perçue par le programme comme une variable distincte.
  • Si une plage avec x connu n'est pas spécifiée dans la fenêtre TENDANCE, alors lors de l'utilisation de la fonction dans Excel, le programme la traitera comme un tableau composé d'entiers dont le nombre correspond à la plage avec les valeurs données du variable y.
  • Pour générer un tableau de valeurs « prédites », l’expression permettant de calculer la tendance doit être saisie sous forme de formule matricielle.
  • Si de nouvelles valeurs de x ne sont pas spécifiées, alors la fonction TREND les considère égales aux valeurs connues. S'ils ne sont pas spécifiés, alors le tableau 1 est pris comme argument ; 2 ; 3 ; 4;…, ce qui est proportionnel à la plage avec les paramètres y déjà spécifiés.
  • La plage contenant les nouvelles valeurs x doit avoir la même ou plusieurs lignes ou colonnes que la plage contenant les valeurs y données. Autrement dit, il doit être proportionnel aux variables indépendantes.
  • Un tableau avec des valeurs x connues peut contenir plusieurs variables. Cependant, si nous ne parlons que d'un seul, il est alors nécessaire que les plages avec les valeurs données de x et y soient proportionnelles. Dans le cas de plusieurs variables, il est nécessaire que la plage avec les valeurs y données tienne dans une colonne ou une ligne.

Fonction PRÉDICTION

Implémenté à l'aide de plusieurs fonctions. L’un d’eux s’appelle « PRÉDICTION ». Il est similaire à « TENDANCE », c’est à dire qu’il donne le résultat de calculs utilisant la méthode des moindres carrés. Cependant, seulement pour un X, pour lequel la valeur de Y est inconnue.

Vous connaissez désormais les formules dans Excel pour les nuls qui vous permettent de prédire la valeur future d'un indicateur particulier selon une tendance linéaire.

La tâche consiste à trouver les coefficients de dépendance linéaire auxquels la fonction de deux variables UN Et b prend la plus petite valeur. C'est-à-dire étant donné UN Et b la somme des carrés des écarts des données expérimentales par rapport à la droite trouvée sera la plus petite. C’est tout l’intérêt de la méthode des moindres carrés.

Ainsi, résoudre l’exemple revient à trouver l’extremum d’une fonction de deux variables.

Dériver des formules pour trouver des coefficients. Un système de deux équations à deux inconnues est compilé et résolu. Trouver les dérivées partielles d'une fonction par variables UN Et b, nous assimilons ces dérivées à zéro.

Nous résolvons le système d'équations résultant en utilisant n'importe quelle méthode (par exemple, la méthode de substitution ou la méthode Cramer) et obtenons des formules pour trouver les coefficients en utilisant la méthode des moindres carrés (LSM).

Donné UN Et b fonction prend la plus petite valeur.

C'est toute la méthode des moindres carrés. Formule pour trouver le paramètre un contient les sommes , , et le paramètre n- quantité de données expérimentales. Nous recommandons de calculer séparément les valeurs de ces montants. Coefficient b trouvé après calcul un.

Le principal domaine d'application de tels polynômes est le traitement de données expérimentales (construction de formules empiriques). Le fait est qu'un polynôme d'interpolation construit à partir de valeurs de fonction obtenues expérimentalement sera fortement influencé par le « bruit expérimental » ; de plus, lors de l'interpolation, les nœuds d'interpolation ne peuvent pas être répétés, c'est-à-dire Les résultats d’expériences répétées dans les mêmes conditions ne peuvent être utilisés. Le polynôme quadratique moyen atténue le bruit et vous permet d'utiliser les résultats de plusieurs expériences.

Intégration et différenciation numériques. Exemple.

Intégration numérique– calcul de la valeur d'une intégrale définie (généralement approximative). L'intégration numérique est comprise comme un ensemble de méthodes numériques permettant de trouver la valeur d'une certaine intégrale.

Différenciation numérique– un ensemble de méthodes pour calculer la valeur de la dérivée d'une fonction discrètement spécifiée.

L'intégration

Formulation du problème. Formulation mathématique du problème : il faut trouver la valeur d'une intégrale définie

où a, b sont finis, f(x) est continue sur [a, b].

Lors de la résolution de problèmes pratiques, il arrive souvent que l'intégrale soit peu pratique ou impossible à prendre analytiquement : elle peut ne pas être exprimée en fonctions élémentaires, l'intégrande peut être donnée sous forme de tableau, etc. Dans de tels cas, les méthodes d'intégration numérique sont utilisé. Les méthodes d'intégration numérique consistent à remplacer l'aire d'un trapèze courbe par une somme finie des aires de figures géométriques plus simples qui peuvent être calculées avec précision. En ce sens, ils parlent d’utiliser des formules en quadrature.

La plupart des méthodes utilisent une représentation de l'intégrale sous forme de somme finie (formule de quadrature) :

Les formules de quadrature sont basées sur l'idée de remplacer le graphique de l'intégrande sur le segment d'intégration par des fonctions de forme plus simple, qui peuvent facilement être intégrées analytiquement et donc facilement calculées. La tâche de construction de formules en quadrature est mise en œuvre le plus simplement pour les modèles mathématiques polynomiaux.

Trois groupes de méthodes peuvent être distingués :

1. Méthode avec division du segment d'intégration en intervalles égaux. Le partitionnement en intervalles se fait à l'avance, généralement les intervalles sont choisis égaux (pour faciliter le calcul de la fonction aux extrémités des intervalles). Calculer des aires et les résumer (méthodes rectangle, trapèze, Simpson).

2. Méthodes de partitionnement du segment d'intégration à l'aide de points spéciaux (méthode de Gauss).

3. Calcul d'intégrales à l'aide de nombres aléatoires (méthode de Monte Carlo).

Méthode rectangulaire. Supposons que la fonction (figure) doive être intégrée numériquement sur le segment. Divisez le segment en N intervalles égaux. L'aire de chacun des N trapèzes courbes peut être remplacée par l'aire d'un rectangle.

La largeur de tous les rectangles est la même et est égale à :

Pour sélectionner la hauteur des rectangles, vous pouvez sélectionner la valeur de la fonction sur la bordure gauche. Dans ce cas, la hauteur du premier rectangle sera f(a), le second - f(x 1),..., N-f(N-1).

Si nous prenons la valeur de la fonction sur la bordure droite pour sélectionner la hauteur du rectangle, alors dans ce cas la hauteur du premier rectangle sera f(x 1), le second - f(x 2), ... , N - f(x N).

Comme vous pouvez le constater, dans ce cas l'une des formules donne une approximation de l'intégrale avec un excès, et la seconde avec un déficit. Il existe une autre façon : utiliser la valeur de la fonction au milieu du segment d'intégration pour l'approximation :

Estimation de l'erreur absolue de la méthode du rectangle (milieu)

Estimation de l'erreur absolue des méthodes des rectangles gauche et droit.

Exemple. Calculer pour l'ensemble de l'intervalle et diviser l'intervalle en quatre sections

Solution. Le calcul analytique de cette intégrale donne I=arctg(1)–arctg(0)=0,7853981634. Dans notre cas:

1)h = 1 ; xo = 0 ; x1 = 1 ;

2) h = 0,25 (1/4) ; x0 = 0 ; x1 = 0,25 ; x2 = 0,5 ; x3 = 0,75 ; x4 = 1 ;

Calculons en utilisant la méthode du rectangle de gauche :

Calculons en utilisant la méthode du rectangle droit :

Calculons en utilisant la méthode du rectangle moyen :

Méthode trapézoïdale. Utiliser un polynôme du premier degré (une ligne droite passant par deux points) pour interpoler les résultats dans la formule trapézoïdale. Les extrémités du segment d'intégration sont prises comme nœuds d'interpolation. Ainsi, le trapèze curviligne est remplacé par un trapèze ordinaire dont l'aire peut être trouvée comme le produit de la moitié de la somme des bases et de la hauteur

Dans le cas de N segments d'intégration pour tous les nœuds, à l'exception des points extrêmes du segment, la valeur de la fonction sera incluse deux fois dans la somme totale (puisque les trapèzes adjacents ont un côté commun)

La formule du trapèze peut être obtenue en prenant la moitié de la somme des formules des rectangles le long des bords droit et gauche du segment :

Vérification de la stabilité de la solution. En règle générale, plus la longueur de chaque intervalle est courte, c'est-à-dire plus le nombre de ces intervalles est grand, moins la différence entre les valeurs approximatives et exactes de l'intégrale est grande. Cela est vrai pour la plupart des fonctions. Dans la méthode du trapèze, l'erreur dans le calcul de l'intégrale ϭ est approximativement proportionnelle au carré du pas d'intégration (ϭ ~ h 2). Ainsi, pour calculer l'intégrale d'une certaine fonction en termes de a, b, il est nécessaire de divisez le segment en N 0 intervalles et trouvez la somme des aires du trapèze. Ensuite, vous devez augmenter le nombre d'intervalles N 1, calculer à nouveau la somme du trapèze et comparer la valeur résultante avec le résultat précédent. Cela doit être répété jusqu'à ce que (N i) jusqu'à ce que la précision spécifiée du résultat soit atteinte (critère de convergence).

Pour les méthodes du rectangle et du trapèze, généralement à chaque étape d'itération, le nombre d'intervalles augmente de 2 fois (N i +1 = 2N i).

Critère de convergence :

Le principal avantage de la règle trapézoïdale est sa simplicité. Cependant, si une grande précision est requise lors du calcul de l’intégrale, cette méthode peut nécessiter trop d’itérations.

Erreur absolue de la méthode trapézoïdale est estimé comme
.

Exemple. Calculez une intégrale approximativement définie en utilisant la formule trapézoïdale.

a) Diviser le segment d'intégration en 3 parties.
b) Diviser le segment d'intégration en 5 parties.

Solution:
a) Selon la condition, le segment d'intégration doit être divisé en 3 parties, c'est-à-dire.
Calculons la longueur de chaque segment de partition : .

Ainsi, la formule générale des trapèzes est réduite à une taille agréable :

Enfin:

Permettez-moi de vous rappeler que la valeur résultante est une valeur approximative de la superficie.

b) Divisons le segment d'intégration en 5 parties égales, c'est-à-dire. En augmentant le nombre de segments, nous augmentons la précision des calculs.

Si , alors la formule trapézoïdale prend la forme suivante :

Trouvons l'étape de partition :
, c'est-à-dire que la longueur de chaque segment intermédiaire est de 0,6.

Lors de la finalisation de la tâche, il convient de formaliser tous les calculs à l'aide d'une table de calcul :

Dans la première ligne, nous écrivons « compteur »

Par conséquent:

Eh bien, il y a bien une précision, et sérieuse !
Si pour 3 segments de partition, alors pour 5 segments. Si vous prenez un segment encore plus grand => il sera encore plus précis.

La formule de Simpson. La formule trapézoïdale donne un résultat qui dépend fortement de la taille du pas h, ce qui affecte la précision du calcul d'une certaine intégrale, notamment dans les cas où la fonction n'est pas monotone. On peut supposer que la précision des calculs augmentera si, au lieu de segments droits remplaçant les fragments curvilignes du graphique de la fonction f(x), on utilise, par exemple, des fragments de paraboles donnés par trois points adjacents du graphique. Cette interprétation géométrique est à la base de la méthode de Simpson pour calculer l'intégrale définie. L'intervalle d'intégration entier a,b est divisé en N segments, la longueur du segment sera également égale à h=(b-a)/N.

La formule de Simpson ressemble à :

terme restant

À mesure que la longueur des segments augmente, la précision de la formule diminue, donc pour augmenter la précision, la formule composée de Simpson est utilisée. L'intervalle d'intégration entier est divisé en un nombre pair de segments identiques N, la longueur du segment sera également égale à h=(b-a)/N. La formule composée de Simpson est :

Dans la formule, les expressions entre parenthèses représentent respectivement les sommes des valeurs de l'intégrande aux extrémités des segments internes impairs et pairs.

Le reste de la formule de Simpson est proportionnel à la puissance quatrième du pas :

Exemple: En utilisant la règle de Simpson, calculez l'intégrale. (Solution exacte - 0,2)

Méthode Gauss

Formule de quadrature gaussienne. Le principe de base des formules de quadrature du deuxième type est visible sur la figure 1.12 : il faut placer les points de cette manière X 0 et X 1 à l'intérieur du segment [ un;b], de sorte que l'aire totale des « triangles » soit égale à l'aire du « segment ». Lors de l'utilisation de la formule de Gauss, le segment d'origine [ un;b] est réduit au segment [-1;1] en remplaçant la variable X sur

0.5∙(bun)∙t+ 0.5∙(b + un).

Alors , Où .

Un tel remplacement est possible si un Et b sont finis, et la fonction F(X) est continu sur [ un;b]. Formule de Gauss à n points x je, je=0,1,..,n-1 à l'intérieur du segment [ un;b]:

, (1.27)

je Et Un je pour divers n sont donnés dans des ouvrages de référence. Par exemple, quand n=2 UN 0 =UN 1 =1 ; à n=3: t 0 =t 2 "0,775, t 1 =0, UN 0 =A 2 "0,555, UN 1"0,889.

Formule de quadrature gaussienne

obtenu avec une fonction poids égale à l'unité p(x)= 1 et nœuds x je, qui sont les racines des polynômes de Legendre

Chances Un je facile à calculer à l'aide de formules

je=0,1,2,...n.

Les valeurs des nœuds et des coefficients pour n=2,3,4,5 sont données dans le tableau

Commande Nœuds Chances
n=2 x1=0 x0 =-x2=0.7745966692 Un 1=8/9 Un 0 =Un 2=5/9
n=3 x2 =-x1=0.3399810436 x3 =-x0=0.8611363116 Un 1 = Un 2=0.6521451549 Un 0 =Un 3=0.6521451549
n=4 X 2 = 0 X 3 = -X 1 = 0.5384693101 X 4 =-X 0 =0.9061798459 UN 0 =0.568888899 UN 3 =UN 1 =0.4786286705 UN 0 =UN 4 =0.2869268851
n=5 X 5 = -X 0 =0.9324695142 X 4 = -X 1 =0.6612093865 X 3 = -X 2 =0.2386191861 UN 5 =A 0 =0.1713244924 UN 4 =A 1 =0.3607615730 UN 3 =A 2 =0.4679139346

Exemple. Calculez la valeur en utilisant la formule de Gauss pour n=2:

Valeur exacte: .

L'algorithme de calcul de l'intégrale à l'aide de la formule de Gauss n'implique pas de doubler le nombre de microsegments, mais d'augmenter le nombre d'ordonnées de 1 et de comparer les valeurs obtenues de l'intégrale. L'avantage de la formule de Gauss est sa grande précision avec un nombre d'ordonnées relativement petit. Inconvénients : peu pratique pour les calculs manuels ; il est nécessaire de stocker les valeurs dans la mémoire de l'ordinateur je, Un je pour divers n.

L'erreur de la formule de quadrature gaussienne sur le segment sera Pour la formule du terme restant sera et le coefficient α N diminue rapidement avec la croissance N. Ici

Les formules gaussiennes offrent une grande précision même avec un petit nombre de nœuds (de 4 à 10). Dans ce cas, dans les calculs pratiques, le nombre de nœuds varie de plusieurs centaines à plusieurs milliers. Notons également que les poids des quadratures gaussiennes sont toujours positifs, ce qui assure la stabilité de l'algorithme de calcul des sommes

La méthode des moindres carrés (OLS) permet d'estimer diverses quantités en utilisant les résultats de nombreuses mesures contenant des erreurs aléatoires.

Caractéristiques des multinationales

L'idée principale de cette méthode est que la somme des erreurs quadratiques est considérée comme un critère de précision de la résolution du problème, qu'ils s'efforcent de minimiser. Lors de l'utilisation de cette méthode, des approches numériques et analytiques peuvent être utilisées.

En particulier, en tant qu'implémentation numérique, la méthode des moindres carrés consiste à prendre autant de mesures que possible d'une variable aléatoire inconnue. De plus, plus il y a de calculs, plus la solution sera précise. Sur la base de cet ensemble de calculs (données initiales), un autre ensemble de solutions estimées est obtenu, parmi lequel la meilleure est ensuite sélectionnée. Si l’ensemble des solutions est paramétré, alors la méthode des moindres carrés se résumera à trouver la valeur optimale des paramètres.

En tant qu'approche analytique de la mise en œuvre du LSM sur un ensemble de données initiales (mesures) et un ensemble attendu de solutions, une certaine (fonctionnelle) est déterminée, qui peut être exprimée par une formule obtenue comme une certaine hypothèse qui nécessite une confirmation. Dans ce cas, la méthode des moindres carrés revient à trouver le minimum de cette fonctionnelle sur l’ensemble des erreurs quadratiques des données originales.

Veuillez noter qu'il ne s'agit pas des erreurs elles-mêmes, mais des carrés des erreurs. Pourquoi? Le fait est que les écarts de mesures par rapport à la valeur exacte sont souvent positifs et négatifs. Lors de la détermination de la moyenne, une simple sommation peut conduire à une conclusion incorrecte sur la qualité de l'estimation, car l'annulation des valeurs positives et négatives réduira la puissance d'échantillonnage de plusieurs mesures. Et, par conséquent, l'exactitude de l'évaluation.

Pour éviter que cela ne se produise, les écarts au carré sont additionnés. De plus, afin d'égaliser la dimension de la valeur mesurée et l'estimation finale, la somme des erreurs quadratiques est extraite

Quelques applications multinationales

MNC est largement utilisé dans divers domaines. Par exemple, dans la théorie des probabilités et les statistiques mathématiques, la méthode est utilisée pour déterminer une caractéristique d'une variable aléatoire telle que l'écart type, qui détermine la largeur de la plage de valeurs de la variable aléatoire.

L'approximation des données expérimentales est une méthode basée sur le remplacement des données obtenues expérimentalement par une fonction analytique qui se rapproche le plus ou coïncide le plus aux points nodaux avec les valeurs d'origine (données obtenues lors d'une expérience ou d'une expérience). Actuellement, il existe deux manières de définir une fonction analytique :

En construisant un polynôme d'interpolation à n degrés qui passe directement à travers tous les points un tableau de données donné. Dans ce cas, la fonction d'approximation se présente sous la forme : d'un polynôme d'interpolation sous forme de Lagrange ou d'un polynôme d'interpolation sous forme de Newton.

En construisant un polynôme d'approximation de n degrés qui passe à proximité immédiate des pointsà partir d'un tableau de données donné. Ainsi, la fonction d'approximation lisse tous les bruits aléatoires (ou erreurs) pouvant survenir au cours de l'expérience : les valeurs mesurées au cours de l'expérience dépendent de facteurs aléatoires qui fluctuent selon leurs propres lois aléatoires (erreurs de mesure ou d'instrument, imprécision ou expérience les erreurs). Dans ce cas, la fonction d'approximation est déterminée par la méthode des moindres carrés.

Méthode des moindres carrés(dans la littérature anglaise Ordinary Least Squares, OLS) est une méthode mathématique basée sur la détermination d'une fonction d'approximation construite à proximité la plus proche des points d'un ensemble donné de données expérimentales. La proximité des fonctions d'origine et d'approximation F(x) est déterminée par une mesure numérique, à savoir : la somme des carrés des écarts des données expérimentales par rapport à la courbe d'approximation F(x) doit être la plus petite.

Courbe approximative construite selon la méthode des moindres carrés

La méthode des moindres carrés est utilisée :

Résoudre des systèmes d'équations surdéterminés lorsque le nombre d'équations dépasse le nombre d'inconnues ;

Trouver une solution dans le cas de systèmes d'équations non linéaires ordinaires (non surdéterminés) ;

Pour approximer les valeurs de points avec une fonction d'approximation.

La fonction d'approximation utilisant la méthode des moindres carrés est déterminée à partir de la condition de la somme minimale des écarts carrés de la fonction d'approximation calculée à partir d'un ensemble donné de données expérimentales. Ce critère de la méthode des moindres carrés s’écrit sous la forme suivante :

Les valeurs de la fonction d'approximation calculée aux points nodaux,

Un ensemble donné de données expérimentales aux points nodaux.

Le critère quadratique possède un certain nombre de « bonnes » propriétés, telles que la différentiabilité, fournissant une solution unique au problème d'approximation avec des fonctions d'approximation polynomiales.

Selon les conditions du problème, la fonction d'approximation est un polynôme de degré m

Le degré de la fonction d'approximation ne dépend pas du nombre de points nodaux, mais sa dimension doit toujours être inférieure à la dimension (nombre de points) d'un tableau de données expérimentales donné.

∙ Si le degré de la fonction d'approximation est m=1, alors nous approchons la fonction tabulaire avec une ligne droite (régression linéaire).

∙ Si le degré de la fonction d'approximation est m=2, alors nous approchons la fonction de table avec une parabole quadratique (approximation quadratique).

∙ Si le degré de la fonction d'approximation est m=3, alors on approxime la fonction de table avec une parabole cubique (approximation cubique).

Dans le cas général, lorsqu'il est nécessaire de construire un polynôme d'approximation de degré m pour des valeurs de tableau données, la condition du minimum de la somme des écarts carrés sur tous les points nodaux est réécrite sous la forme suivante :

- coefficients inconnus du polynôme d'approximation de degré m ;

Le nombre de valeurs de table spécifiées.

Une condition nécessaire à l'existence d'un minimum d'une fonction est l'égalité à zéro de ses dérivées partielles par rapport aux variables inconnues . En conséquence, nous obtenons le système d’équations suivant :

Transformons le système d'équations linéaire résultant : ouvrez les parenthèses et déplacez les termes libres vers la droite de l'expression. En conséquence, le système résultant d’expressions algébriques linéaires s’écrira sous la forme suivante :

Ce système d'expressions algébriques linéaires peut être réécrit sous forme matricielle :

En conséquence, un système d’équations linéaires de dimension m+1 a été obtenu, composé de m+1 inconnues. Ce système peut être résolu en utilisant n'importe quelle méthode de résolution d'équations algébriques linéaires (par exemple, la méthode gaussienne). À la suite de la solution, des paramètres inconnus de la fonction d'approximation seront trouvés qui fournissent la somme minimale des écarts carrés de la fonction d'approximation par rapport aux données d'origine, c'est-à-dire meilleure approximation quadratique possible. Il ne faut pas oublier que si même une valeur des données source change, tous les coefficients changeront de valeur, puisqu'ils sont entièrement déterminés par les données source.

Rapprochement des données sources par dépendance linéaire

(régression linéaire)

A titre d'exemple, considérons la technique de détermination de la fonction d'approximation, qui est spécifiée sous la forme d'une dépendance linéaire. Conformément à la méthode des moindres carrés, la condition du minimum de la somme des écarts au carré s'écrit sous la forme suivante :

Coordonnées des nœuds du tableau ;

Coefficients inconnus de la fonction d'approximation, spécifiée comme dépendance linéaire.

Une condition nécessaire à l'existence d'un minimum d'une fonction est l'égalité à zéro de ses dérivées partielles par rapport aux variables inconnues. En conséquence, nous obtenons le système d’équations suivant :

Transformons le système d'équations linéaire résultant.

Nous résolvons le système d'équations linéaires résultant. Les coefficients de la fonction d’approximation sous forme analytique sont déterminés comme suit (méthode de Cramer) :

Ces coefficients assurent la construction d'une fonction d'approximation linéaire conformément au critère de minimisation de la somme des carrés de la fonction d'approximation à partir des valeurs tabulaires données (données expérimentales).

Algorithme de mise en œuvre de la méthode des moindres carrés

1. Données initiales :

Un tableau de données expérimentales avec le nombre de mesures N est spécifié

Le degré du polynôme d'approximation (m) est spécifié

2. Algorithme de calcul :

2.1. Les coefficients sont déterminés pour construire un système d'équations avec des dimensions

Coefficients du système d'équations (côté gauche de l'équation)

- indice du numéro de colonne de la matrice carrée du système d'équations

Termes libres d'un système d'équations linéaires (côté droit de l'équation)

- indice du numéro de ligne de la matrice carrée du système d'équations

2.2. Formation d'un système d'équations linéaires de dimension .

2.3. Résoudre un système d'équations linéaires pour déterminer les coefficients inconnus d'un polynôme approximatif de degré m.

2.4. Détermination de la somme des écarts carrés du polynôme d'approximation par rapport aux valeurs d'origine à tous les points nodaux

La valeur trouvée de la somme des écarts au carré est le minimum possible.

Approximation à l'aide d'autres fonctions

Il convient de noter que lors de l'approximation des données originales conformément à la méthode des moindres carrés, la fonction logarithmique, la fonction exponentielle et la fonction puissance sont parfois utilisées comme fonction d'approximation.

approximation logarithmique

Considérons le cas où la fonction d'approximation est donnée par une fonction logarithmique de la forme :

Méthode des moindres carrés

Méthode des moindres carrés ( MCO, MCO, moindres carrés ordinaires) - l'une des méthodes de base d'analyse de régression pour estimer les paramètres inconnus des modèles de régression à l'aide d'échantillons de données. La méthode est basée sur la minimisation de la somme des carrés des résidus de régression.

Il convient de noter que la méthode des moindres carrés elle-même peut être appelée une méthode pour résoudre un problème dans n'importe quel domaine si la solution réside ou satisfait à un critère de minimisation de la somme des carrés de certaines fonctions des variables requises. Par conséquent, la méthode des moindres carrés peut également être utilisée pour une représentation approximative (approximation) d'une fonction donnée par d'autres fonctions (plus simples), lors de la recherche d'un ensemble de quantités qui satisfont à des équations ou à des contraintes, dont le nombre dépasse le nombre de ces quantités. , etc.

L’essence de la multinationale

Soit un modèle (paramétrique) d'une relation probabiliste (de régression) entre la variable (expliquée) oui et de nombreux facteurs (variables explicatives) X

où est le vecteur des paramètres de modèle inconnus

- erreur de modèle aléatoire.

Qu'il y ait également des exemples d'observations des valeurs de ces variables. Soit le numéro d'observation (). Viennent ensuite les valeurs des variables de la ème observation. Ensuite, pour des valeurs données des paramètres b, il est possible de calculer les valeurs théoriques (modèles) de la variable expliquée y :

La taille des résidus dépend des valeurs des paramètres b.

L'essence de la méthode des moindres carrés (ordinaire, classique) est de trouver des paramètres b pour lesquels la somme des carrés des résidus (eng. Somme résiduelle des carrés) sera minime :

Dans le cas général, ce problème peut être résolu par des méthodes d'optimisation (minimisation) numérique. Dans ce cas, ils parlent de moindres carrés non linéaires(NLS ou NLLS - anglais) Moindres carrés non linéaires). Dans de nombreux cas, il est possible d'obtenir une solution analytique. Pour résoudre le problème de minimisation, il faut trouver les points stationnaires de la fonction en la différenciant par rapport aux paramètres inconnus b, en assimilant les dérivées à zéro et en résolvant le système d'équations résultant :

Si les erreurs aléatoires du modèle sont normalement distribuées, ont la même variance et ne sont pas corrélées, les estimations des paramètres OLS sont identiques aux estimations du maximum de vraisemblance (MLM).

OLS dans le cas d'un modèle linéaire

Soit la dépendance de régression linéaire :

Laisser oui est un vecteur colonne d'observations de la variable expliquée, et est une matrice d'observations factorielles (les lignes de la matrice sont les vecteurs de valeurs de facteurs dans une observation donnée, les colonnes sont le vecteur de valeurs d'un facteur donné dans toutes les observations). La représentation matricielle du modèle linéaire est :

Alors le vecteur des estimations de la variable expliquée et le vecteur des résidus de régression seront égaux

En conséquence, la somme des carrés des résidus de régression sera égale à

En différenciant cette fonction par rapport au vecteur de paramètres et en assimilant les dérivées à zéro, on obtient un système d'équations (sous forme matricielle) :

.

La solution de ce système d'équations donne la formule générale des estimations des moindres carrés pour un modèle linéaire :

À des fins analytiques, cette dernière représentation de cette formule est utile. Si dans un modèle de régression les données centré, alors dans cette représentation la première matrice a la signification d'un échantillon de matrice de covariance de facteurs, et la seconde est un vecteur de covariances de facteurs avec la variable dépendante. Si en plus les données sont également normaliséà MSE (c'est-à-dire, en fin de compte standardisé), alors la première matrice a la signification d'une matrice de corrélation d'échantillons de facteurs, le deuxième vecteur - un vecteur de corrélations d'échantillons de facteurs avec la variable dépendante.

Une propriété importante des estimations MCO pour les modèles avec constante- la droite de la régression construite passe par le centre de gravité des données de l'échantillon, c'est-à-dire que l'égalité est satisfaite :

En particulier, dans le cas extrême, lorsque le seul régresseur est une constante, nous constatons que l'estimation MCO du seul paramètre (la constante elle-même) est égale à la valeur moyenne de la variable expliquée. C'est-à-dire que la moyenne arithmétique, connue pour ses bonnes propriétés issues des lois des grands nombres, est également une estimation des moindres carrés - elle satisfait au critère de la somme minimale des écarts carrés par rapport à celle-ci.

Exemple : régression la plus simple (par paires)

Dans le cas de la régression linéaire appariée, les formules de calcul sont simplifiées (on peut se passer de l'algèbre matricielle) :

Propriétés des estimateurs OLS

Tout d’abord, nous notons que pour les modèles linéaires, les estimations MCO sont des estimations linéaires, comme le découle de la formule ci-dessus. Pour les estimations MCO non biaisées, il est nécessaire et suffisant de remplir la condition la plus importante de l’analyse de régression : l’espérance mathématique d’une erreur aléatoire, conditionnelle aux facteurs, doit être égale à zéro. Cette condition est notamment remplie si

  1. l'espérance mathématique des erreurs aléatoires est nulle, et
  2. les facteurs et les erreurs aléatoires sont des variables aléatoires indépendantes.

La deuxième condition – la condition d’exogénéité des facteurs – est fondamentale. Si cette propriété n'est pas remplie, alors nous pouvons supposer que presque toutes les estimations seront extrêmement insatisfaisantes : elles ne seront même pas cohérentes (c'est-à-dire que même une très grande quantité de données ne nous permet pas d'obtenir des estimations de haute qualité dans ce cas ). Dans le cas classique, une hypothèse plus forte est faite sur le déterminisme des facteurs, par opposition à une erreur aléatoire, ce qui signifie automatiquement que la condition d'exogénéité est remplie. Dans le cas général, pour la cohérence des estimations, il suffit de satisfaire la condition d'exogénéité ainsi que la convergence de la matrice vers une matrice non singulière à mesure que la taille de l'échantillon augmente jusqu'à l'infini.

Pour qu'en plus de la cohérence et de l'impartialité, les estimations des moindres carrés (ordinaires) soient également efficaces (les meilleures de la classe des estimations linéaires sans biais), des propriétés supplémentaires d'erreur aléatoire doivent être remplies :

Ces hypothèses peuvent être formulées pour la matrice de covariance du vecteur d'erreur aléatoire

Un modèle linéaire qui satisfait à ces conditions est appelé classique. Les estimations MCO pour la régression linéaire classique sont impartiales, cohérentes et constituent les estimations les plus efficaces de la classe de toutes les estimations linéaires non biaisées (dans la littérature anglaise, l'abréviation est parfois utilisée BLEU (Meilleur estimateur linéaire sans évaluation) - la meilleure estimation linéaire sans biais ; dans la littérature russe, le théorème de Gauss-Markov est plus souvent cité). Comme il est facile de le montrer, la matrice de covariance du vecteur d'estimations de coefficients sera égale à :

MCO généralisé

La méthode des moindres carrés permet une large généralisation. Au lieu de minimiser la somme des carrés des résidus, on peut minimiser une forme quadratique définie positive du vecteur des résidus, où est une matrice de poids défini positif symétrique. Les moindres carrés conventionnels sont un cas particulier de cette approche, où la matrice de poids est proportionnelle à la matrice d'identité. Comme le montre la théorie des matrices symétriques (ou opérateurs), pour de telles matrices, il existe une décomposition. Par conséquent, la fonctionnelle spécifiée peut être représentée comme suit, c'est-à-dire que cette fonctionnelle peut être représentée comme la somme des carrés de certains « restes » transformés. Ainsi, on peut distinguer une classe de méthodes des moindres carrés - les méthodes LS (Least Squares).

Il a été prouvé (théorème d'Aitken) que pour un modèle de régression linéaire généralisée (dans lequel aucune restriction n'est imposée sur la matrice de covariance des erreurs aléatoires), les plus efficaces (dans la classe des estimations linéaires non biaisées) sont les soi-disant estimations. Moindres carrés généralisés (GLS - Moindres carrés généralisés)- Méthode LS avec une matrice de poids égale à la matrice de covariance inverse des erreurs aléatoires : .

On peut montrer que la formule pour les estimations GLS des paramètres d'un modèle linéaire a la forme

La matrice de covariance de ces estimations sera donc égale à

En fait, l’essence de l’OLS réside dans une certaine transformation (linéaire) (P) des données originales et dans l’application de l’OLS ordinaire aux données transformées. Le but de cette transformation est que pour les données transformées, les erreurs aléatoires satisfont déjà aux hypothèses classiques.

MCO pondéré

Dans le cas d'une matrice de poids diagonale (et donc d'une matrice de covariance d'erreurs aléatoires), nous avons ce que l'on appelle les moindres carrés pondérés (WLS). Dans ce cas, la somme des carrés pondérée des résidus du modèle est minimisée, c'est-à-dire que chaque observation reçoit un « poids » inversement proportionnel à la variance de l'erreur aléatoire dans cette observation : . En fait, les données sont transformées en pondérant les observations (en divisant par un montant proportionnel à l'écart type estimé des erreurs aléatoires), et l'OLS ordinaire est appliqué aux données pondérées.

Quelques cas particuliers d'utilisation de MNC en pratique

Approximation de la dépendance linéaire

Considérons le cas où, à la suite de l'étude de la dépendance d'une certaine quantité scalaire sur une certaine quantité scalaire (cela pourrait être, par exemple, la dépendance de la tension sur l'intensité du courant : , où est une valeur constante, la résistance de le conducteur), des mesures de ces grandeurs ont été effectuées, à la suite desquelles les valeurs et leurs valeurs correspondantes. Les données de mesure doivent être enregistrées dans un tableau.

Tableau. Résultats de mesure.

Numéro de mesure.
1
2
3
4
5
6

La question est : quelle valeur du coefficient peut-on choisir pour décrire au mieux la dépendance ? Selon la méthode des moindres carrés, cette valeur doit être telle que la somme des carrés des écarts des valeurs par rapport aux valeurs

était minime

La somme des écarts au carré a un extremum - un minimum, ce qui nous permet d'utiliser cette formule. Retrouvons à partir de cette formule la valeur du coefficient. Pour ce faire, on transforme son côté gauche comme suit :

La dernière formule nous permet de trouver la valeur du coefficient, ce qui était requis dans le problème.

Histoire

Jusqu'au début du 19ème siècle. les scientifiques n'avaient pas certaines règles pour résoudre un système d'équations dans lequel le nombre d'inconnues est inférieur au nombre d'équations ; Jusqu'à cette époque, on utilisait des techniques privées qui dépendaient du type d'équations et de l'esprit des calculateurs, et donc différents calculateurs, basés sur les mêmes données d'observation, arrivaient à des conclusions différentes. Gauss (1795) fut le premier à utiliser la méthode, et Legendre (1805) la découvrit et la publia indépendamment sous son nom moderne (français. Méthode des moindres carrés ) . Laplace a lié la méthode à la théorie des probabilités, et le mathématicien américain Adrain (1808) a examiné ses applications en théorie des probabilités. La méthode a été largement répandue et améliorée grâce à des recherches ultérieures menées par Encke, Bessel, Hansen et d'autres.

Utilisations alternatives de l'OLS

L'idée de la méthode des moindres carrés peut également être utilisée dans d'autres cas non directement liés à l'analyse de régression. Le fait est que la somme des carrés est l’une des mesures de proximité les plus courantes pour les vecteurs (métrique euclidienne dans les espaces de dimension finie).

Une application est la « solution » de systèmes d’équations linéaires dans lesquels le nombre d’équations est supérieur au nombre de variables.

où la matrice n'est pas carrée, mais rectangulaire de taille .

Un tel système d’équations, dans le cas général, n’a pas de solution (si le rang est effectivement supérieur au nombre de variables). Par conséquent, ce système ne peut être « résolu » que dans le sens de choisir un tel vecteur pour minimiser la « distance » entre les vecteurs et . Pour ce faire, vous pouvez appliquer le critère de minimisation de la somme des carrés des différences entre les côtés gauche et droit des équations système, c'est-à-dire. Il est facile de montrer que la résolution de ce problème de minimisation conduit à résoudre le système d’équations suivant