Statistique à double variable

Elle étudie la relation entre deux variables afin de comprendre comment elles varient ensemble.
On distingue souvent :
- Variable dépendante : ce qu’on cherche à expliquer.
- Variable indépendante : ce qui peut influencer la variable dépendante.

Statistiques à deux variables

I. Position du problème

Soit une série statistique double $(x_i, y_i)$ pour $n$ individus.
Le nuage de points est l'ensemble des points $M_i(x_i, y_i)$ dans un repère orthogonal.

Exemple : nombre d'adhérents d'un club de rugby (2001–2006)
\[
\begin{array}{c|cccccc}
x_i & 1 & 2 & 3 & 4 & 5 & 6 \\
\hline
y_i & 70 & 90 & 115 & 140 & 170 & 220
\end{array}
\]
Le point moyen $G(\bar x, \bar y)$ a pour coordonnées :
\[
\bar x = \frac{1}{n}\sum_{i=1}^n x_i, \qquad
\bar y = \frac{1}{n}\sum_{i=1}^n y_i.
\]
Pour l'exemple :
$
G_1(2\,;\,91,7) \text{ (premiers trois points)},$ $G_2(5\,;\,176,7) \text{ (trois derniers)},$ $G(3,5\,;\,134,2).$

II. Ajustements

1. Méthode de Mayer

Droite passant par deux points moyens du nuage.
Pour $G_1$ et $G_2$ :
$a = \frac{176,7 - 91,7}{5-2} = 28,3,$ $b = 91,7 - 28,3\times 2 = 35,1,$
d'où $D_1 : y = 28,3x + 35,1$.

2. Méthode des moindres carrés

La droite de régression de $y$ en $x$ minimise $\sum [y_i - (ax_i + b)]^2$.
Son équation est $y = ax + b$ avec
\[
a = \frac{\sigma_{xy}}{\sigma_x^2},\qquad b = \bar y - a\bar x,
\]
où la covariance $\displaystyle \sigma_{xy} =$ $\frac{1}{n}\sum (x_i-\bar x)(y_i-\bar y)
$ $= \frac{1}{n}\sum x_i y_i - \bar x \bar y$.

Pour l'exemple (calculatrice) : $D_2 : y = 29x + 32,7$.

3. Ajustement exponentiel

On pose $z = \ln y$. Le tableau devient :
\[
\begin{array}{c|c}
x_i & z_i \\
\hline
1 & 4,248\\
2 & 4,500\\
3 & 4,745\\
4 & 4,942\\
5 & 5,136\\
6 & 4,394\\
\end{array}
\]
La droite des moindres carrés pour $z$ en $x$ : $z = 0,224x + 4,045$.
En revenant à $y$ :
$\ln y = 0,224x + 4,045 \;\Longrightarrow$ $y = e^{4,045}\, e^{0,224x} $ $= 57,111 \times 1,251^x.$

4. Comparaison des ajustements

Prévision pour $x=7$ (année 2007) :

Mayer : $y = 28,3\times 7 + 35,1$ $ = 233,2 \approx 233$
Moindres carrés : $y = 29\times 7 + 32,7 = 235,7$ $ \approx 236 $
Exponentiel : $y = 57,111 \times 1,251^7$ $\approx 274$

La valeur réelle est 280, donc l'ajustement exponentiel est le plus pertinent.

III. Coefficient de corrélation linéaire

\[
r = \frac{\sigma_{xy}}{\sigma_x \,\sigma_y}.
\]
$|r|$ proche de 1 indique un bon ajustement linéaire ; $r = \pm 1$ correspond à des points alignés.
Dans l'exemple :
\[
r_{\text{affine}} \approx 0,987,\qquad
r_{\text{exp}} \approx 0,999,
\]
confirmant la supériorité de l'ajustement exponentiel.

Pour plus de détails, consulter le PDF ci-joint.

Statistique à double variable

Statistiques à deux variables

I. Position du problème

II. Ajustements

1. Méthode de Mayer

2. Méthode des moindres carrés

3. Ajustement exponentiel

4. Comparaison des ajustements

III. Coefficient de corrélation linéaire

Testez vos connaissances

1. Dans une série statistique à deux variables $(x_i, y_i)$ pour $i=1,\dots,n$, le point moyen $G$ a pour coordonnées :
( Indication : Le point moyen est la moyenne des coordonnées : $x_G = \frac{1}{n}\sum x_i$, $y_G = \frac{1}{n}\sum y_i$. )

2. Le coefficient de corrélation linéaire $r$ d’une série statistique double vérifie :
(Indication : Le coefficient de corrélation mesure l’intensité et le sens de la liaison linéaire ; il est toujours compris entre $-1$ et $1$. )

3. On considère les données suivantes : $(x_i, y_i) = (1,70), (2,90), (3,115)$. Les coordonnées du point moyen $G_1$ de ces trois points sont :
(Indication : $x_{G_1} = \frac{1+2+3}{3}=2$, $y_{G_1} = \frac{70+90+115}{3}=91,\overline{6}\approx 91,7$. )

4. Dans la méthode d’ajustement exponentiel, on pose $z = \ln y$. Après avoir déterminé la droite de régression de $z$ en $x$ par les moindres carrés : $z = ax + b$, la relation entre $y$ et $x$ est :
( Indication : De $\ln y = a x + b$, on déduit $y = e^{a x + b} = e^b \cdot e^{a x}$. )

5. Un coefficient de corrélation $r = 0,987$ indique que :
( Indication : Plus $|r|$ est proche de 1, plus la liaison linéaire est forte. $r>0$ indique une corrélation positive. )

6. Soit la droite de régression de $y$ en $x$ obtenue par la méthode des moindres carrés : $y = a x + b$. Laquelle des propriétés suivantes est toujours vraie ?
( Indication : Propriété fondamentale : la droite de régression passe toujours par le point moyen $(\bar{x}, \bar{y})$. )

9. La covariance peut aussi se calculer à l’aide de la formule :
(Indication : Formule de Huygens pour la covariance : $\sigma_{xy} = \frac{1}{n}\sum x_i y_i - \bar{x}\bar{y}$. )

10. Le problème de l’ajustement d’un nuage de points consiste à :
( Indication : L’objectif est d’établir un modèle reliant $x$ et $y$ pour effectuer des prévisions. )

Résultat : /

Avis et commentaires

Laisser un commentaire

Statistique à double variable

Statistiques à deux variables

I. Position du problème

II. Ajustements

1. Méthode de Mayer

2. Méthode des moindres carrés

3. Ajustement exponentiel

4. Comparaison des ajustements

III. Coefficient de corrélation linéaire

Testez vos connaissances

1. Dans une série statistique à deux variables $(x_i, y_i)$ pour $i=1,\dots,n$, le point moyen $G$ a pour coordonnées : ( Indication : Le point moyen est la moyenne des coordonnées : $x_G = \frac{1}{n}\sum x_i$, $y_G = \frac{1}{n}\sum y_i$. )

2. Le coefficient de corrélation linéaire $r$ d’une série statistique double vérifie : (Indication : Le coefficient de corrélation mesure l’intensité et le sens de la liaison linéaire ; il est toujours compris entre $-1$ et $1$. )

3. On considère les données suivantes : $(x_i, y_i) = (1,70), (2,90), (3,115)$. Les coordonnées du point moyen $G_1$ de ces trois points sont : (Indication : $x_{G_1} = \frac{1+2+3}{3}=2$, $y_{G_1} = \frac{70+90+115}{3}=91,\overline{6}\approx 91,7$. )

4. Dans la méthode d’ajustement exponentiel, on pose $z = \ln y$. Après avoir déterminé la droite de régression de $z$ en $x$ par les moindres carrés : $z = ax + b$, la relation entre $y$ et $x$ est : ( Indication : De $\ln y = a x + b$, on déduit $y = e^{a x + b} = e^b \cdot e^{a x}$. )

5. Un coefficient de corrélation $r = 0,987$ indique que : ( Indication : Plus $|r|$ est proche de 1, plus la liaison linéaire est forte. $r>0$ indique une corrélation positive. )

6. Soit la droite de régression de $y$ en $x$ obtenue par la méthode des moindres carrés : $y = a x + b$. Laquelle des propriétés suivantes est toujours vraie ? ( Indication : Propriété fondamentale : la droite de régression passe toujours par le point moyen $(\bar{x}, \bar{y})$. )

9. La covariance peut aussi se calculer à l’aide de la formule : (Indication : Formule de Huygens pour la covariance : $\sigma_{xy} = \frac{1}{n}\sum x_i y_i - \bar{x}\bar{y}$. )

10. Le problème de l’ajustement d’un nuage de points consiste à : ( Indication : L’objectif est d’établir un modèle reliant $x$ et $y$ pour effectuer des prévisions. )

Résultat : /

Avis et commentaires

Laisser un commentaire

1. Dans une série statistique à deux variables $(x_i, y_i)$ pour $i=1,\dots,n$, le point moyen $G$ a pour coordonnées :
( Indication : Le point moyen est la moyenne des coordonnées : $x_G = \frac{1}{n}\sum x_i$, $y_G = \frac{1}{n}\sum y_i$. )

2. Le coefficient de corrélation linéaire $r$ d’une série statistique double vérifie :
(Indication : Le coefficient de corrélation mesure l’intensité et le sens de la liaison linéaire ; il est toujours compris entre $-1$ et $1$. )

3. On considère les données suivantes : $(x_i, y_i) = (1,70), (2,90), (3,115)$. Les coordonnées du point moyen $G_1$ de ces trois points sont :
(Indication : $x_{G_1} = \frac{1+2+3}{3}=2$, $y_{G_1} = \frac{70+90+115}{3}=91,\overline{6}\approx 91,7$. )

4. Dans la méthode d’ajustement exponentiel, on pose $z = \ln y$. Après avoir déterminé la droite de régression de $z$ en $x$ par les moindres carrés : $z = ax + b$, la relation entre $y$ et $x$ est :
( Indication : De $\ln y = a x + b$, on déduit $y = e^{a x + b} = e^b \cdot e^{a x}$. )

5. Un coefficient de corrélation $r = 0,987$ indique que :
( Indication : Plus $|r|$ est proche de 1, plus la liaison linéaire est forte. $r>0$ indique une corrélation positive. )

6. Soit la droite de régression de $y$ en $x$ obtenue par la méthode des moindres carrés : $y = a x + b$. Laquelle des propriétés suivantes est toujours vraie ?
( Indication : Propriété fondamentale : la droite de régression passe toujours par le point moyen $(\bar{x}, \bar{y})$. )

9. La covariance peut aussi se calculer à l’aide de la formule :
(Indication : Formule de Huygens pour la covariance : $\sigma_{xy} = \frac{1}{n}\sum x_i y_i - \bar{x}\bar{y}$. )

10. Le problème de l’ajustement d’un nuage de points consiste à :
( Indication : L’objectif est d’établir un modèle reliant $x$ et $y$ pour effectuer des prévisions. )