Statistique à double variable – Maths BTS
Retour aux cours
Statistiques

Statistique à double variable

Elle étudie la relation entre deux variables afin de comprendre comment elles varient ensemble.
On distingue souvent :
- Variable dépendante : ce qu’on cherche à expliquer.
- Variable indépendante : ce qui peut influencer la variable dépendante.

Statistiques à deux variables


I. Position du problème


Soit une série statistique double $(x_i, y_i)$ pour $n$ individus.
Le nuage de points est l'ensemble des points $M_i(x_i, y_i)$ dans un repère orthogonal.

Exemple : nombre d'adhérents d'un club de rugby (2001–2006)
\[
\begin{array}{c|cccccc}
x_i & 1 & 2 & 3 & 4 & 5 & 6 \\
\hline
y_i & 70 & 90 & 115 & 140 & 170 & 220
\end{array}
\]
Le point moyen $G(\bar x, \bar y)$ a pour coordonnées :
\[
\bar x = \frac{1}{n}\sum_{i=1}^n x_i, \qquad
\bar y = \frac{1}{n}\sum_{i=1}^n y_i.
\]
Pour l'exemple :
\(
G_1(2\,;\,91,7) \text{ (premiers trois points)},\) \(G_2(5\,;\,176,7) \text{ (trois derniers)},\) \(G(3,5\,;\,134,2).\)

II. Ajustements


1. Méthode de Mayer


Droite passant par deux points moyens du nuage.
Pour $G_1$ et $G_2$ :
\(a = \frac{176,7 - 91,7}{5-2} = 28,3,\) \(b = 91,7 - 28,3\times 2 = 35,1,\)
d'où $D_1 : y = 28,3x + 35,1$.

2. Méthode des moindres carrés


La droite de régression de $y$ en $x$ minimise $\sum [y_i - (ax_i + b)]^2$.
Son équation est $y = ax + b$ avec
\[
a = \frac{\sigma_{xy}}{\sigma_x^2},\qquad b = \bar y - a\bar x,
\]
où la covariance $\displaystyle \sigma_{xy} =$ $\frac{1}{n}\sum (x_i-\bar x)(y_i-\bar y)
$ $= \frac{1}{n}\sum x_i y_i - \bar x \bar y$.

Pour l'exemple (calculatrice) : $D_2 : y = 29x + 32,7$.

3. Ajustement exponentiel


On pose $z = \ln y$. Le tableau devient :
\[
\begin{array}{c|c}
x_i & z_i \\
\hline
1 & 4,248\\
2 & 4,500\\
3 & 4,745\\
4 & 4,942\\
5 & 5,136\\
6 & 4,394\\
\end{array}
\]
La droite des moindres carrés pour $z$ en $x$ : $z = 0,224x + 4,045$.
En revenant à $y$ :
\(\ln y = 0,224x + 4,045 \;\Longrightarrow\) \(y = e^{4,045}\, e^{0,224x} \) \(= 57,111 \times 1,251^x.\)

4. Comparaison des ajustements


Prévision pour $x=7$ (année 2007) :

Mayer : \(y = 28,3\times 7 + 35,1\) \( = 233,2 \approx 233\)
Moindres carrés : \(y = 29\times 7 + 32,7 = 235,7\) \( \approx 236 \)
Exponentiel : \(y = 57,111 \times 1,251^7\) \(\approx 274\)

La valeur réelle est 280, donc l'ajustement exponentiel est le plus pertinent.

III. Coefficient de corrélation linéaire


\[
r = \frac{\sigma_{xy}}{\sigma_x \,\sigma_y}.
\]
$|r|$ proche de 1 indique un bon ajustement linéaire ; $r = \pm 1$ correspond à des points alignés.
Dans l'exemple :
\[
r_{\text{affine}} \approx 0,987,\qquad
r_{\text{exp}} \approx 0,999,
\]
confirmant la supériorité de l'ajustement exponentiel.
Pour plus de détails, consulter le PDF ci-joint.
Discuter sur le forum

Testez vos connaissances

Répondez aux questions ci-dessous, puis cliquez sur « Soumettre ».

1. Dans une série statistique à deux variables $(x_i, y_i)$ pour $i=1,\dots,n$, le point moyen $G$ a pour coordonnées :

( Indication : Le point moyen est la moyenne des coordonnées : $x_G = \frac{1}{n}\sum x_i$, $y_G = \frac{1}{n}\sum y_i$. )

2. Le coefficient de corrélation linéaire $r$ d’une série statistique double vérifie :

(Indication : Le coefficient de corrélation mesure l’intensité et le sens de la liaison linéaire ; il est toujours compris entre $-1$ et $1$. )

3. On considère les données suivantes : $(x_i, y_i) = (1,70), (2,90), (3,115)$. Les coordonnées du point moyen $G_1$ de ces trois points sont :

(Indication : $x_{G_1} = \frac{1+2+3}{3}=2$, $y_{G_1} = \frac{70+90+115}{3}=91,\overline{6}\approx 91,7$. )

4. Dans la méthode d’ajustement exponentiel, on pose $z = \ln y$. Après avoir déterminé la droite de régression de $z$ en $x$ par les moindres carrés : $z = ax + b$, la relation entre $y$ et $x$ est :

( Indication : De $\ln y = a x + b$, on déduit $y = e^{a x + b} = e^b \cdot e^{a x}$. )

5. Un coefficient de corrélation $r = 0,987$ indique que :

( Indication : Plus $|r|$ est proche de 1, plus la liaison linéaire est forte. $r>0$ indique une corrélation positive. )

6. Soit la droite de régression de $y$ en $x$ obtenue par la méthode des moindres carrés : $y = a x + b$. Laquelle des propriétés suivantes est toujours vraie ?

( Indication : Propriété fondamentale : la droite de régression passe toujours par le point moyen $(\bar{x}, \bar{y})$. )

7. On rappelle que la covariance est $\sigma_{xy} = \frac{1}{n}\sum (x_i - \bar{x})(y_i - \bar{y})$. Le coefficient directeur $a$ de la droite de régression de $y$ en $x$ est donné par :

( Indication : Formule du cours : $a = \frac{\text{cov}(x,y)}{\text{Var}(x)} = \frac{\sigma_{xy}}{\sigma_x^2}$. )

8. En reprenant l’exemple du cours (années 1 à 6, $y_i$ : 70, 90, 115, 140, 170, 220), l’ajustement exponentiel a donné $y = 57,111 \times 1,251^x$. Quelle estimation donne-t-il pour l’année 2007 (rang $x=7$) ?

(Indication : $y(7) = 57,111 \times 1,251^7$ $ \approx 57,111 \times 4,80$ $ \approx 274$. )

9. La covariance peut aussi se calculer à l’aide de la formule :

(Indication : Formule de Huygens pour la covariance : $\sigma_{xy} = \frac{1}{n}\sum x_i y_i - \bar{x}\bar{y}$. )

10. Le problème de l’ajustement d’un nuage de points consiste à :

( Indication : L’objectif est d’établir un modèle reliant $x$ et $y$ pour effectuer des prévisions. )

Avis et commentaires

Partagez votre avis sur ce cours ou posez une question.

Laisser un commentaire
Soyez le premier à laisser un commentaire !
Lien copié !