# TP 6 - Statistique descriptive bivariée

Si $x=(x_1,\ldots, x_n)$ est une série statistique pour la variable $X$, on introduit les quantités suivantes.

- La moyenne de $x$ :
    $$\bar x = \frac 1 n \sum_{i=1}^n x_i.$$
   La commande Python pour la calculer est $\tt np.mean(x)$.


- La variance de $x$ : 
    $$V(x) = \frac 1 n \sum_{i=1}^n (x_i-\bar x)^2,$$
    ou encore $\displaystyle V(x) = \frac 1 n \sum_{i=1}^n x_i^2 - \bar x^2~~$ (formule de Koenig-Huygens).
    
    La commande Python pour la calculer est $\tt np.var(x)$.

Soit $y=(y_1,\ldots, y_n)$ est une deuxième série statistique pour le caractère $Y$. On dit alors que $(x,y)$ est une série statistique double (ou bivariée). On introduit :

- la covariance de $x$ et $y$ : 
    $$\mathrm{Cov}(x,y)= \frac 1 n \sum_{i=1}^n (x_i-\bar x)(y_i-\bar y),$$ 
    ou encore $\displaystyle \mathrm{Cov}(x,y) = \frac 1 n \sum_{i=1}^n x_i y_i - \bar x \bar y~~$ (formule de Koenig-Huygens).

#### Exemple
10 enfants de 6 ans d’une même classe sont mesurés et pesés. On note $X$ la variable désignant la taille de l’enfant (en centimètres) et $Y$ celle désignant le poids de l’enfant (en kilogrammes). On obtient la série statistique double suivante :

$\begin{array}{c|cccccccccc} \text{Enfant} & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10\\
\hline
    x & 121 & 123 & 108 & 118 & 111 & 109 & 114 & 103 & 110 & 115\\
    y & 25 & 22 & 19 & 24 & 19 & 18 & 20 & 15 & 20 & 21\end{array}$

### Exercice 1

Ecrire une fonction ${\tt cov(x,y)}$ qui prend en entrée une série bivariée $(x,y)$, et calcule la covariance de $x$ et $y$.

### Représentation graphique

On représente une série statistique double au moyen d'un nuage de points. On utilisera la syntaxe suivante pour afficher le nuage de points.

In [2]:
import matplotlib.pyplot as plt
plt.scatter(x,y)
plt.show()

### Exercice 2

Représenter le nuage de points associé à l'exemple ci-dessus

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import numpy.random as rd

### Régression linéaire

On cherche la droite d'équation $y=ax+b$ qui passe "au plus près" du nuage de points au sens des moindres carrés, c'est-à-dire qu'on cherche des réels $a$ et $b$ tels que la quantité
    $$\sum_{i=1}^n (y_i-(ax_i+b))^2$$
soit minimale. On appelle cette droite la droite de régression linéaire associée à la série double.

Le problème revient à chercher $U=\begin{pmatrix} a \\ b \end{pmatrix}\in \mathcal{M}_{2,1}(\mathbb R)$ solution du problème de minimisation
    $$\min_{U\in \mathcal{M}_{2,1}(\mathbb R)} {\Vert AU-Y\Vert}^2,$$
où $A=\begin{pmatrix} x_1 & 1 \\ \vdots & \vdots \\ x_n & 1 \end{pmatrix}~$ et $Y=\begin{pmatrix} y_1 \\ \vdots \\ y_n \end{pmatrix}$.

Il y a une unique solution $U$ à ce problème, caractérisée par
    $$^t\!AA\, U ~=~ {}^t \!A Y.$$
Comme $A$ est de rang 2 si les $x_i$ ne sont pas tous identiques, la matrice $^t\!AA$ est inversible dans ce cas, et on a alors
    $$U ~=~ {(^t\!AA)}^{-1} \, {}^t \!A Y,$$
ce qui fournit les valeurs de $a$ et $b$.

Plus précisément, l'équation de la droite est donnée par
    $$y= \frac{\mathrm{Cov}(x,y)}{V(x)} (x-\bar x) + \bar y.$$


### Exercice 3

1. Déterminer les valeurs de $a$ et $b$ pour la série statistique double de l'exemple.
2. Représenter la droite de régression linéaire sur le nuage de points.
3. Représenter le point moyen $(\bar x, \bar y)$.
4. Estimer le poids d'un enfant de 6 ans qui mesure 1,20m.

### Exercice 4
1. Créer deux tableaux $\tt x$ et $\tt y$ de taille 1000 contenant des simulations de la loi $\mathcal U([0,1])$.
2. Représenter le nuage des points $(x_i,y_i)$, et la droite de régression linéaire.
3. Calculer le coefficient de corrélation.
4. Créer un tableau $\tt u$ de taille 1000 contenant des simulation de la loi $\mathcal U([-1,1])$. Créer ensuite le tableau $\tt v$ donné par $\tt v=u**2$.
5. Représenter le nuage de points $(u_i,v_i)$, et la droite de régression linéaire. Que constate-t-on ?
6. Calculer le coefficient de corrélation. Que constate-t-on ?