Concentration et loi des grands nombres
Le niveau de cette page est celui d’une terminale générale, spécialité maths. Elle résume le chapitre sur la concentration et la loi des grands nombres. Les démonstrations qui suivent s’appliquent aux lois discrètes qui sont les seules enseignées en terminale. Si vous souhaitez les étendre aux lois continues, vous trouverez ce que vous cherchez en pages d’inégalité de Bienaymé-Tchebychev et de loi faible des grands nombres.
L’inégalité de Markov
Soit une variable aléatoire (v.a) \(X\) (à valeurs positives ou nulles) et un réel \(a > 0\).
Alors \(P(X \geqslant a) \leqslant \frac{E(X)}{a}\)
Soit par exemple un élevage de lapins d’une certaine race. Le poids moyen d’un lapin est de 2,5 kg. On prend le premier spécimen venu. Que peut-on dire sur la probabilité qu’il pèse plus de 2,8 kg ?
\(P(X \geqslant 2,8) \leqslant \frac{2,5}{2,8}\) donc \(P(X \geqslant 2,8) \leqslant 0,893\)
Vous conviendrez que cette borne supérieure ne nous avance pas beaucoup (la probabilité n’est pas très éloignée de 1). En pratique, l’inégalité de Markov ne sert jamais. Mais nous la retrouverons bientôt. En attendant, démontrons-la.
Rappelons la définition de l’espérance : \(E(X) = \sum\limits_{i = 1}^n {{x_i}P(X = {x_i})} \)
Scindons l’expression pour isoler les valeurs supérieures à \(a.\)
\[E(X) = \sum\limits_{{x_i} < a} {{x_i}P(X = {x_i})} + \sum\limits_{{x_i} \geqslant a} {{x_i}P(X = {x_i})} \]
Comme \(\sum\limits_{{x_i} < a} {{x_i}P(X = {x_i})} \geqslant 0\) (somme de produits de facteurs positifs) nous en déduisons que \(E(X) \geqslant \sum\limits_{{x_i} \geqslant a} {{x_i}P(X = {x_i})} \)
Et comme ici \(x_i \geqslant a\) nous avons :
\[\sum\limits_{{x_i} \geqslant a} {{x_i}P(X = {x_i}) \geqslant } \sum\limits_{{x_i} \geqslant a} {aP(X = {x_i})} \]
Ainsi \(E(X) \geqslant a \sum\limits_{{x_i} \geqslant a} {P(X = {x_i})} \)
Donc \(E(X) \geqslant a P(X \geqslant a)\)
Nous trouvons bien \(P(X \geqslant a) \leqslant \frac{E(X)}{a}\)
L’inégalité de Bienaymé-Tchebychev
Pour tout \(a > 0\) nous avons :
\(P(|X - E(X)| \geqslant a) \leqslant \frac{V(X)}{a^2}\) (\(V(X)\) étant la variance de \(X\)).
C’est pour la démontrer que nous avons besoin de l’inégalité de Markov.
Remplaçons la v.a \(X\) par la v.a \(X - E(X).\) Comme \(a\) et les valeurs de \(X\) sont positives, nous pouvons les élever au carré sans que les ordres changent.
\[P((X - E(X))^2 \geqslant a^2) \leqslant \frac{E(X- E(X))^2)}{a^2}\]
Par définition de la variance :
\[P((X - E(X))^2 \geqslant a^2) \leqslant \frac{V(X)}{a^2}\]
Or \((X - E(X))^2 \geqslant a^2 ⇔ |X - E(X)| \geqslant a\) puisque la fonction racine carrée est strictement croissante.
Donc nous vérifions bien l’inégalité \(P(|X - E(X)| \geqslant a) \leqslant \frac{V(X)}{a^2}\)
De même, \(P(|X - E(X)| < a) \geqslant 1 - \frac{V(X)}{a^2}\)
Nous pourrions là aussi prendre un exemple pour nous apercevoir que cette inégalité ne nous renseigne guère mieux que celle de Markov ! Faire par exemple les exercices avec l'inégalité de Bienaymé-Tchebychev. Alors quoi ? Son rôle est-il de nous permettre une nouvelle démonstration ? Eh bien oui !
L’inégalité de concentration
Soit \(\overline {X} _n\) la v.a moyenne d’un échantillon de taille \(n.\) Toutes les v.a ont la même espérance \(m\) et la même variance \(\sigma ^2\) (typiquement, un tirage avec remise ou éventuellement sans remise si l’échantillon est grand).
Il faut donc bien distinguer \(E(X)\) qui est l’espérance d'une v.a, de \(\overline {X} _n\) qui est la moyenne réellement observée sur un échantillon (soumis aux fluctuations d’échantillonnage).
D’après l’inégalité de Bienaymé-Tchebychev nous pouvons écrire :
\(P(|\overline {X} _n - m| < a) \geqslant 1 - \frac{V(\overline {X} _n)}{a^2}\)
\(P(|\overline {X} _n - m)| \geqslant a) \leqslant \frac{\sigma ^2}{na^2}\)
Applications en page d'exercices sur tailles d'échantillons.
La loi des grands nombres
Appliquons cette inégalité lorsque \(n\) est infiniment grand.
\(\mathop {\lim }\limits_{n \to + \infty } \frac{{V(X)}}{{n{a^2}}} = 0\)
Donc \(\mathop {\lim }\limits_{n \to + \infty } P(|{\overline {X} _n} - m| > a) = 0\) puisqu’elle est inférieure à 0 mais aussi supérieure à 0 (comme d'ailleurs toute probabilité). C’est une application du théorème des gendarmes.
Le corollaire
Un corollaire à cette loi stipule que si l’on répète un grand nombre de fois un schéma de Bernoulli de façon identique et indépendante, la fréquence de réalisation d’un évènement tend vers sa probabilité théorique.
L’occasion d’une dernière démonstration avant de nous quitter.
Soit la v.a \(Y_n\) qui suit une loi binomiale \(\mathscr{B}(n\, ;p).\) Soit \(ε\) un réel positif qui peut être très petit.
La v.a moyenne est \(\overline {X} _n = \frac{Y_n}{n}\)
Rappelons que l’espérance d’une loi binomiale \(\mathscr{B}(n\, ;p)\) est \(np\) et que sa variance est \(np(1-p).\)
L’inégalité de concentration devient :
\(P(|\frac{Y_n}{n} - p| \geqslant ε ) \leqslant \frac{p(1-p)}{n ϵ ^2}\)
\(⇔ 1 - P(|\frac{Y_n}{n} - p| < ε ) \leqslant \frac{p(1-p)}{n ε ^2}\)
Comme une probabilité est par nature inférieure à 1 nous pouvons écrire :
\(1 - \frac{p(1-p)}{n \varepsilon ^2} \leqslant P(|\frac{Y_n}{n} - p| < ε) \leqslant 1\)
Par ailleurs :
\(\mathop {\lim }\limits_{n \to + \infty } \left( {1 - \frac{{p(1 - p)}}{{n{\varepsilon ^2}}}} \right) = 1\)
Là encore nous en appelons au théorème des gendarmes pour conclure :
\(\mathop {\lim }\limits_{n \to + \infty } P\left( {\left| {\frac{{{Y_n}}}{n} - p} \right| \leqslant \varepsilon } \right) = 1\)