Intervalles de confiance d'une proportion
Dans les anciens programmes de terminale, on découvrait les intervalles de confiance d'une proportion après avoir étudié les intervalles de fluctuation.
Aucune difficulté calculatoire supplémentaire mais l’approche est différente, presque opposée.
Aujourd'hui, la notion d'intervalle asymptotique s'est volatilisée. Mais nous avons conservé cette page qui en explique le principe, au cas où...
Intervalles
Quand détermine-t-on un intervalle de fluctuation ? Lorsqu’on connaît une proportion dans une population et que l’on souhaite savoir si, avec une probabilité donnée de se tromper, un échantillon issu de cette population est représentatif. Quand détermine-t-on un intervalle de confiance ? Lorsqu’une proportion dans la population est inconnue et que l’on désire l’estimer à partir d’un échantillon, ou du moins définir un intervalle qui inclut cette proportion avec, là encore, une probabilité donnée de se tromper. Notez que le premier intervalle est par nature unique tandis que le second dépend de l’échantillon. C’est pourquoi on parle d’UN intervalle de confiance (il est aléatoire) et de L’intervalle de fluctuation. Notez aussi qu’un intervalle de confiance n’est autre qu’une fourchette de valeurs contenant \(p,\) paramètre d’une loi binomiale \(\mathscr{B}(n ; p).\)
L’intervalle de confiance a davantage d’applications pratiques que son confrère de fluctuation. Dans les deux cas, la conclusion mathématique appelle, en principe, une prise de décision.
Définition et notations
Soit \(α\) un réel situé dans l’intervalle \(]0 ; 1],\) \(p\) le paramètre d’une loi binomiale et \(f\) une fréquence observée sur un échantillon de taille \(n.\)
Un intervalle de confiance au niveau \(1 - α\) est un intervalle \(I\) tel que \(P(p ∈ I) \geqslant 1 - α.\)
On suppose réunies les conditions suivantes : \(n \geqslant 30,\) \(np \geqslant 5\) et \(n(1 - p) \geqslant 5.\) L’intervalle suivant est appelé intervalle de confiance pour \(p\) avec un niveau de confiance d’au moins \(95\%.\)
\[I = \left[ f - \frac{1}{\sqrt{n}} \,; f + \frac{1}{\sqrt{n}}\right]\]
En pratique, on utilise généralement l’intervalle suivant, qui rappelle l’intervalle de fluctuation asymptotique établi à partir de la loi normale centrée réduite :
\[I = \left[f - 1,96\frac{\sqrt{f(1-f)}}{\sqrt{n}} \,; f + 1,96 \frac{\sqrt{f(1-f)}}{\sqrt{n}} \right]\]
Exemple
Félix est un important éleveur béninois de volailles (dindes, canards de Barbarie, poules pondeuses et pintades).
Un gros client étranger du secteur de la distribution souhaite que le calibre moyen des œufs qu’il achète soit très majoritairement compris entre 53 et 63 g (calibre M). Il demande à Félix quelle proportion de calibre M il peut lui fournir.
Ce dernier serait bien en mal de peser toute sa production. Il prend un échantillon de 40 œufs. Parmi ceux-ci, 34 sont de calibre M. La fréquence s'établit donc à \(f = \frac{34}{40},\) soit 0,85.
Nous sommes dans la situation d'un schéma de Bernoulli (calibre M vs autre calibre ; on considère que le nombre d'œufs étant très grand, la constitution de l'échantillon s'apparente à un tirage avec remise). Nous avons \(n = 40,\) \(np = 34\) et \(n(1 - p) = 6.\) Ces conditions permettent d’utiliser l’intervalle de confiance suivant au niveau de \(95\%\) :
\[I = \left[0,85 - \frac{1}{\sqrt{40}} \,; 0,85 + \frac{1}{\sqrt{40}} \right] \]
Ceci conduirait à un intervalle d’environ \([0,692 \,; 1,008].\) Mais il est impossible que la proportion soit supérieure à 1. Ainsi l’intervalle de confiance s’établit à environ \([0,692 \,; 1].\) Il s’ensuit que la valeur 0,85 ne se situe pas au milieu...
Le client juge la fourchette de valeurs trop imprécise. Félix recommence une pesée mais cette fois de cent œufs. Il s’avère que 85 d’entre eux sont du bon calibre. Le hasard de l’échantillonnage ayant bien fait les choses, la fréquence reste identique (0,85). Toutefois, pour le même risque accepté d’erreur, l’intervalle est à présent resserré à \([0,75 \,; 0,95].\)
Qu’en serait-il avec l’intervalle issu de la loi normale ? En prenant l’échantillon de cent œufs, nous trouvons \([0,78 \,; 0,92].\) C'est encore plus précis, ce qui devrait ravir le client de Félix…
Un autre type d’exercice consiste à déterminer une taille suffisante d’échantillon pour une amplitude d’intervalle donnée.
Un client de l’agro-alimentaire souhaite que \(70\%\) des dindes qu’il achète à Félix pèsent au moins 6,5 kg (dindes femelles). Il demande à Félix de vérifier sur un échantillon de taille suffisante que cette proportion est bien respectée. Il se contentera d’une fourchette de \(± \,2,5\) points autour de la proportion voulue et d’un risque d’erreur de \(5\%.\)
Par conséquent, l’intervalle de confiance doit être inférieur ou égal à 0,05.
Nous sommes bien dans le cadre d’une répétition d’épreuves de Bernoulli (poids OK vs poids insuffisant) identiques et indépendantes, modélisable par une loi binomiale.
Notez que l’amplitude de l’intervalle est égal à :
\[\left(f + \frac{1}{\sqrt{n}} \right) - \left(f - \frac{1}{\sqrt{n}} \right) = \frac{2}{\sqrt{n}}\]
Ainsi nous posons \(\frac{2}{\sqrt{n}} \leqslant 0,05.\)
Remarquez au passage que la proportion de 0,7 a disparu des calculs.
\[n \geqslant \frac{2^2}{0,05^2}\]
On trouve \(n \geqslant 1\,600.\) Félix doit peser un échantillon d'au moins 1 600 dindes pour pouvoir affirmer, avec toutefois un risque d’erreur de \(5\%,\) que la proportion de volailles ayant un poids suffisant est respecté (ou non). C’est beaucoup !
Qu’en serait-il avec l’autre formule de calcul ?
\[2 \times 1,96 \times \frac{\sqrt{0,7 \times 0,03}}{\sqrt{n}} \leqslant 0,05\]
\[\Leftrightarrow 3,92 \sqrt{0,21} \leqslant 0,05 \sqrt{n}\]
Nous ne détaillerons pas la suite des calculs. Si vous les poursuivez, vous trouverez que l’échantillon doit compter au moins 1 291 dindes. Pour Félix, le gain de temps est appréciable !
Voir aussi les intervalles de confiance au bac et les exercices sur lois à densité.