L'intervalle de fluctuation asymptotique

Variables aléatoires fréquences et intervalles de fluctuation

Cette page avait été rédigée pour les élèves de terminale mais les programmes n'intègrent plus la notion d'intervalle asymptotique qui sera développée ci-dessous.

Vous avez peut-être étudié les intervalles de fluctuation à 95 % d’une fréquence correspondant à une loi binomiale et les intervalles de fluctuation associés à la loi normale centrée réduite. Ces cas particuliers s'inscrivent dans une théorie beaucoup plus large.

 

La variable aléatoire fréquence

Soit un échantillon de taille n. Sur l’ensemble de la population, les unités statistiques présentent un caractère donné dans une proportion p. La variable aléatoire X associe le nombre d’unités possédant ce caractère dans l’échantillon. Pourquoi dit-on qu'elle est aléatoire ? Parce que l’échantillon aurait pu être différent.

Par exemple, un producteur de fruits prélève sur sa récolte un échantillon de 30 poires. Pour diverses raisons, certaines sont invendables par les détaillants. Le choix d'une poire devant faire partie de l'échantillon s'apparente à un tirage aléatoire. X peut prendre tous les nombres possibles de poires non commercialisables (donc entre 0 et 30) et ce nombre diffère selon que le producteur a choisi tel échantillon plutôt que tel autre.

poire

Les poires sont soit vendables soit invendables. Et comme il y en a beaucoup, la probabilité d'être invendable reste la même selon que l'on replace ou non une poire dans l'échantillon avant d'en choisir une autre. Par conséquent, X suit une loi binomiale. Le calcul d’un intervalle de fluctuation à un seuil donné permet d’estimer si l’échantillon retenu est représentatif de la population, c’est-à-dire de l’ensemble de la récolte.

La variable aléatoire fréquence F est tout simplement la variable aléatoire rapportée à n. On peut alors vérifier si une fréquence observée f dans un échantillon est conforme à une proportion globale. Notre producteur cultive plusieurs variétés de poires et il a par exemple jeté 5 % de sa récolte totale (proportion déterminée par pesage). Ayant tiré au hasard un échantillon pour chaque variété, il vérifie pour chacun d'eux si la part de fruits défectueux est statistiquement conforme à l’ensemble ou si au contraire, une variété est plus fragile ou plus résistante, et ceci en établissant des intervalles de fluctuation. Pour cela, le producteur a dû constituer autant d’échantillons aléatoires qu’il cultive de variétés.

Vous remarquerez qu'ici la proportion globale p est connue. Si tel n’était pas le cas, nous ne serions pas dans une problématique d’intervalle de fluctuation mais d’intervalle de confiance.

Le fait de se référer à une fréquence plutôt qu’à un nombre d’individus n’a l’air de rien mais cela pose un problème mathématique : comme une fréquence n’est pas un entier naturel, il est impossible d’utiliser la loi binomiale !

 

L’intervalle de fluctuation asymptotique

D’abord un rappel de l’intervalle de fluctuation au seuil de 95 % tel qu’enseigné en classe de seconde :

intervalle

Moyennant quelques conditions, cet intervalle peut être plus resserré, donc plus précis pour les prises de décision. Il est établi à partir de la loi normale centrée réduite. Ainsi, l’intervalle de fluctuation asymptotique au seuil de 95 % de la variable aléatoire fréquence F est :

intervalle asymptotique

 

Remarques

1- Nous nous sommes affranchis de la loi binomiale puisque l’intervalle est construit symétriquement autour d’une PROPORTION.

2- Plus l’échantillon est important, plus l’intervalle est précis. C’est à la fois intuitif et facilement démontrable à l’aide de la formule ci-dessus. D’où le qualificatif d’asymptotique.

En classe de terminale, on retient les conditions suivantes pour autoriser cette approximation de la loi binomiale : n ≥ 30, np ≥ 5 et n(1 – p) ≥ 5.

 

La prise de décision

Revenons à notre exemple. Les variétés de poires sont plus ou moins adaptées à un lieu de culture donné, en raison du terrain, du climat et de divers paramètres écologiques. Lorsqu’un verger comporte plusieurs variétés, on peut estimer par comparaison que l’une d’elles s’accorde mieux à la région que telle autre.

Notre producteur trouve que certains échantillons présentent des proportions assez différentes de la production globale moyenne. Grâce à ses calculs d’intervalles de fluctuation, il sait qu’il a 95 chances sur 100 pour que ces différences ne proviennent pas d’une simple fluctuation d’échantillonnage.

Par conséquent, il va rejeter l’hypothèse selon laquelle la fréquence observée f appartient à l’intervalle asymptotique situé autour de la proportion p. Dans le cas contraire, il aurait accepté l’hypothèse.

Attention, c’est bien la probabilité de rejeter à tort l’hypothèse qui est d’environ 0,05. Il existe une autre probabilité : celle d’accepter l’hypothèse par erreur (sur un échantillon peu représentatif, f est anormalement proche de p). Et ce n’est pas toujours 0,05 ! Les deux risques d’erreurs ne sont pas symétriques ! Ce deuxième type de risque n’est pas quantifiable en terminale (ouf, pas d’autre formule à apprendre…).

Au-delà de la prise de décision statistique, il existe une décision de gestion : supposons que deux variétés de poires montrent des fréquences de défectuosités sortant de l’intervalle de fluctuation : la proportion d’alexandrines invendables est significativement plus élevée que la proportion globale de poires tandis que celle des conférences l’est moins. Le producteur décidera peut-être de remplacer les arbres de variété alexandrine, peu adaptés à sa région, par des poiriers conférences.

 

Exercice

(Extrait de l’épreuve du bac ES de juin 2015, Antilles-Guyane

Une machine permet le conditionnement d'un jus de fruit dans des bouteilles.

La quantité de jus injecté dans une bouteille par la machine, exprimée en ml (millilitre), est modélisée avec une variable aléatoire réelle X. On admet que celle-ci suit une loi normale de moyenne μ = 500 et d'écart type σ = 2.

Une association de consommateurs a testé un lot de 200 bouteilles issues de cette chaîne de production. Il a été constaté que 15 bouteilles contiennent moins de 500 ml de jus de fruit contrairement à ce qui est annoncé sur l'étiquetage.

L'entreprise qui assure le conditionnement de ce jus de fruit affirme que 97 % des bouteilles produites contiennent au moins 500 millilitres de jus de fruit.

Le test réalisé par l'association remet-il en cause l'affirmation de l'entreprise ?

 

Corrigé

Conditions de détermination de l’intervalle de fluctuation asymptotique : = 200, np = 200 × 0,97 = 194 et n(1 – p) = 200 × 0,03 = 6. Les conditions sont réunies.

L’association de consommateurs affirme que 185 bouteilles sur 200 contiennent suffisamment de jus de fruit, soit une fréquence f = 0,925.

Déterminons l’intervalle de fluctuation I. L’énoncé ne précise pas le seuil de probabilité mais nous supposerons qu’il s’agit de l’habituel 95 %.

intervalle asymptotique

Soit I ≈ [0,946 ; 0,994]. Or, f n’appartient pas à cet intervalle. L’affirmation de l’entreprise est remise en cause.

Note : voir aussi l'exercice de la page sur la loi de Benford.

 

rejet