Mathématiques 1ère S
Maths 1S programme
Analyse
Géométrie
Exercices
Probabilités &
Statistiques
Applications
Suites & Séries
Calculateurs
Algèbre linéaire
© The scientific sentence. 2010
|
Mathématiques 3:
Statistiques
Résumé
1. Définitions
La statistique est la science qui consiste à réunir des données
chiffrées, à les analyser et à les commenter.
Une étude statistique s’effectue sur un ensemble appelé population
dont les éléments sont appelés individus . Elle consiste à observer et
étudier un même aspect sur chaque individu, appelé caractère.
2. Caractères
On distingue deux types de caractères :
- les caractères qualitatifs : ce sont les caractères dont les valeurs ne sont pas des nombres
(par exemple : couleur , profession,…) ;
- les caractères quantitatifs : ce sont les caractères qui prennent des valeurs numériques.
Un caractère quantitatif peut être :
- discret si les valeurs du caractère sont isolées (par exemple : nombre d’enfants). Les valeurs d’un caractère discret sont appelées les modalités.
- continu si les valeurs du caractère sont regroupées en intervalles appelés classes (par exemple : taille [1.60,1.70[ , [1.70,1.80[…).
La largeur de chaque intervalle s’appelle l'amplitude.
3. Effectifs et fréquences
On appelle effectif d’une valeur (respectivement d'une classe, d'une modalité) le nombre d'individus possédant le caractère de cette valeur (respectivement de cette classe, de cette modalité).
On appelle fréquence d’une valeur (respectivement d'une classe, d'une modalité) le quotient de l'effectif de cette valeur (respectivement cette classe, cette modalité ) par l'effectif total de la population.
Les fréquences sont des nombres compris entre 0 et 1, souvent exprimés en pourcentage.
4. Effectifs et fréquences cumulés
Dans le cas d'une variable quantitative, on peut ordonner les différentes valeurs de
la variable dans l'ordre croissant ou décroissant.
On peut ainsi déterminer :
« quel effectif ou quelle fréquence de la population a une valeur du caractère au plus égale à ou au moins égale à … »
On obtient alors des effectifs cumulés croissants ou décroissants ou des fréquences cumulées croissantes ou décroissantes.
5. Médiane d'une série statistique
Soit une série statistique à caractère quantitatif discret dont toutes les valeurs
ordonnées sont : x1 ≤ x2 ≤ .... ≤ ...... ≤ xn
Définition:
La médiane Me d’une série statistique ordonnée
d’effectif n est :
• sa valeur centrale lorsque n est impair
• la demi-somme de ses deux valeurs centrales
lorsque n est pair.
Exemple:
Voici les notes obtenues par un groupe d’élèves au devoir de mathématiques :
6, 8, 9, 10, 12, 13, 16, 16, 19
La note médiane est égale à 12.
Il y a autant d’élèves qui ont eu 12 ou plus que d’élèves qui ont eu 12 ou moins.
La médiane d’une série statistique ordonnée indique le centre de la série.
La médiane d’une série statistique est la valeur du caractère qui partage l’effectif
total en deux parties égales.
6. Étendue d'une série statistique
Le but ici c'est de prendre en compte la répartition des valeurs.
Pour une série statistique donnée, nous pouvons calculer
l'étendue e de la série.
L’étendue vaut
e = Max - Min
où Max et Min sont deux valeurs extrêmes de la série : Max est la plus grande
valeur et Min est la plus petite.
Cependant, l'étendue ne nous donne pas d’indication sur comment sont réparties les
valeurs entre ces deux valeurs extrêmes.
Pour avoir une idée un peu plus précise de la dispersion des valeurs,
on partage la série en quatre parties de même effectif.
On définit ainsi les quartiles.
7. Quartiles
Les quartiles sont les valeurs du caractère qui partagent
l’effectif total en quatre parties égales.
• Le premier quartile Q1 est la plus petite valeur du caractère
pour laquelle 25% des valeurs de la série statistique lui sont inférieures ou égales.
• Le troisième quartile Q3 est la plus petite valeur du caractère pour laquelle 75% des
valeurs de la série statistique lui sont inférieures ou égales.
Il y a donc trois quartiles.
Le deuxième quartile correspond à la médiane.
8. Intervalle interquartile, écart interquartile
Définitions:
• L'intervalle interquartile d’une série statistique est l'intervalle [Q1, Q3]
• L'écart interquartile est le nombre positif Q3 - Q1
Diagramme en boîte ou boîte à moustache
Les cinq nombres Min, Q1, Me, Q3, Max permettent de résumer une série statistique quantitative.
Une façon possible de représenter graphiquement ce résumé est d’utiliser un
diagramme en boîte ou boîte à moustaches.
La boite à moustaches a été inventée en 1977 par John Tukey.
John Wilder Tukey était un mathématicien et statisticien américain, né en 1915
et décédé en 2000 dans le New Jersey.
La boite à moustaches est aussi quelques fois appelée diagramme de Tukey
ou boîte à pattes ou box plot.
Dessiné au-dessus d’un axe, un diagramme en boîte est constitué :
• d’une boîte délimitée par les premier et troisième quartiles et partagée par la médiane.
• de deux moustaches qui relient les quartiles aux valeurs extrêmes de la série. La
hauteur de la boîte est arbitraire.
La superposition de boîtes à moustaches peut être utile pour comparer plusieurs séries
associées à un même caractère sur des populations différentes.
9. Moyenne d'une série statistique
Soit (xk,nk) où k N vérifie 1 ≤ k ≤ p
une série statistique dont les valeurs distinctes x1, ..., xp ont pour effectifs
n1,...np et pour fréquences ƒ1,...., ƒp.
La moyenne de la série (xk, nk) avec 1 ≤ k ≤ p est le nombre noté
m ou défini par :
m = = (x1 n1 + x2 n2 + ... + xp np)/N =
f1 x1 + f2 x2 + ... + fp xp
où N = n1 + ... + np, est l’effectif total de la série.
Dans le cas d’une série où les données sont regroupées en p classes, les formules
récédentes s’appliquent en prenant pour xk le centre de la k-ième classe (c’est
l’hypothèse de répartition uniforme).
Exemple:
Voici la répartition des tailles d’un groupe
de 40 élèves :
taille en m | [150, 160[ |
[160, 170[ | [170, 180[ |
[180, 190[ |
effectif | 8 | 21 |
9 | 2 |
La taille moyenne de ce groupe de lycéens est :
t = (1.55 x 8 + 1.65 x 21 + 1.75 x 9 + 1.85 x 2)/40 = 1.66
La taille moyenne de ce groupe est donc d’environ 1.66m.
10. Autre interprétation de la moyenne
d’une série statistique
On va associer à la moyenne d’une série statistique un nombre qui permet
d’évaluer la dispersion des valeurs de la série autour de la moyenne.
Soit (xk, nk) avec 1 ≤ k ≤ p une série statistique prenant les valeurs
distinctes xk avec l'effectif nk et d'effectif total N.
La fonction f qui à tout nombre réel t associe la moyenne des carrés
des écarts à t des valeurs de la série s'exrit:
Σ nk (xk - t)2/N, avec 1 ≤ k ≤ p
Cette fonction admet un minimum atteint pour t = ,
où = m est la moyenne de la série.
Ce minimum est égal à :
f( ) =
Σ nk(xk - m)2/N,
avec 1 ≤ k ≤ p
Ainsi, une mesure de la dispersion des valeurs de la série
statistique (xk,nk) autour de sa moyenne
m est donnée par l'expression suivante, appelée variance de
la série:
f(m) =
Σ nk(xk - m)2/N,
avec 1 ≤ k ≤ p
Démonstration
On a f(t) = Σ nk (xk - t)2/N, avec 1 ≤ k ≤ p
d'où en développant:
(xk - t)2 = xk2 - 2 xk t + t2
,
Il vient:
Σ nk(xk - t)2 =
n1(x12 - 2 x1 t + t2) +
n2(x22 - 2 x2 t + t2) +
... +
np(xp2 - 2 xp t + t2)
En regroupant les termes en t et t2, on obtient:
Σ nk(xk - t)2 = t2 Σ nk - 2 t Σ nk xk + Σ nk xk2
.
C'est à dire:
f(t) = (1/N) t2 Σ nk -
(1/N) 2 t Σ nk xk +
(1/N) Σ nk xk2
Avec:
(1/N) Σ nk = N/N = 1
(1/N) (- 2) Σ nk xk = - 2 m = - 2
On pose : (1/N) Σ nk xk2 = c
On obtient:
f(t) = 1 t2 - 2 m t + c
, de la forme : f(t) = at2 + bt + c
avec a = 1 , b = - 2m et c = Σ nk xk2/N
Ce trinôme ( a > 0) admet un minimum pour
t = - b/2a = - (- 2m)/2 = m =
La fonction f admet donc un minimum pour t = m =
et égal à f(m) = f()= Σ nk(xk - m)2/N,
avec 1 ≤ k ≤ p.
11. Variance et écart-type
Définition:
• Le nombre réel V = f(m) = f() =
Σ nk(xk - m)2/N =
Σ (nk/N)(xk - m)2 =
Σ ƒk (xk - m)2
où ƒk est la fréquence de la valeur xk s'appelle
la variance de la série (xk, nk) avec 1 ≤ k ≤ p.
• Sa racine carrée s = √V s'appelle l'écart-type de la série.
On retient aussi:
• La variance est une somme de carrés. C’est donc une quantité positive. L’écart-type est
donc bien défini.
• Dans le cas d’un regroupement en classes, les calculs sont effectués en choisissant
pour chaque xk le centre de la classe correspondante.
• L’écart-type a la même unité que la série étudiée.
• Plus l’écart-type est petit, plus les valeurs de la série sont
concentrées autour de la moyenne, donc les données sont plus homogènes.
L'écart type sert à mesurer la dispersion d'un ensemble de données.
Plus il est faible, plus les valeurs sont regroupées autour de la moyenne.
Par exemple pour la répartition des notes d'une classe, plus l'écart type
est faible, plus la classe est homogène.
12. A propos de John Wilder Tukey
John Wilder Tukey (1915 - 2000) est un important statisticien
américain .
Il a créé et développé de nombreuses méthodes statistiques.
Il est notamment connu pour son développement en 1965, avec James Cooley,
de l'algorithme de la transformée de Fourier rapide (FFT).
|
|