2. Introduction aux méthodes mathématiques

Mesures d'étendue

Vous avez calculé la moyenne pour vos données, mais il est probable qu'une seule valeur ne vous en dise pas assez sur les données. Vous pourriez vouloir connaitre l'étendue de vos données : couvrent-elles une seule valeur, ou bien un très grand nombre de valeurs ? bien sur, vous pouvez le voir facilement, mais il peut être intéressant d'en avoir une mesure. Il y a deux mesures de l'étendue de données : l'amplitude et la variance.

L'amplitude d'un jeu de données est la différence entre la valeur maximum et la valeur minimum. Un jeu de données sur la taille d'étudiants peur contenir les valeurs {1,27, 1,35, 1,33, 1,64, 1,21, 1,24, 1,26, 1,26, 1,48, 1,30, 1,29, 1,45, 1,51, 1,32, 1,61, 1,63} dans lesquelles la valeur minimum est 1,21 et la valeur maximum est 1,64, l'amplitude est donc de 1,64 - 1,21 = 0,43.

Ne confondez pas l'amplitude d'un jeu de données avec son domaine. Le domaine d'un jeu de donnée est l'ensemble des valeurs qui peuvent apparaitre. Avec un dé, le domaine est {1, 2, 3, 4, 5, 6} , alors que l'amplitude 6 - 1 = 5.

La variance d'un ensemble d'observations est la moyenne des sommes des carrés des résidus, comme montré dans l'équation suivante :

σ 2 = i=1 N ( x i μ ) 2 N

μ est la valeur attendue.

Cette équation permet d'obtenir la variance pour une population de taille N. Si on utilise cette équation sur un échantillon de population, on introduit un biais, une erreur dans la valeur obtenue. Ce biais est évité en utilisant l'équation ci-dessous, où l'on divise par (n-1) plutôt que par N, où n est la taille de l'échantillon :

s 2 = i=1 n ( x i x ¯ ) ( n1 ) 2


Développez pour obtenir :

s 2 = x 1 2 2 x 1 x ¯ + ( x ¯ ) 2 + x 2 2 2 x 2 x ¯ + ( x ¯ ) 2 +...+ x n 2 2 x n x ¯ + ( x ¯ ) 2 n1

et regroupez :

s 2 = x i 2 ( x i · x i ) n n1 = x i 2 n ( x ¯ ) 2 n1

Ces deux formes d'équations de variance sont identiques et le choix de celle à utiliser est réservé à l'utilisateur. Quoi qu'il en soit, la seconde forme est meilleure pour les ordinateurs car elle ne requiert pas de boucle sur les données.

Avec les données d'une distribution de fréquences, vous devez une fois de plus prendre en compte que chaque classe contient un certain nombre d'observations. La variance est donc la somme des produits des valeurs des classes moins la moyenne des totaux des classes, le tout divisé par la somme des totaux des classes.

s 2 = k i v i 2 x ¯ 2 k i k i 1

La racine carrée de la variance est appelée l'écart-type. Il a les mêmes unités que vos données, et peut être représenté sur l'histogramme.