2. Introduction aux méthodes mathématiques

La fréquence de distribution multidimensionnelle

Jusqu'ici, nous n'avons considéré que des données à une dimension. Mais que faire de données à plusieurs dimensions ? Comment pouvons-nous les visualiser ?

Nous pouvons voir des données à deux dimensions dans une distribution de fréquences 2D.

Zoom Sign
Landsat TM image of the Skagen area, Denmark
Image de la région de Middelfart - Fredericia (Danemark) en composite fausse couleurs, acquise par un satellite TM le 3 juin 2004.
Image source: USGS

Pour créer une distribution de fréquence 2D, utilisez les données du fichier texte skagensub.asc et importez-les dans un tableur. Dans ce fichier, les deux premières colonnes sont les coordonnées Easting et Northing des pixels. Chaque pixel a une taille de 20 m × 20 m, et vous pouvez donc les localiser sur une carte. Les quatre autres colonnes reprennent les valeurs dans les bandes du capteur satellite. Réaliser des distributions de fréquences en prenant les colonnes deux par deux. Deux des distributions de fréquences 2D devraient ressembler à celles représentées ci-dessous.

Zoom Sign
Skattergram
Distributions de fréquences pour les bandes 1 (horizontal) et 2 (vertical) à gauche, et pour les bandes 1 (horizontal) et 4 (vertical) à droite, pour l'image de Skagen.


Vous pouvez voir que les plus grandes valeurs de la bande 1 correspondent aux plus grandes valeurs de la bande 2, alors que les grandes valeurs de la bande 4 n'ont pas nécessairement de correspondance dans la bande 1. Les données des bandes 1 et 2 sont dites " corrélées ". Nous en apprendrons plus à propos de la corrélation dans la leçon suivante.

Avec les quatre bandes des données, nous pouvons effectuer six distributions de fréquences. Essayez de faire les six dans le tableur.

Si vous disposez de n bandes de données, combien de distributions de fréquences pouvez-vous effectuer ? La réponse est :

( n 2 )= n(n1) 2

Si vous disposez de sept bandes de données, toutes les distributions de fréquences vous disent-elles tout ce que vous voulez savoir à propos des données ? Pas vraiment. Vous pouvez construire un histogramme pour chaque bande, et vous verrez qu'ils ne vous en apprendront pas autant que les distributions de fréquences vous en disent sur les relations entre deux bandes de données. De la même manière, une distribution de fréquences exprimant la relation entre deux bandes ne vous dit pas tout ce qu'il faut savoir à propos des relations entre toutes les bandes de données si il y a trois bandes ou plus dans les données-image.

Il est très difficile de percevoir les données de plus grande dimension (4-D, 5-D...), et nous sommes donc forcés d'utiliser des statistiques extraites des données pour savoir quelles relations il existe entre les données. Dans la leçon suivante, nous verrons comment calculer ces statistiques.

Résumé :
Les distributions de fréquences montrent différentes structures des aires d'entraînement. Il peut être intéressant d'aller un peu plus dans le détail, pour trouver une méthode (semi) automatique de classification.


Exercices, tutoriaux et réponses