Introduction à l’analyse exploratoire et la préparation des données

Big_Data_468_0_0.JPGL’analyse, l’exploration et la mise en forme des données est une étape fondamentale dans tout projet d’intelligence artificielle. En effet la pertinence des résultats obtenus dépend généralement plus de la qualité de mise en œuvre de ces étapes que de la méthode de modélisation utilisant ces données en entrée.

L’objectif de l’analyse exploratoire est d’obtenir un vision global d’un jeu de données en recherchant des régularités, des relation entre variables, ou même des groupes homogène. C’est grâce à cela que l’on peut définir les outils et méthodes de modélisation les plus adéquats pour répondre au problème posée

Pour ce faire, on va chercher à résumer la distribution de chaque variables au travers d’une approche dite univariée. Puis on peut étudier les relations entre les variables avec une approche dite bivariée. Et enfin on utilise les méthodes d’analyse multidimensionnelles pour observer la présence possible de groupes d’individus homogène (toutes ces approches seront développées dans un prochaine article).

Tout les types de données ne peuvent pas être admit en entré pour n’importe quel méthode de modélisation. C’est là qu’intervient la mis en forme des données. On fait généralement appelle à certaines opération qui permette de passer d’un type à un autre :

  • La discrétisation est un procédé qui consiste à découper l’ensemble des valeurs d’une variable continu en tranche afin d’en faire une variable discrète. Un exemple courant et de pas considérer l’age d’un individus, mais plutôt la tranche d’age à la quel il appartient.
  • L’analyse des Correspondance Multiple (ACM) est une méthode qui permet d’obtenir des facteurs continus à partir de données discrètes ou qualitative.

L’analyse exploratoire à aussi pour but de détecter les valeurs rare ou manquante. Celle-ci peuvent ce voir accorder une importance plus grande qu’elle ne devrait en avoir. De ce fait elle déséquilibre l’analyse et la modélisation qui en découle. Dans le cas des valeurs manquante il est préférable de laisser le observation de coté.

Enfin, les valeurs aberrantes qui sont des valeurs erronée correspondante à une mauvaise mesure, une erreur de saisie, ou même une fausse déclaration, peuvent posé un réelle problème. Il faut faire attention à ne pas le confondre avec les valeurs extrême qui ne sont pas toujours aberrante (et inversement) ce qui rend leur détection délicate.

Un commentaire

Laisser un commentaire