Avez-vous déjà entendu le dicton « Une image vaut 1 000 mots » ? Cette affirmation est particulièrement vraie dans le domaine de la science des données. Disons que vous êtes un scientifique des données dans une grande entreprise Fortune, traitant des optimisations de portefeuille budgétaire d’une valeur de millions de dollars par an pour divers clients. Il est essentiel de communiquer efficacement vos conclusions aux clients ou aux parties prenantes pour avoir un impact. C’est là qu’intervient la visualisation des données.
La visualisation des données est le processus de création de représentations visuelles des données pour transmettre plus efficacement des informations et des idées. Il vous permet d’identifier rapidement les modèles, les tendances et les valeurs aberrantes qui peuvent ne pas être immédiatement apparentes dans un tableau ou une feuille de calcul. En utilisant des graphiques, des diagrammes et d’autres aides visuelles, vous pouvez présenter des données complexes d’une manière facile à comprendre, même pour ceux qui n’ont pas de connaissances techniques.
Ceci est crucial lors de la présentation des résultats aux parties prenantes ou à d’autres membres de votre équipe qui ne connaissent peut-être pas les subtilités de votre analyse. En plus de rendre les données plus digestes, la visualisation des données peut vous aider à identifier les erreurs ou les incohérences dans vos données.
En visualisant vos données, vous remarquerez peut-être des modèles ou des valeurs aberrantes que vous auriez autrement manqués. Dans l’ensemble, la visualisation des données est un outil puissant de la boîte à outils Data Science. Il vous permet de communiquer vos résultats plus efficacement, d’identifier les modèles et les valeurs aberrantes et, en fin de compte, de prendre de meilleures décisions en fonction de vos données.
De plus, la visualisation des données joue un rôle crucial dans le processus d’EDA des données, ou analyse exploratoire des données. En présentant les données dans un format visuel, les modèles et les tendances peuvent être rapidement identifiés et des informations peuvent être glanées à partir des données. Cela aide à donner un sens à des ensembles de données complexes et peut conduire à une prise de décision plus éclairée. Sans une visualisation efficace des données, il peut être difficile de comprendre pleinement la signification des données, et des informations précieuses peuvent être manquées. Dans l’ensemble, la visualisation des données fait partie intégrante du processus d’EDA des données et est essentielle pour analyser et interpréter efficacement les données.
Prenons un exemple de données sur les prix du logement ainsi que des facteurs pouvant avoir une incidence sur sa tarification [1], pour comprendre comment la visualisation peut faire parler vos données. Vous trouverez ci-dessous quelques graphiques de visualisation qui aident à représenter des informations significatives.
Matrices de corrélation
Disons que vous voulez savoir quels facteurs ont un impact similaire sur le prix d’une maison, ou simplement quels facteurs sont corrélés. La matrice de corrélation colorée de la figure 1 vous donne un aperçu de la corrélation entre divers facteurs, et vous pouvez faire les déductions suivantes d’un simple coup d’œil :
- L’année de construction et l’année de construction du garage ont une corrélation de 83 %, car la plupart des gens construisent leur garage en même temps que leur maison.
- Le prix de vente et la qualité globale ont une corrélation de 79 %, car une maison de meilleure qualité coûtera généralement plus cher.
- L’année de construction et l’état général ont une corrélation négative de -0,38, car l’état d’une maison se détériore d’année en année.
Compter les parcelles
Et si vous voulez connaître la répartition des prix par quartier ? Si vous deviez le décrire verbalement, il serait extrêmement difficile de retenir les différentes mesures numériques, telles que le prix moyen, la variance du prix, etc., pour chaque quartier. Cependant, si vous utilisez un diagramme de comptage, comme dans la figure 2, vous pouvez déduire directement toutes les données de distribution et comparer les quartiers, le tout en une seule fois.
Vous pouvez dire à partir de la figure quelles zones connaissent souvent des prix de vente plus élevés et quelles zones connaissent généralement des prix de vente plus bas. Cela vous permet de déterminer la qualité de la communauté. De plus, vous pouvez voir que le prix de vente moyen du quartier présente une variation importante.
Tracés linéaires
Maintenant, si vous voulez comprendre les tendances des prix de vente au fil des ans et quels facteurs peuvent y avoir contribué, vous pouvez vous référer à la figure 3.
- Les graphiques linéaires montrent que le prix de vente a diminué au fil du temps, ce qui indique que le marché ne se porte pas bien.
- De plus, vous pouvez observer que si le sous-sol d’une maison est excessivement grand, le prix de la maison a tendance à être assez bas. C’est peut-être parce qu’il est considéré comme mal construit.
- Vous pouvez observer que la qualité et l’état général sont directement corrélés au prix de vente, comme on s’y attendait auparavant.
- Il est intéressant de noter que les prix des maisons construites avant 1900 sont plus élevés que ceux construits plus tard ; cela pourrait être dû à l’importance historique des maisons.
Toutes ces informations – déduites des tracés d’un simple coup d’œil – auraient autrement été difficiles à extraire sur la base d’informations numériques ou verbales.
Diagrammes factoriels
Lorsque plusieurs réponses et variables factorielles sont tracées ensemble, le tracé résultant est appelé un tracé factoriel. Tout type de tracé univarié ou bivarié peut être utilisé comme base pour le graphique sous-jacent. Supposons que vous souhaitiez fournir une chronologie de la construction de logements dans une communauté et également montrer l’évolution du style de logement au fil du temps. Pour communiquer cela de manière textuelle, vous devez fournir une liste ou un tableau détaillé, ainsi que des descriptions. Cependant, dans la figure 4, vous pouvez observer toutes les informations dans un seul tracé, ainsi que des informations supplémentaires.
L’intrigue affiche l’année de construction des maisons, ainsi que le quartier dans lequel elles ont été construites et le type de maisons qui ont été construites. Il est clair que le quartier le plus ancien de la ville s’appelait Old Town. Vous pouvez également voir quand les quartiers se sont progressivement développés, ainsi que le fait que certaines communautés se sont développées en très peu de temps. Vous remarquerez peut-être également que la majorité des bâtiments à deux étages ont été construits après les années 1980.
Tous ces exemples aident à clarifier l’importance d’un bon visuel et comment vous pouvez transmettre efficacement des informations avec des représentations visuelles.
Défis de la visualisation des données
Cependant, il n’est pas toujours facile de visualiser un jeu de données donné. En ce qui concerne la visualisation de données en Data Science, les professionnels de ce domaine sont confrontés à plusieurs défis. L’un des principaux défis est la quantité de données qui doivent être analysées et présentées de manière significative. Avec autant de données sur lesquelles travailler, il peut être difficile de savoir par où commencer et comment identifier les informations les plus importantes.
Un autre défi consiste à choisir les bonnes visualisations pour représenter les données. Différents types de données nécessitent différents types de visualisations, et il peut être difficile de déterminer quel type de visualisation sera le plus efficace pour un ensemble de données particulier. De plus, il peut être difficile de créer des visualisations précises et faciles à comprendre pour les utilisateurs non techniques.
Enfin, assurer l’exactitude et la fiabilité des visualisations de données peut être un défi. Il est important d’être diligent dans la vérification et la contre-vérification des données pour s’assurer que les visualisations représentent avec précision les informations qu’elles sont censées transmettre. Avec ces défis à l’esprit, les scientifiques des données doivent être méticuleux dans leur approche de la visualisation des données, afin de créer des visualisations utiles et efficaces qui peuvent éclairer la prise de décision et favoriser le succès de l’entreprise.
[1] Thaï, Tom. Prix des logements – Techniques de régression avancées. Kagglé.