Nom : YAO Hermann Archambaud
Sexe : Masculin

Formation :
Il est Ingénieur d’État des Systèmes Réseaux et Télécommunications, ayant fait les Classes Préparatoires MPSI et MP. Il possède de nombreuses certifications sur des solutions Oracle, Wallix, Talend notamment.

Expérience professionnelle :
Après des débuts dans le domaine du Support et de l’infogérance, il s’est tourné vers les métiers de la data. Il est depuis 2019, Ingénieur Intelligence Artificielle et BIG DATA au sein du cabinet EBENYX TECHNOLOGIES.

Technologies utilisées :
En tant qu’ingénieur IA et BIG DATA, il travaille beaucoup avec le language Python. Il utilise des technologies open sources et propriétaires telles que PostgreSQL, Apache Superset, Apache Spark, Oracle Analytics Cloud, Power BI, SAP, Tableau pour ce citer que celles-ci.

Petit lexique IA & BIG DATA

L’intégration des solutions d’intelligence artificielle est aujourd’hui considérée comme un incontournable dans le milieu des affaires. Les multiples applications de l’IA permettront notamment d’accroître la productivité, d’accélérer la création de richesse, et d’influencer la prise de décision au sein de votre organisation. Pour vous préparer à implanter ces nouvelles technologies, il est essentiel que vous soyez en mesure de bien comprendre les termes les plus fréquemment utilisés, ce dont il sera question dans cet article. En effet, une erreur de compréhension sur les technologies en jeu, dans une situation particulière, pourrait mener à en sous-exploiter les capacités ou à ignorer leurs vulnérabilités. Voici donc un petit lexique ayant pour objectif de vulgariser et démystifier les termes les plus fréquemment utilisés en matière d’intelligence artificielle et de Big Data.

Algorithme : Un algorithme est une suite d’opérations ou d’instructions à appliquer dans un ordre déterminé afin d’obtenir un résultat donné.
L’intelligence artificielle (en abrégé IA) : est un nom pour toute technique qui permet aux ordinateurs, d’imiter l’intelligence humaine, par exemple, en utilisant une logique simple, des scénarios si-alors ou même des algorithmes de Machine Learning.
Le Machine Learning (en abrégé ML ou apprentissage automatique en français) : consiste à doter un ordinateur de la capacité d’apprendre et de résoudre des problèmes par lui-même. C’est un sous-ensemble de l’IA qui comprend plusieurs techniques statistiques qui aident les machines à acquérir des connaissances à partir des données qui lui sont soumises, soit de manière supervisée, soit de manière semi ou non supervisée. L’une des principales difficultés est donc de garantir la qualité des données avec lesquelles l’algorithme de machine learning sera alimenté, afin d’éviter tout biais dans les résultats. Le principe de base de l’apprentissage automatique est de créer des algorithmes capables de recevoir des données d’entrée et d’utiliser une analyse statistique pour prédire une sortie tout en les mettant à jour à mesure que de nouvelles données deviennent disponibles.
Biais algorithmique : décrit des erreurs systématiques et reproductibles dans un système informatique qui créent des résultats injustes, tels que le fait de privilégier un groupe arbitraire d’utilisateurs par rapport à d’autres. Des biais peuvent apparaître en raison de nombreux facteurs, y compris, mais sans s’y limiter, la conception de l’algorithme ou l’utilisation ou les décisions involontaires ou imprévues relatives à la manière dont les données sont codées, collectées, sélectionnées ou utilisées pour entraîner l’algorithme.
Deep Learning (en abrégé DL ou apprentissage profond): est un sous-ensemble de ML qui développe les idées des algorithmes de ML en appliquant le concept de réseau de neurones. Les deux approches (ML et DL) ont beaucoup en commun et c’est pourquoi elles sont souvent confondues. Fondamentalement, ce qui va les distinguer l’une de l’autre est la complexité de l’analyse et la quantité de données exploitées. L’apprentissage profond est en réalité un apprentissage automatique s’appuyant sur un réseau de neurones qui vont affiner l’analyse grâce à un traitement par couches (niveau). Chaque couche de neurones artificiels va recevoir les résultats de la couche qui le précède, avant de procéder à ses propres calculs, de manière à pousser toujours plus loin le niveau de compréhension. En résumé, plus le nombre d’étapes de calcul, en l’occurence de couches sera important, plus le système sera capable de répondre à des questions complexes, comme la reconnaissance d’un visage notamment. C’est cette succession d’itérations qui « creusent » la donnée qui a introduit le terme apprentissage « profond ». Les applications en sont multiples, comprenant entre autres la reconnaissance visuelle des visages et des objets, le traitement automatique des langues, ainsi que la recherche scientifique dans le domaine médical.
Réseau de neurones : désigne l’architecture du Deep Learning qui s’inspire des synapses et neurones du cerveau humain.
Apprentissage supervisé : C’est un système qui fournit à la fois les données en entrée et les données attendues en sortie. Les données en entrée et en sortie sont étiquetées en vue de leur classification, afin d’établir une base d’apprentissage pour le traitement ultérieur de nouvelles données. L’apprentissage supervisé est généralement effectué dans le contexte de la classification et de la régression.
La classification : Algorithme cherchant à ranger des objets (individus) dans des classes (ou groupes) distinctes. Les classes peuvent être connues à l’avance (apprentissage supervisé) ou non (apprentissage non supervisé). Les classes sont des variables catégorielles (binaire pour vrai/faux ou non binaire pour plusieurs classes en sortie).
La régression : Un problème de régression se pose lorsque la variable de sortie est une valeur réelle (prédiction du prix de l’immobilier, prédiction du cours de la bourse).
Apprentissage non supervisé : consiste à ne disposer que de données d’entrée et pas de variables de sortie correspondantes. Les données ne sont pas étiquetées et vous devez trouver une structure dans vos données pour formuler des conclusions à ce sujet. L’apprentissage non supervisé comprend deux catégories d’algorithmes : Algorithmes de regroupement (clustering) et d’association.
Algorithme de regroupement (ou clustering) : La mise en cluster consiste à séparer ou à diviser un ensemble de données en un certain nombre de groupes, de sorte que les ensembles de données appartenant aux mêmes groupes se ressemblent davantage que ceux d’autres groupes. En termes simples, l’objectif est de séparer les groupes ayant des traits similaires et de les assigner en grappes.
Algorithme d’association : L’association consiste à découvrir des relations intéressantes entre des variables dans de grandes bases de données.
Apprentissage par renforcement : fait référence à une classe de problèmes d’apprentissage automatique, dont le but est d’apprendre, à partir d’expériences successives, ce qu’il convient de faire de façon à trouver la meilleure solution. Pour y parvenir, l’ordinateur essaye toutes les façons possibles et apprend de ses erreurs. Ce type d’apprentissage est utilisé dans la résolution de problèmes d’optimisation.
Apprentissage semi-supervisé : consiste à disposer d’une grande quantité de données d’entrée dont certaines sont étiquetées. Ainsi, ces problèmes se situent entre l’apprentissage supervisé et l’apprentissage non supervisé.
Big Data (ou mégadonnées) : Données structurées ou non dont le très grand volume requiert des outils d’analyse adaptés. Selon Gartner, ce sont des cités d’informations volumineuses, rapides et variées qui nécessitent une plateforme innovante pour comprendre les données, en dégager des informations utiles pour une prise de décision améliorée. Le Big Data et l’essor de l’IA sont étroitement liés, car le Big Data a permis l’apprentissage massif sur de grandes quantités de données.
Un modèle mathématique : C’est le résultat issu de l’application d’algorithme (d’IA par exemple) sur des données pour faire des prédictions.
Un entraînement : Action effectuée dans la création d’un modèle mathématique. L’entrainement est sujet à la puissance de calcul de l’ordinateur. Plus il dispose de puissance, plus l’entrainement est rapide; les ordinateurs disposant de GPU fournissent de meilleurs résultats lors des entrainements.
Traitement distribué : est un traitement ou un calcul dont l’exécution est répartie ou parallélisée sur plusieurs microprocesseurs et plus généralement sur plusieurs unités centrales ou des machines virtuelles, on parle dans ce cas d’architecture ou de système distribué.
ETL (Extraction – Transformation – Loading) : est la procédure générale en trois phases de copie de données d’une ou plusieurs sources dans un système de destination. La première phase (Extraction) extrait des données de sources homogènes ou hétérogènes, la seconde (Transformation) traite les données en les nettoyant et en les transformant en une structure de stockage appropriée à des fins d’interrogation et d’analyse et enfin la troisième (Chargement) décrit l’insertion de données dans la base de données cible finale.
Traitement automatique du langage naturel (Natural Language processing en anglais) : Désigne l’ensemble de techniques qui visent à permettre aux ordinateurs de comprendre le langage humain. Le traitement automatique du langage naturel peut se concevoir tant par écrit que verbalement. Les applications en sont multiples et comprennent notamment la reconnaissance vocale, la détection des courriels/spams, la traduction automatique et l’analyse des sentiments exprimés.
OCR (Optical Character Recognition) : est la conversion électronique d’images de texte dactylographié, manuscrit ou imprimé en textes numérisés, pouvant être édités électroniquement, recherchés, stockés de manière plus compacte et utilisés dans des processus machine notamment le remplissage automatique de formulaires.
Vision par ordinateur : est un domaine de l’intelligence artificielle (IA) qui permet aux ordinateurs et aux systèmes de dériver des informations significatives à partir d’images numériques, de vidéos et d’autres entrées visuelles – et de prendre des mesures ou de faire des recommandations sur la base de ces informations. Si l’IA permet aux ordinateurs de penser, la vision par ordinateur leur permet de voir, d’observer et de comprendre.

LEXIQUE IA & BIG DATA

– https://data-flair.training/blogs/what-is-big-data/
– https://cnvrg.io/reinforcement-learning/
– http://www.revue-banque.fr/management-fonctions-supports/article/petit-lexique-intelligence-artificielle
– https://www.lavery.ca/ftp/publication/laboratoire-intelligence-artificielle-lexiqueFR.pdf
– https://analyticsinsights.io/apprentissage-supervise-vs-non-supervise/
– https://www.lebigdata.fr/reinforcement-learning-definition
– https://dataanalyticspost.com/Lexique/apprentissage-par-renforcement/
– https://en.wikipedia.org/wiki/Extract,_transform,_load
– https://www.ibm.com/topics/computer-vision

NOS RÉALISATIONS

Contactez-nous

Petit lexique IA & BIG DATA

LEXIQUE IA & BIG DATA

.

Notre adresse

Email

Téléphone