Auteur : EBENYX TECHNOLOGIES

LE ROLE DES DONNÉES DANS L’INTELLIGENCE ARTIFICIELLE

    Il n’y a rien de nouveau sur les données. Toutes les applications intéressantes jamais écrites pour un ordinateur sont associées à des données. Les données se présentent sous de nombreuses formes, certaines organisées, d’autres non. Ce qui a changé, c’est la quantité de données.
    Pour travailler avec des données, vous devez d’abord les obtenir. Aujourd’hui, les applications collectent les données manuellement, comme par le passé, mais aussi automatiquement, en utilisant de nouvelles méthodes. Cependant, il ne s’agit pas d’une ou deux techniques de collecte de données ; les méthodes de collecte se déroulent sur un continuum allant de l’entièrement manuelle à l’entièrement automatique.
    Les données brutes ne fonctionnent généralement pas bien à des fins d’analyse. Ce article vous aide à comprendre la nécessité de manipuler et de mettre en forme les données afin qu’elles répondent à des exigences spécifiques. Vous découvrez également la nécessité de définir la valeur de vérité des données pour garantir que les résultats de l’analyse correspondent aux objectifs définis pour les applications en premier lieu.
    Il est intéressant de noter que vous devez également gérer des limites d’acquisition de données.

TROUVER DES DONNÉES OMNIPRÉSENTES À CETTE ÉPOQUE

Plus qu’un mot à la mode utilisé par les vendeurs pour proposer de nouvelles façons de stocker les données et de les analyser, la révolution du big data est une réalité quotidienne et une force motrice de notre époque.Vous avez peut-être entendu parler des mégadonnées dans de nombreuses publications scientifiques et commerciales spécialisées et vous êtes même demandé ce que signifie réellement ce terme. D’un point de vue technique, les mégadonnées font référence à des quantités importantes et complexes de données informatiques, si volumineuses et complexes que les applications ne peuvent que traiter les données en utilisant un stockage supplémentaire ou en augmentant la puissance de l’ordinateur.
Les mégadonnées impliquent une révolution dans le stockage et la manipulation des données. Les ordinateurs stockent des données volumineuses dans différents formats d’un point de vue humain. Certaines données ont une structure, tandis que d’autres données ne sont pas structurées.
Des exemples typiques de données structurées sont les tables de base de données, dans lesquelles les informations sont organisées en colonnes.Par ailleurs Les données non structurées sont constituées d’images, de vidéos et d’enregistrements sonores.
La plupart des données de la révolution du Big Data ne sont pas structurées et stockées telles quelles, à moins que quelqu’un ne les rende structurée.
Il a fallu du temps pour développer la technologie permettant de stocker cette quantité de données.Les sections suivantes vous aident à comprendre ce qui fait des données une ressource universelle aujourd’hui.

Utiliser les données partout
Les scientifiques ont besoin d’ordinateurs plus puissants que la moyenne en raison de leurs expériences scientifiques. Ils ont commencé à traiter des quantités impressionnantes de données des années avant que quiconque n’invente le terme de mégadonnées. À ce stade, Internet ne produisait pas les énormes quantités de données qu’il produit aujourd’hui.Cependant Internet génère et distribue désormais de nouvelles données en grande quantité.Notre production de données quotidienne actuelle est estimée à environ 2,5 quintillions (un nombre avec 18 zéros) d’octets, la part du lion allant aux données non structurées comme les vidéos et les audios. Toutes ces données sont liées à des activités, des sentiments, des expériences et des relations humaines communes. En parcourant ces données, une IA peut facilement apprendre comment raisonner et agir.

Mettre les algorithmes en action
la donnée est devenue si omniprésente que sa valeur réside dans son utilisation comme moyen de créer de nouvelles valeurs. Ces nouvelles valeurs existent principalement dans la façon dont les applications gèrent, stockent et récupèrent les données, et dans la façon dont vous les utilisez réellement au moyen d’algorithmes intelligents.Les algorithmes et l’IA ont changé le jeu des données. Les algorithmes d’IA ont essayé différentes approches en cours de route, passant des algorithmes simples au raisonnement symbolique basé sur la logique puis aux systèmes experts. Ces dernières années, ils sont devenus des réseaux de neurones et, dans leur forme la plus mature, un apprentissage en profondeur. Au fur et à mesure de ce passage méthodologique, les données sont passées d’informations traitées par des algorithmes prédéterminés à ce qui a façonné l’algorithme en quelque chose d’utile pour la tâche. À plus grande échelle, une entreprise comme Google alimente ses algorithmes à partir de données librement disponibles, telles que le contenu de sites Web ou le texte trouvé dans des textes et des livres accessibles au public.

UTILISER LES DONNÉES AVEC SUCCÈS

Avoir de nombreuses données disponibles ne suffit pas pour créer une IA réussie. À l’heure actuelle, un algorithme d’IA ne peut pas extraire d’informations directement à partir de données brutes. La plupart des algorithmes reposent sur une collecte et une manipulation externes avant l’analyse. Lorsqu’un algorithme collecte des informations utiles, il peut ne pas représenter les bonnes informations.

Considérons les sources de données
            Les données que vous utilisez proviennent de plusieurs sources.
             De nombreuses sources de données reposent aujourd’hui sur des données recueillies auprès de sources humaines. Les humains fournissent également une entrée manuelle. Ces données collectées manuellement finissent par se retrouver dans un ensemble de données quelque part à des fins d’analyse.
             Les données sont également collectées à partir de capteurs, et ces capteurs peuvent prendre presque n’importe quelle forme. Un logiciel de reconnaissance faciale pourrait potentiellement détecter les clients fidèles.

Obtenir des données fiables
L’équilibre doit être maintenu lors de l’obtention des données.Les données doivent s’inscrire dans certaines limites.Il doit également répondre à des critères spécifiques quant à la valeur de vérité.Les données doivent également arriver à intervalles prévus et tous les champs de l’enregistrement de données entrant doivent être complets.
Dans une certaine mesure,la sécurité des données affecte également la fiabilité des données.La cohérence des données se présente sous plusieurs formes. Lorsque les données arrivent,vous pouvez vous assurer qu’elles se situent dans les plages attendues et apparaissent sous une forme particulière.Cependant, après avoir stocké les données, la fiabilité peut diminuer, sauf si vous vous assurez que les données restent sous la forme attendue. Une entité qui manipule les données affecte la fiabilité, rendant les données suspectes et potentiellement inutilisables pour une analyse ultérieure.Assurer la fiabilité des données signifie qu’une fois les données arrivées, personne ne les altère pour les faire entrer dans un domaine attendu.

Rendre l’entrée humaine plus fiable
Les humains font des erreurs – cela fait partie de l’être humain. En fait, s’attendre à ce que les humains ne fassent pas d’erreurs est déraisonnable. Pourtant, de nombreuses conceptions d’applications supposer que les humains ne feront d’une manière ou d’une autre aucune erreur. La conception s’attend à ce que tout le monde suive simplement les règles. Malheureusement, la grande majorité des utilisateurs sont assurés de ne même pas lire les règles, car la plupart des humains sont également paresseux ou trop pressés par le temps lorsqu’il s’agit de faire des choses qui ne les aident pas vraiment directement.

Utilisation de la collecte de données automatisée
Certaines personnes pensent que la collecte de données automatisée résout tous les problèmes de saisie humaine associés aux ensembles de données. En fait, la collecte automatisée de données offre un certain nombre d’avantages : Meilleure cohérence,Fiabilité améliorée,Plus faible probabilité de données manquantes,Précision améliorée,Variation réduite pour des choses comme les entrées temporisées
Malheureusement, dire que la collecte automatisée de données résout tous les problèmes est tout simplement incorrect.

GÉRER LES DONNÉES

les données brutes répondent rarement aux exigences de traitement et d’analyse. Pour tirer quelque chose des données, vous devez les manipulé pour répondre à des besoins spécifiques. Les sections suivantes traitent des besoins en matière de gestion des données.

Traiter les données manquantes
      Dans le cadre du processus de traitement des données manquantes, vous devez savoir que les données sont manquantes. Identifier que votre ensemble de données manque d’informations peut en fait être assez difficile car cela vous oblige à examiner les données à un niveau bas – quelque chose que la plupart des gens ne sont pas prêts à faire et qui prend du temps même si vous avez les compétences requises. Souvent, votre premier indice que des données manquent sont les réponses absurdes que vos questions obtiennent de l’algorithme et de l’ensemble de données associé.
      Il est plus facile de corriger les données manquantes au hasard. Vous pouvez utiliser une valeur médiane ou moyenne simple en remplacement. Dans certains cas, les data scientists ont utilisé un algorithme spécial pour calculer la valeur manquante, ce qui peut rendre l’ensemble de données plus précis au détriment du temps de calcul.
      Les données manquantes de manière séquentielle sont beaucoup plus difficiles,voire impossibles,à corriger car vous ne disposez pas de données environnantes sur lesquelles baser toute sorte de supposition.Malheureusement, certaines réponses nécessiteront ce champ,ce qui signifie que vous devrez peut-être ignorer cette séquence particulière d’enregistrements de données, ce qui peut entraîner une sortie incorrecte.

Prise en compte des désalignements de données
Des données peuvent exister pour chacun des enregistrements de données d’un ensemble de données, mais elles peuvent ne pas s’aligner sur d’autres données dans d’autres ensembles de données que vous possédez. Par exemple, les données numériques d’un champ dans un ensemble de données peuvent être de type virgule flottante (avec virgule décimale), mais de type entier dans un autre ensemble de données. Avant de pouvoir combiner les deux ensembles de données, les champs doivent contenir le même type de données.

Séparer les données utiles des autres données
Dans le cadre de la création de l’ensemble de données dont vous avez besoin pour l’analyse, vous faites une copie des données d’origine plutôt que de les modifier. Conservez toujours les données brutes d’origine pures afin de pouvoir les utiliser ultérieurement pour d’autres analyses. En outre, la création de la sortie de données appropriée pour l’analyse peut nécessiter un certain nombre d’essais, car vous pouvez constater que la sortie ne répond pas à vos besoins. Le but est de créer un ensemble de données qui ne contient que les données nécessaires à l’analyse, mais en gardant à l’esprit que les données peuvent nécessiter des types d’élagage spécifiques pour garantir le résultat souhaité.

CONSIDERER LES CINQ FAUSSES VERITES DANS LES DONNÉES

L’un des problèmes qui rendent difficile, voire impossible, la création d’une IA qui pense réellement comme un humain est que les humains peuvent travailler avec des faussetés et que les ordinateurs ne le peuvent pas. Le mieux que vous puissiez espérer est de considérer les données erronées comme des valeurs aberrantes et de les filtrer ensuite, mais cette technique ne résout pas nécessairement le problème car un humain utiliserait toujours les données et tenterait de déterminer une vérité basée sur la vérité.
Une idée courante concernant la création d’ensembles de données moins contaminés est qu’au lieu de permettre aux humains d’entrer les données, la collecte des données via des capteurs ou d’autres moyens devrait être possible. Malheureusement, les capteurs et autres méthodologies d’entrée mécanique reflètent les objectifs de leurs inventeurs humains et les limites de ce que la technologie particulière est capable de détecter. Par conséquent, même les données dérivées de machines ou de capteurs sont également susceptibles de générer des contre-vérités qui sont assez difficiles à détecter et à surmonter pour une IA.

Commission
Les faussetés de commission sont celles qui reflètent une tentative pure et simple de substituer des informations véridiques à des informations mensongères. Par exemple, en remplissant un rapport d’accident, quelqu’un pourrait déclarer que le soleil l’a momentanément aveuglé, rendant impossible de voir quelqu’un qu’ils ont frappé. En réalité, peut-être que la personne était distraite par autre chose ou ne pensait pas réellement à conduire (peut-être en considérant un bon dîner).
Les sources d’erreurs de commission sont si nombreuses qu’il est vraiment difficile d’imaginer un scénario où quelqu’un pourrait les éviter complètement. Cela dit, les faussetés de commission sont un type de fausseté que quelqu’un peut éviter le plus souvent.

Omission
Les faussetés par omission sont celles où une personne dit la vérité dans chaque fait déclaré, mais laisse de côté un fait important qui changerait la perception d’un incident dans son ensemble.
Éviter les fausses vérités par omission est presque impossible. Même si une personne se souvient plus tard de détails supplémentaires et les signale, il est peu probable que la base de données ne contienne jamais un ensemble complet de vérités.

Perspective
       Des faussetés de perspective se produisent lorsque plusieurs parties voient un incident à partir de plusieurs points de vue.
     Lorsqu’il s’agit de perspective, il est important de considérer le point de vue.
     La perspective est peut-être la plus dangereuse des contre-vérités, car quiconque essaie de déduire la vérité dans ce scénario se retrouvera, au mieux, avec une moyenne des différentes histoires, qui ne sera jamais entièrement correcte.

Biais
Les faussetés de préjugés se produisent lorsque quelqu’un est capable de voir la vérité, mais en raison de préoccupations ou de croyances personnelles, il est incapable de la voir réellement.
Un problème avec le biais est qu’il peut être incroyablement difficile à catégoriser. Par exemple, un conducteur qui ne voit pas le cerf peut avoir un véritable accident, ce qui signifie que le cerf a été caché à la vue par des arbustes. Cependant, le conducteur peut également être coupable de conduite inattentive en raison d’une mauvaise mise au point. Le conducteur peut également subir une distraction momentanée. Bref, le fait que le conducteur n’ait pas vu le cerf n’est pas la question ; au lieu de cela, il s’agit de savoir pourquoi le conducteur n’a pas vu le cerf. Dans de nombreux cas, la confirmation de la source de biais devient importante lors de la création d’un algorithme conçu pour éviter une source de biais.

Cadre de référence
Des cinq faussetés, le cadre de référence n’a pas besoin d’être le résultat d’une quelconque erreur, mais d’une erreur de compréhension. Une erreur de cadre de référence se produit lorsqu’une partie décrit quelque chose, comme un événement comme un accident, et parce qu’une deuxième partie manque d’expérience avec l’événement, les détails deviennent confus ou complètement incompris.
La meilleure façon d’éviter les erreurs de cadre de référence est de s’assurer que toutes les parties impliquées peuvent développer des cadres de référence similaires. Cependant, lorsqu’on travaille avec un ensemble de données, qui est nécessairement enregistré, des données statiques, des erreurs de cadre de référence se produiront toujours lorsque le spectateur potentiel n’aura pas les connaissances expérientielles requises. Une IA connaîtra toujours des problèmes de cadre de référence car une IA n’a pas nécessairement la capacité de créer une expérience. Une banque de données de connaissances acquises, ce n’est pas tout à fait la même chose. La banque de données contiendrait des faits, mais l’expérience est basée non seulement sur des faits mais aussi sur des conclusions que la technologie actuelle est incapable de reproduire.

DEFINIR LES LIMITES DE L’ACQUISITION DE DONNÉES

L’acquisition de données est devenue un stupéfiant pour les organisations du monde entier, et certains pensent que l’organisation qui collecte le plus gagne en quelque sorte un prix. Cependant, l’acquisition de données, en soi, n’accomplit rien. Le livre The Hitch-hiker’s Guide to the Galaxy, de Douglas Adams
(https://www.amazon.com/exec/obidos/ASIN/1400052920/datacservip0f-20/),
illustre clairement ce problème.
Le principal problème auquel toute organisation doit faire face en ce qui concerne l’acquisition de données est de savoir quelles questions poser et pourquoi les questions sont importantes. Adapter l’acquisition de données pour répondre aux questions auxquelles vous avez besoin de réponses. Il est essentiel de créer une liste de questions qui répondent à des besoins commerciaux spécifiques. Les données peuvent être faussées lorsque les conditions de leur collecte sont mal définies. Convertir une question du monde réel en un algorithme que l’ordinateur peut comprendre est un processus sujet aux erreurs. Lorsque vous combinez des données mal collectées et mal formées avec des algorithmes qui ne répondent pas réellement à vos questions, vous obtenez des résultats qui peuvent en fait conduire votre entreprise dans la mauvaise direction, c’est pourquoi l’IA est souvent blâmée pour des résultats incohérents ou peu fiables.

NOS RÉALISATIONS

Contactez-nous

LE ROLE DES DONNÉES DANS L’INTELLIGENCE ARTIFICIELLE

TROUVER DES DONNÉES OMNIPRÉSENTES À CETTE ÉPOQUE

UTILISER LES DONNÉES AVEC SUCCÈS

GÉRER LES DONNÉES

CONSIDERER LES CINQ FAUSSES VERITES DANS LES DONNÉES

DEFINIR LES LIMITES DE L’ACQUISITION DE DONNÉES

.

Notre adresse

Email

Téléphone