PulsaFormation
Retour au parcours
Ressource

Glossaire IA & Data

68 termes de la Data et de l'IA expliqués simplement, sans jargon — pour les professionnels qui veulent comprendre et décider.

A

Agent IA (agent autonome)
Une IA qui exécute des actions et enchaîne plusieurs étapes pour atteindre un objectif, de façon autonome — sous votre supervision. À distinguer d'un simple assistant qui se contente de répondre.
AI Act
Le règlement européen qui encadre les usages de l'IA selon leur niveau de risque (de l'usage anodin à l'usage interdit).
Algorithme
Une suite d'instructions précises pour résoudre un problème, étape par étape.
Anonymisation
Remplacer les informations sensibles (noms, montants, références) par des marqueurs neutres avant de confier un texte à une IA.
Apprentissage non supervisé
Le modèle trouve seul des régularités dans des données sans étiquettes. Utilisé pour le regroupement (clustering) et la détection d'anomalies.
Apprentissage supervisé
Entraînement d'un modèle sur des données étiquetées (chaque exemple est accompagné de la bonne réponse). Idéal pour prédire une panne, classer un défaut.
Assistant (copilote)
Une IA qui répond et aide (chercher, rédiger, résumer), dans un contexte maîtrisé et sous supervision humaine.
Automatisation
Exécuter une tâche répétitive selon des règles fixes, sans intervention humaine. À ne pas confondre avec l'IA, qui apprend.

B

Biais
Quand un modèle reproduit (voire amplifie) les inégalités ou erreurs présentes dans ses données d'entraînement.
Big Data
Des volumes de données trop grands ou trop rapides pour les outils classiques : ils demandent des moyens de stockage et de traitement spécifiques.

C

Chatbot
Un programme qui simule une conversation. Les chatbots modernes s'appuient sur des LLM pour des réponses contextuelles.
ChatGPT
L'assistant conversationnel d'OpenAI, basé sur les modèles GPT. Polyvalent. Voir notre comparatif des assistants.
Claude
L'assistant d'Anthropic, à l'aise sur l'analyse de longs documents et le raisonnement structuré. Voir le comparatif.
Cloud
Des serveurs loués, accessibles en ligne : mise en route immédiate et paiement à l'usage, mais les données sortent de vos murs.
Clustering (regroupement)
Technique qui regroupe automatiquement des données similaires. Utile pour la segmentation client ou le diagnostic de pannes.
Computer Vision (vision par ordinateur)
La branche de l'IA qui analyse images et vidéos : contrôle qualité visuel, lecture de plaques, détection de défauts.
Coût à l'usage
Une facturation proportionnelle à l'utilisation (souvent au « token ») : plus on utilise, plus la facture grimpe.

D

Data Lake (lac de données)
Un réservoir où l'on stocke les données brutes dans leur format d'origine, sans transformation préalable.
Data viz (visualisation de données)
Mettre en forme des données existantes (tableaux de bord, graphiques) pour décider plus vite.
Data Warehouse (entrepôt de données)
Une base structurée et optimisée pour l'analyse décisionnelle et le reporting.
Datacenter
Un centre de données où des machines puissantes hébergent et font tourner les modèles d'IA.
Dataset (jeu de données)
L'ensemble de données utilisé pour entraîner ou tester un modèle.
Deep learning (apprentissage profond)
Une forme de machine learning à base de réseaux de neurones à plusieurs couches, à l'origine du bond de l'IA depuis 2012.
DeepSeek
Une famille de modèles open source d'origine chinoise, réputée performante et économique.
Donnée
Un fait brut enregistré : un nombre, un texte, une image, un horodatage.
Donnée structurée / non structurée
Structurée : tient dans un tableau (Excel, base). Non structurée : e-mails, photos, PDF — la majorité des données en entreprise.

E

Entraînement (training)
La phase où un modèle apprend à partir d'exemples. Peut demander des jours de calcul sur des GPU puissants.
ETL (Extract, Transform, Load)
Le processus qui extrait, nettoie puis charge les données — la « plomberie » qui rend une donnée exploitable.

F

Fine-tuning (spécialisation)
Réentraîner un modèle déjà existant sur vos propres données pour l'adapter à une tâche précise.

G

GPT
La famille de modèles génératifs d'OpenAI (Generative Pre-trained Transformer), au cœur de ChatGPT.
GPU
Des cartes graphiques spécialisées, indispensables (et coûteuses) pour entraîner et faire tourner l'IA grâce à leur calcul massivement parallèle.

H

Hallucination
Quand une IA affirme une information fausse avec assurance. À vérifier systématiquement — surtout en contexte industriel.

I

IA (intelligence artificielle)
Des programmes capables de tâches qui semblent demander de l'intelligence : reconnaître, prédire, générer.
IA embarquée (edge)
Un modèle qui tourne au plus près du terrain (machine, caméra) : réponse instantanée, sans connexion, données qui restent sur site.
IA générative
Une IA qui crée du contenu nouveau (texte, image, code, présentation). Voir notre guide pour l'industrie.
IA prédictive
Une IA qui anticipe (une panne, une demande) à partir d'un historique de données.
Inférence
La phase où un modèle déjà entraîné produit une réponse ou une prédiction sur une nouvelle donnée.
IoT (Internet des objets)
Des objets connectés qui captent des données. Couplé à l'IA, l'IoT permet la maintenance prédictive et l'optimisation en temps réel.

L

Llama
La famille de modèles open source de Meta.
LLM (grand modèle de langage)
Un modèle entraîné sur d'immenses corpus de texte, qui prédit le mot suivant le plus probable. La base des chatbots modernes.

M

Machine learning (apprentissage automatique)
Une IA qui apprend des régularités à partir d'exemples, au lieu de suivre des règles écrites à la main.
Méthode CAR
Contexte, Action, Résultat attendu : la structure d'un bon prompt, signature Pulsa. Voir le guide du prompt.
Mistral
Le champion français de l'IA : modèles performants, souverains, excellents en français. Voir le comparatif.
Modèle
Le « cerveau » entraîné, capable de répondre une fois l'apprentissage terminé.
Multimodal
Un modèle capable de combiner plusieurs formats (texte, image, voix) dans une même interaction.

N

NLP (traitement du langage naturel)
Le domaine de l'IA qui comprend et produit du langage humain.

O

On-premise (sur site)
L'IA installée sur vos propres serveurs : données chez vous et contrôle maximal, mais investissement et compétences requis.
Open source
Un logiciel dont le code (ou les « poids » du modèle) est librement accessible. Clé pour la souveraineté et l'auditabilité.
OpenAI
L'entreprise américaine créatrice de ChatGPT, GPT et DALL·E.
Overfitting (surapprentissage)
Quand un modèle colle trop aux données d'entraînement et généralise mal sur de nouveaux cas.

P

Pipeline de données
L'enchaînement des étapes du cycle de la donnée : collecte → stockage → nettoyage → analyse → décision.
Prompt
L'instruction que vous donnez à une IA générative. Sa qualité détermine la qualité de la réponse.
Prompt engineering
L'art de formuler des prompts efficaces. Voir notre guide complet.
Python
Le langage de programmation dominant en data science et IA, grâce à son écosystème de bibliothèques.

R

RAG (Retrieval-Augmented Generation)
Faire répondre une IA à partir de vos documents, en les lui fournissant au moment de la question — la principale parade aux hallucinations.
Régression
Une technique de machine learning qui prédit une valeur numérique continue (température, prix, durée).
Réseau de neurones
Une structure de calcul inspirée du cerveau, faite de couches de « neurones » artificiels interconnectés.
RGPD
Le règlement européen de protection des données personnelles, applicable à toute entreprise.

S

Scikit-learn
Une bibliothèque Python de machine learning, la référence pour débuter en data science.
Série temporelle
Une suite de données indexées par le temps. Essentielle pour la prévision de demande et la maintenance prédictive.
Shadow IA
L'usage de l'IA dans l'entreprise sans cadre ni validation (comptes perso, données collées) — d'où le besoin d'une charte.
SQL
Le langage standard pour interroger et manipuler des bases de données relationnelles. Compétence data fondamentale.

T

TensorFlow
Une bibliothèque open source de machine learning développée par Google, très utilisée en production.
Token
Un fragment de mot ; l'unité de mesure et de facturation des modèles de langage (≈ 0,75 mot en français).
Transformer
L'architecture (2017) à l'origine des IA de langage actuelles (GPT, Claude, Mistral…).

V

Vectorisation
Transformer des données (texte, image) en vecteurs de nombres que les algorithmes peuvent comparer et traiter.
Vérité terrain (ground truth)
Les données de référence considérées comme correctes, qui servent à évaluer la performance d'un modèle.

Z

Zero-shot learning
La capacité d'un modèle à réaliser une tâche pour laquelle il n'a pas été spécifiquement entraîné.

Ces mots vous parlent enfin ?

Passez à la pratique avec le parcours « Les Fondamentaux de la Data & de l'IA » — 20 h, 90 % de pratique.

Découvrir le parcours