En intelligence artificielle, Processus de décomposition d’un texte en unités plus petites appelées « tokens ». Ces tokens peuvent être des mots, des sous-mots ou même des caractères, selon le niveau de granularité choisi. Cette étape est cruciale pour permettre à un modèle d’apprentissage automatique de comprendre et de traiter le langage humain. La tokénisation facilite la représentation numérique du texte, car chaque token est généralement associé à un identifiant unique. Cela permet d’alimenter un modèle avec des données structurées, facilitant ainsi l’analyse et l’apprentissage. De plus, elle aide à gérer la complexité linguistique en standardisant la manière dont le texte est présenté au modèle, améliorant ainsi l’efficacité de l’apprentissage automatique appliqué au traitement du langage naturel.
Pantopique(s) lié(s) :
IA
Vous pouvez compléter, modifier, améliorer cette indéfinition ou en proposer une autre au regard de vos savoirs, langages, pratiques, histoire… qu’elle soit formulée sur un mode scientifique, culturel, poétique… contact@21dialogues21.org