Combien de mots représente un token ?

En anglais, un token vaut environ 0,75 mot, soit à peu près 4 caractères. Le français et les langues plus riches en accents se découpent souvent en davantage de tokens pour un même sens. C'est une approximation : la valeur exacte dépend du tokenizer du modèle utilisé.

Qu'est-ce que la fenêtre de contexte ?

C'est le nombre maximal de tokens qu'un modèle peut traiter en un seul échange, prompt et réponse compris. Au-delà, il faut tronquer ou résumer. Une grande fenêtre, par exemple 128 000 tokens, permet d'ingérer de longs documents, mais chaque token compte aussi dans le coût.

Pourquoi les tokens influencent-ils le coût ?

La plupart des API facturent au volume de tokens, avec un tarif distinct pour l'entrée et la sortie. Un prompt long ou une réponse verbeuse augmentent donc la facture. Réduire le contexte à l'essentiel et limiter la longueur des réponses est le levier direct pour maîtriser les coûts.

Accueil / Glossaire SEO GEO / Token

GEO & IA

Token

Definition SEO et GEO

L'unité de base que traite un LLM (un mot ou un fragment de mot). Les modèles ont une limite de tokens par échange (la fenêtre de contexte) et facturent souvent au token.

Comment fonctionne Token

Avant tout traitement, le texte est découpé par un tokenizer en unités appelées tokens : souvent un mot court, un fragment de mot long ou un signe de ponctuation. Le modèle ne manipule que ces tokens, convertis en nombres. Deux limites en découlent : la fenêtre de contexte, soit le nombre maximal de tokens traités en un échange (prompt et réponse compris), et la facturation, généralement calculée au millier de tokens en entrée et en sortie. Optimiser un prompt revient souvent à économiser des tokens.

Exemple concret

Exemple

En anglais, un token vaut environ 4 caractères, soit à peu près 0,75 mot ; en français, c'est souvent un peu plus découpé. La phrase Bonjour tout le monde fait environ 5 tokens. Un article de 1 000 mots pèse donc grossièrement 1 300 à 1 500 tokens. Si un modèle affiche une fenêtre de 128 000 tokens, il peut ingérer environ 90 000 mots d'un coup, prompt et réponse inclus. Côté coût, traiter 1 million de tokens en entrée à un tarif illustratif de quelques euros incite à envoyer un contexte ciblé plutôt que tout un site brut.

En chiffres

Trois ordres de grandeur pour raisonner en tokens.

caractères par token

~0.75

mot par token en anglais

128k

tokens d'une grande fenêtre

Reperes illustratifs, a titre pedagogique. Les resultats reels varient selon la concurrence et la qualite editoriale.

Erreurs frequentes a eviter

Confondre nombre de tokens et nombre de mots exact
Oublier que la réponse consomme aussi la fenêtre de contexte
Envoyer un contexte énorme et payer des tokens inutiles
Ignorer que le français se découpe souvent en plus de tokens

Token avec Hack The SEO

Hack The SEO calcule un GEO Score par page et liste ce qui manque pour être cité par ChatGPT, Perplexity et les autres IA. Decouvrir le plugin SEO WordPress Hack The SEO.

Questions frequentes

Combien de mots représente un token ?: En anglais, un token vaut environ 0,75 mot, soit à peu près 4 caractères. Le français et les langues plus riches en accents se découpent souvent en davantage de tokens pour un même sens. C'est une approximation : la valeur exacte dépend du tokenizer du modèle utilisé.
Qu'est-ce que la fenêtre de contexte ?: C'est le nombre maximal de tokens qu'un modèle peut traiter en un seul échange, prompt et réponse compris. Au-delà, il faut tronquer ou résumer. Une grande fenêtre, par exemple 128 000 tokens, permet d'ingérer de longs documents, mais chaque token compte aussi dans le coût.
Pourquoi les tokens influencent-ils le coût ?: La plupart des API facturent au volume de tokens, avec un tarif distinct pour l'entrée et la sortie. Un prompt long ou une réponse verbeuse augmentent donc la facture. Réduire le contexte à l'essentiel et limiter la longueur des réponses est le levier direct pour maîtriser les coûts.

On en parle ?

Hack The SEO applique tout ca a votre site WordPress, pilote en langage naturel. Reservez 20 minutes, on regarde votre cas ensemble.

Reserver 20 minutes