Laboratorio

Tokenizador interactivo

Los LLM no leen letras ni palabras: leen tokens. Escribe abajo y observa cómo el encoding o200k_base (el de los modelos recientes de OpenAI) trocea tu texto. El tokenizador (~800 KB) se descarga la primera vez que escribes.

100% en tu navegador: nada de lo que escribas sale de tu dispositivo.

Tu texto

0tokens

0caracteres

—chars/token

Qué estás viendo

Cada bloque de color es un token: la unidad mínima que procesa el modelo. Las palabras frecuentes en inglés suelen ser un solo token; el español se fragmenta algo más, y las palabras raras o muy largas se rompen en varios trozos. Por eso el coste de una petición y el límite de la ventana de contexto se miden en tokens, no en palabras.

Nota: cada familia de modelos usa su propio tokenizador. Este es o200k_base; los modelos de Anthropic o Google darían recuentos parecidos pero no idénticos.