Caveman: la skill para reducir drásticamente el consumo de tokens

Qué es Caveman y por qué importa

Caveman es una "skill" de prompt diseñada para forzar a la IA a consumir muchos menos tokens manteniendo —o incluso mejorando— la utilidad práctica de las respuestas en tareas comunes. La estrategia central consiste en pasar de prompts verbosos y redundantes a plantillas compactas, esquemas estructurados y compresión inteligente del contexto, de modo que cada llamada al modelo sea más barata, más rápida y escalable.

Funciona mejor en tareas con intención clara (resumen, clasificación, extracción, generación limitada) y cuando se puede sacrificar algo de explicitud en favor de economía de tokens.

Principios básicos de Caveman

Minimizar contexto redundante: eliminar repeticiones y dejar solo el estado mínimo necesario.
Representación estructurada: pedir salidas en esquemas compactos (JSON, CSV, claves cortas) en vez de texto libre.
Compresión iterativa: usar el propio modelo para resumir y canonizar fragmentos largos antes de reutilizarlos.
Separación de roles: mantener reglas y plantillas en system messages para no redeclararlas en cada prompt.
Cache y embeddings: evitar re-enviar textos largos guardando embeddings o resúmenes que representen el contenido.
Few-shot compacto: cuando se usan ejemplos, comprimirlos a formatos plantilla en lugar de repetir ejemplos completos.

Cómo funciona (flujo técnico)

Canonización de la instrucción
- Convertir la instrucción humana en una forma mínima y determinista (por ejemplo: "extrae: nombre, email, fecha").
Pre-procesado por el modelo
- Pedir al modelo que convierta un texto largo en un "resumen canónico" de N tokens (N pequeño) y usar ese resumen como contexto.
Plantillas con placeholders
- Mantener una plantilla fija en system message y rellenar solo los placeholders necesarios en cada petición.
Salida estructurada y concisa
- Forzar formato JSON con claves cortas, listas compactas y sin explicaciones adicionales.
Caching compacto
- Guardar el resumen/embedding y usarlo como representación en llamadas posteriores en vez de reenviar el documento completo.

Ejemplos prácticos

Ejemplo 1 — extracción de datos (antes)

Por favor, lee el siguiente email y saca el nombre completo de la persona, su email de contacto, la ciudad donde vive y una línea con el motivo principal de su mensaje. Asegúrate de que el email es válido. Email: "Hola, soy Ana López y vivo en Madrid. Mi correo es [email protected]. Quería preguntar sobre la disponibilidad del plan premium..."

Ejemplo 1 — Caveman (después)

System: Extrae: nombre, email, ciudad, motivo. User: Response (JSON): {"n":"Ana López","e":"[email protected]","c":"Madrid","m":"consulta disponibilidad plan premium"}

Ejemplo 2 — resumen de documento largo (antes)

Resume este documento de 2.000 palabras en 5 puntos principales explicando el contexto, actores y resultados esperados. No omitas detalles importantes...

Ejemplo 2 — Caveman (después)

System: Resume en 5 viñetas, cada viñeta ≤ 20 tokens, formato lista corta. User: Paso 1: model -> resumen canónico (≈ 60 tokens) Paso 2: usar resumen canónico + plantilla -> salida de 5 viñetas compactas

Código de ejemplo (pseudo-implementación del flujo Caveman)

# flujo simplificado
def caveman_request(model, long_text, instruction_template):
    short_ctx = model.call("Resume en 60 tokens: " + long_text)  # compresión
    prompt = instruction_template.replace("{CTX}", short_ctx)
    return model.call(prompt)  # petición final muy corta

Datos y benchmarks (ejemplo ilustrativo)

Resultados de un benchmark de ejemplo (10.000 inputs variados: emails, artículos cortos, tickets de soporte):

Tokens por petición promedio
- Flujo tradicional: 820 tokens
- Caveman: 112 tokens
- Reducción: ~86%
Coste por petición (suponiendo coste lineal por token)
- Tradicional: 0.016 USD
- Caveman: 0.0022 USD
- Ahorro: ~86%
Latencia media (tokens procesados + salida)
- Tradicional: 420 ms
- Caveman: 140 ms
- Mejora: ~67%
Calidad (evaluación humana en escala 1-5 en tareas de extracción y resumen)
- Tradicional: 4.2
- Caveman: 4.0
- Observación: pequeña caída en calidad en casos con matices complejos, pero igual o mejor en tareas estructuradas.

Nota: estos números son ilustrativos de pruebas internas. Los porcentajes reales dependen mucho del tipo de tarea y de cuánto contexto original se pueda comprimir sin perder información crítica.

Ventajas y trade-offs

Ventajas

Ahorro directo en coste por token y mejor throughput.
Latencias menores y mayor escalabilidad.
Salidas más consistentes y fáciles de post-procesar (JSON corto).

Trade-offs

Pérdida potencial de matices cuando el input original es muy dependiente del contexto completo.
Requiere inversión inicial en diseño de plantillas y flujo de compresión.
Puede necesitar tuning por tipo de tarea.

Recomendaciones prácticas para implementar Caveman

Empieza por tareas estructuradas: extracción, clasificación, generación con límites.
Implementa un paso de "resumen canónico" y mide cuánto reduce tokens sin caer por debajo del umbral de calidad.
Mantén plantillas en system messages reutilizables.
Guarda resúmenes/embeddings y úsalos como representación en llamadas futuras.
Monitorea: tokens por petición, latencia, tasa de errores y métricas de calidad humana.
Crea un fallback: si la salida compacta pierde información crítica, reintentar con contexto extendido.

Conclusión

Caveman es una estrategia práctica para reducir drásticamente el consumo de tokens sin sacrificar utilidad en muchos casos de uso reales. No es una solución universal, pero como skill estándar para pipelines de producción puede reducir costes, mejorar latencias y facilitar el manejo de salidas estructuradas. Es especialmente útil en stacks donde el volumen y el coste por petición son críticos.