#QMD ahorra tokens?
1 messages · Page 1 of 1 (latest)
@glossy tusk estas?
QMD sí puede ayudar a economizar, pero con un matiz importante: QMD solo afecta a “memoria/búsqueda” (memory_search), no al consumo base del modelo principal con el que chateás.
Qué ahorra QMD (y qué no)
- Ahorra: llamadas de embeddings / retrieval remotas (porque QMD corre local y hace BM25+vectores+reranking local). Eso puede bajar bastante el gasto si tu bot usa memoria_search todo el tiempo.
Docs: https://docs.openclaw.ai/concepts/memory (sección QMD backend) - No ahorra directamente: los tokens que se van en system prompt + historial + tool calls/results + imágenes + outputs gigantes. Eso normalmente es lo que explota cuando ves números tipo “millones”.
36 MILLONES “en una sesión” suena a que estás midiendo otra cosa
Muchas veces eso es uso acumulado del proveedor en la ventana del día, no “esta sesión”. Para ver lo real por turno/sesión en OpenClaw:
- En el chat del bot:
/usage tokens(te pone un footer por respuesta con input/output tokens)/status(muestra el último input/output y presión de contexto)/usage cost(resumen local por sesión desde logs)
- Para ver qué está inflando el prompt:
/context detail(o/context list)
Docs: https://docs.openclaw.ai/reference/token-use
Causas típicas de consumo absurdo (y fixes)
- Tool outputs enormes (browser snapshots, logs, PDFs, etc.) → recortar/simplificar outputs.
- Imágenes/screenshot heavy → bajar
agents.defaults.imageMaxDimensionPx. - Sesión larguísima sin compactar → usar
/compact. - Bootstrap gigantes (AGENTS/SOUL/MEMORY/etc.) → revisar tamaño y/o ajustar
agents.defaults.bootstrapMaxChars/bootstrapTotalMaxChars(ver la página de token-use).
Para ayudarte de verdad, pegá esto
openclaw --version- una captura o copy/paste de
/status - y decime si esos “36M” los viste en /usage cost o en el usage del proveedor (ventana diaria)
Con eso se ve en 2 minutos si QMD te movería la aguja o si el problema es “contexto/herramientas” (que es lo más común).