#anything llm
1 messages · Page 1 of 1 (latest)
Si te refieres a OpenClaw, ojo con esto: AnythingLLM no es la pieza que “guarda la sesión” para gastar menos tokens.
OpenClaw ya hace eso por su lado:
- guarda el historial en disco
- compacta conversaciones largas
- puede usar memory
- puede usar prompt caching con algunos providers
Entonces, la respuesta corta es:
- Sí puedes conectarlo si AnythingLLM expone una API OpenAI-compatible (
/v1). - Pero eso no garantiza menos tokens. De hecho, con proxies OpenAI-compatible se pueden perder optimizaciones de cache nativas.
- Si AnythingLLM está usando un modelo local, ahí sí bajas costo porque la inferencia es local.
Para ahorrar tokens de verdad en OpenClaw, yo haría esto:
{
agents: {
defaults: {
params: { cacheRetention: "long" },
contextPruning: {
mode: "cache-ttl",
ttl: "1h"
}
}
}
}
Y si quieres memoria entre sesiones:
{
agents: {
defaults: {
memorySearch: {
experimental: {
sessionMemory: true
},
sources: ["memory", "sessions"]
}
}
}
}
Si igual quieres usar AnythingLLM como backend, sería por la ruta de provider OpenAI-compatible, algo así:
{
agents: {
defaults: {
model: { primary: "local/tu-modelo" },
models: {
"local/tu-modelo": { alias: "Local" }
}
}
},
models: {
mode: "merge",
providers: {
local: {
baseUrl: "http://TU-HOST:PUERTO/v1",
apiKey: "sk-local",
api: "openai-completions",
models: [
{
id: "tu-modelo",
name: "Tu modelo local",
reasoning: false,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 200000,
maxTokens: 8192
}
]
}
}
}
}
Docs útiles:
- https://docs.openclaw.ai/gateway/local-models
- https://docs.openclaw.ai/concepts/memory
- https://docs.openclaw.ai/reference/memory-config
- https://docs.openclaw.ai/reference/prompt-caching
Si quieres, te ayudo a dejarlo exacto para tu setup. Pégame estas 3 cosas:
openclaw --version- la URL/baseUrl que expone AnythingLLM
- el model id que te muestra AnythingLLM
y te paso el bloque JSON5 listo para pegar.
hay alguna manera eficiente de guardar la sesion de manera local para optimizar tokens? estoy corriendo minimax m2.7 cloud via ollama, usar una base de datos vectorial
Sí, pero la forma eficiente no es meter toda la sesión en una vector DB y volver a mandarla al modelo.
Lo que mejor funciona es este patrón:
- historial completo en disco
- compaction para resumir turns viejos
- memory para guardar hechos durables
- retrieval selectivo de snippets relevantes
O sea, la vector DB sirve para recall, no como “session store” principal.
Para OpenClaw, yo empezaría así, sin DB externa:
{
agents: {
defaults: {
contextPruning: {
mode: "cache-ttl",
ttl: "1h"
},
memorySearch: {
experimental: {
sessionMemory: true
},
sources: ["memory", "sessions"]
}
}
}
}
Recomendación realista
- Sí a guardar localmente la sesión
- Sí a indexar sesiones para recall
- No a depender de una vector DB externa de entrada
- Empieza con el backend builtin de OpenClaw, que ya usa SQLite + vector/hybrid search
Si luego quieres algo más serio:
- builtin: el mejor punto de partida
- QMD: mejor si quieres indexing más avanzado/local-first
- Honcho: más “AI-native”, pero ya es otra liga
Importante con tu setup
Si estás usando MiniMax/Ollama/OpenAI-compatible proxy, no contaría mucho con prompt caching del provider.
Ahí el ahorro viene más por:
- compaction
- pruning
- retrieval