#anything llm

11 messages · Page 1 of 1 (latest)

steel aspen Apr 16, 2026, 2:22 AM

tengo anything llm instalado, como lo conecto para que asi la sesion se vaya guardadno y gaste menos tokens?

deep baneBOT Apr 16, 2026, 2:25 AM

Si te refieres a OpenClaw, ojo con esto: AnythingLLM no es la pieza que “guarda la sesión” para gastar menos tokens.

OpenClaw ya hace eso por su lado:

guarda el historial en disco
compacta conversaciones largas
puede usar memory
puede usar prompt caching con algunos providers

Entonces, la respuesta corta es:

Sí puedes conectarlo si AnythingLLM expone una API OpenAI-compatible (/v1).
Pero eso no garantiza menos tokens. De hecho, con proxies OpenAI-compatible se pueden perder optimizaciones de cache nativas.
Si AnythingLLM está usando un modelo local, ahí sí bajas costo porque la inferencia es local.

Para ahorrar tokens de verdad en OpenClaw, yo haría esto:

{
  agents: {
    defaults: {
      params: { cacheRetention: "long" },
      contextPruning: {
        mode: "cache-ttl",
        ttl: "1h"
      }
    }
  }
}

Y si quieres memoria entre sesiones:

{
  agents: {
    defaults: {
      memorySearch: {
        experimental: {
          sessionMemory: true
        },
        sources: ["memory", "sessions"]
      }
    }
  }
}

Si igual quieres usar AnythingLLM como backend, sería por la ruta de provider OpenAI-compatible, algo así:

{
  agents: {
    defaults: {
      model: { primary: "local/tu-modelo" },
      models: {
        "local/tu-modelo": { alias: "Local" }
      }
    }
  },
  models: {
    mode: "merge",
    providers: {
      local: {
        baseUrl: "http://TU-HOST:PUERTO/v1",
        apiKey: "sk-local",

        api: "openai-completions",
        models: [
          {
            id: "tu-modelo",
            name: "Tu modelo local",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 200000,
            maxTokens: 8192
          }
        ]
      }
    }
  }

Docs útiles:

Si quieres, te ayudo a dejarlo exacto para tu setup. Pégame estas 3 cosas:

openclaw --version
la URL/baseUrl que expone AnythingLLM
el model id que te muestra AnythingLLM

y te paso el bloque JSON5 listo para pegar.

steel aspen Apr 16, 2026, 2:28 AM

hay alguna manera eficiente de guardar la sesion de manera local para optimizar tokens? estoy corriendo minimax m2.7 cloud via ollama, usar una base de datos vectorial

deep baneBOT Apr 16, 2026, 2:28 AM

Sí, pero la forma eficiente no es meter toda la sesión en una vector DB y volver a mandarla al modelo.

Lo que mejor funciona es este patrón:

historial completo en disco
compaction para resumir turns viejos
memory para guardar hechos durables
retrieval selectivo de snippets relevantes

O sea, la vector DB sirve para recall, no como “session store” principal.

Para OpenClaw, yo empezaría así, sin DB externa:

{
  agents: {

    defaults: {
      contextPruning: {
        mode: "cache-ttl",
        ttl: "1h"
      },
      memorySearch: {
        experimental: {
          sessionMemory: true
        },
        sources: ["memory", "sessions"]
      }
    }
  }
}

Recomendación realista

Sí a guardar localmente la sesión
Sí a indexar sesiones para recall
No a depender de una vector DB externa de entrada
Empieza con el backend builtin de OpenClaw, que ya usa SQLite + vector/hybrid search

Si luego quieres algo más serio:

builtin: el mejor punto de partida
QMD: mejor si quieres indexing más avanzado/local-first
Honcho: más “AI-native”, pero ya es otra liga

Importante con tu setup

Si estás usando MiniMax/Ollama/OpenAI-compatible proxy, no contaría mucho con prompt caching del provider.
Ahí el ahorro viene más por:

compaction
pruning
retrieval