#anything llm

1 messages · Page 1 of 1 (latest)

steel aspen
#

tengo anything llm instalado, como lo conecto para que asi la sesion se vaya guardadno y gaste menos tokens?

deep baneBOT
#

Si te refieres a OpenClaw, ojo con esto: AnythingLLM no es la pieza que “guarda la sesión” para gastar menos tokens.

OpenClaw ya hace eso por su lado:

  • guarda el historial en disco
  • compacta conversaciones largas
  • puede usar memory
  • puede usar prompt caching con algunos providers

Entonces, la respuesta corta es:

  1. Sí puedes conectarlo si AnythingLLM expone una API OpenAI-compatible (/v1).
  2. Pero eso no garantiza menos tokens. De hecho, con proxies OpenAI-compatible se pueden perder optimizaciones de cache nativas.
  3. Si AnythingLLM está usando un modelo local, ahí sí bajas costo porque la inferencia es local.

Para ahorrar tokens de verdad en OpenClaw, yo haría esto:

#
{
  agents: {
    defaults: {
      params: { cacheRetention: "long" },
      contextPruning: {
        mode: "cache-ttl",
        ttl: "1h"
      }
    }
  }
}

Y si quieres memoria entre sesiones:

#
{
  agents: {
    defaults: {
      memorySearch: {
        experimental: {
          sessionMemory: true
        },
        sources: ["memory", "sessions"]
      }
    }
  }
}

Si igual quieres usar AnythingLLM como backend, sería por la ruta de provider OpenAI-compatible, algo así:

#
{
  agents: {
    defaults: {
      model: { primary: "local/tu-modelo" },
      models: {
        "local/tu-modelo": { alias: "Local" }
      }
    }
  },
  models: {
    mode: "merge",
    providers: {
      local: {
        baseUrl: "http://TU-HOST:PUERTO/v1",
        apiKey: "sk-local",
#
        api: "openai-completions",
        models: [
          {
            id: "tu-modelo",
            name: "Tu modelo local",
            reasoning: false,
            input: ["text"],
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
            contextWindow: 200000,
            maxTokens: 8192
          }
        ]
      }
    }
  }
steel aspen
#

hay alguna manera eficiente de guardar la sesion de manera local para optimizar tokens? estoy corriendo minimax m2.7 cloud via ollama, usar una base de datos vectorial

deep baneBOT
#

Sí, pero la forma eficiente no es meter toda la sesión en una vector DB y volver a mandarla al modelo.

Lo que mejor funciona es este patrón:

  1. historial completo en disco
  2. compaction para resumir turns viejos
  3. memory para guardar hechos durables
  4. retrieval selectivo de snippets relevantes

O sea, la vector DB sirve para recall, no como “session store” principal.

Para OpenClaw, yo empezaría así, sin DB externa:

{
  agents: {
#
    defaults: {
      contextPruning: {
        mode: "cache-ttl",
        ttl: "1h"
      },
      memorySearch: {
        experimental: {
          sessionMemory: true
        },
        sources: ["memory", "sessions"]
      }
    }
  }
}
#

Recomendación realista

  • a guardar localmente la sesión
  • a indexar sesiones para recall
  • No a depender de una vector DB externa de entrada
  • Empieza con el backend builtin de OpenClaw, que ya usa SQLite + vector/hybrid search

Si luego quieres algo más serio:

  • builtin: el mejor punto de partida
  • QMD: mejor si quieres indexing más avanzado/local-first
  • Honcho: más “AI-native”, pero ya es otra liga

Importante con tu setup

Si estás usando MiniMax/Ollama/OpenAI-compatible proxy, no contaría mucho con prompt caching del provider.
Ahí el ahorro viene más por:

  • compaction
  • pruning
  • retrieval