#not working cache qwen 3 series

9 messages · Page 1 of 1 (latest)

untold crown
#

models alibaba

thin agateBOT
#

I'm an AI assistant - my answers may be incorrect and I cannot see screenshots. Please verify information with the OpenRouter docs.

Here are the Alibaba models currently available on OpenRouter:

  1. Wan 2.7: A video generation model supporting text-to-video, image-to-video with first/last frame control, and reference-to-video using multiple images. For details: Wan 2.7
  2. Wan 2.6: Advanced video generation with over 10 visual creation capabilities, including 1080p video at 24fps, multi-shot storytelling, precise lip-sync, sound effects, and aspect ratio support. For details: Wan 2.6
  3. Tongyi DeepResearch 30B A3B: A large language model (30B params, 3B active per token), optimized for deep reasoning and long-horizon tasks, with advanced agentic capabilities. For details: Tongyi DeepResearch 30B A3B

You can compare pricing, context windows, and capabilities for all Alibaba models at the alibaba API and Models page and Alibaba Cloud Int. page ("Access 3 alibaba models through the OpenRouter unified API including Wan 2.7, Wan 2.6, and Tongyi DeepResearch 30B A3B. Compare pricing, context windows, benchmarks, and capabilities between different alibaba models.").

For Qwen 3 series models, see the Qwen provider page ("Qwen 3.6 Plus, Qwen3.5-35B-A3B, Qwen3.5-27B, Qwen3.5-122B-A10B, and Qwen3.5-Flash are available with detailed specs listed.").

-# This is an automated response powered by Answer HQ. Use !mute to stop the bot from responding, or !close when your question is resolved.

untold crown
#

responda em pt-br

thin agateBOT
#

Claro! Por favor, me envie sua dúvida ou questão específica sobre os modelos da Alibaba ou da série Qwen 3, e eu responderei em português.

Se você está com problemas técnicos (“not working cache qwen 3 series”), preciso de mais informações para ajudar:

  • Qual é a mensagem de erro completa que você está recebendo?
  • Qual modelo exato da série Qwen 3 você está utilizando? (Ex: qwen3.5-35b, qwen3.5-flash, etc)
  • Qual código/função você está tentando executar?

Esses detalhes vão ajudar a identificar a causa do problema e permitir um suporte mais rápido.

-# This is an automated response powered by Answer HQ. Use !mute to stop the bot from responding, or !close when your question is resolved.

untold crown
#

Aqui eu estou utilizando o opencode Para poder usar os modelos E quando eu acesso os logs Vejo quê cachê não está sendo o utilizado mas quando acessa outros modelos como GPT OSS Mostra que utiliza cachê A partir da segunda requisição

thin agateBOT
#

Obrigado pelo detalhamento! Para analisar por que o cache não está funcionando com a série Qwen 3, preciso dessas informações:

  1. Qual modelo exato da série Qwen 3 você está usando? (exemplo: qwen3.5-35b, qwen3.5-flash, etc)
  2. Qual é o cabeçalho ou configuração que você está usando para ativar o cache? Você está enviando o header X-OpenRouter-Cache?
  3. Qual é a mensagem de resposta ou comportamento que aparece nos logs ao tentar usar o cache nesses modelos?

Esses detalhes são essenciais para entender se o modelo e o provedor realmente suportam cache, ou se há alguma configuração faltando. Aguardo suas respostas para ajudar a identificar o problema.

Sobre o funcionamento do cache, segundo a documentação:
"Para economizar nos custos de inferência, você pode habilitar o prompt caching em provedores e modelos suportados. A maioria dos provedores habilita o prompt caching automaticamente, mas alguns exigem ativação por mensagem."
Você pode ativar o cache via header X-OpenRouter-Cache ou por presets. Se o modelo não suporta cache, ele não será utilizado, mesmo que funcione em outros modelos como o GPT OSS.
Veja detalhes e exemplos em Prompt Caching.

Por favor, envie as informações solicitadas acima para que eu possa investigar melhor.

-# This is an automated response powered by Answer HQ. Use !mute to stop the bot from responding, or !close when your question is resolved.

untold crown
#

somente via opencode, qwen3.5-flash, tokens totais sem cache

thin agateBOT
#

Ótima observação! O modelo qwen3.5-flash realmente suporta caching segundo as páginas oficiais da OpenRouter (veja "Caching" listado nas features) Qwen3.5-Flash - API & Pricing.

No entanto, de acordo com os dados públicos de desempenho:

"| Provider | Input $/1M | Output $/1M | Cache Hit Rate |
| Alibaba Cloud Int. | $0.065 | $0.259 | 0.0% |"

Isso indica que, atualmente, a taxa de acerto do cache está em 0% para o provedor Alibaba Cloud Int. Ou seja, mesmo com suporte declarado, o cache não está sendo utilizado nas respostas do modelo via OpenCode/OpenRouter, e todos os tokens são cobrados normalmente Comparação de Modelos Qwen.

Esse comportamento pode variar conforme o provedor e o modelo. Recomendo acompanhar possíveis atualizações na documentação do modelo e, para confirmação oficial, consultar os canais Qwen3.5-Flash e Comparativo de Modelos.

Se precisar de cache, sugiro testar outros modelos/ provedores, pois o comportamento pode ser diferente. Para dúvidas técnicas ou se isso for crítico para seu uso, entre em contato com os mods no Discord.

-# This is an automated response powered by Answer HQ. Use !mute to stop the bot from responding, or !close when your question is resolved.

#

Bot has reached the maximum number of responses for this thread and will no longer respond.