#not working cache qwen 3 series
9 messages · Page 1 of 1 (latest)
I'm an AI assistant - my answers may be incorrect and I cannot see screenshots. Please verify information with the OpenRouter docs.
Here are the Alibaba models currently available on OpenRouter:
- Wan 2.7: A video generation model supporting text-to-video, image-to-video with first/last frame control, and reference-to-video using multiple images. For details: Wan 2.7
- Wan 2.6: Advanced video generation with over 10 visual creation capabilities, including 1080p video at 24fps, multi-shot storytelling, precise lip-sync, sound effects, and aspect ratio support. For details: Wan 2.6
- Tongyi DeepResearch 30B A3B: A large language model (30B params, 3B active per token), optimized for deep reasoning and long-horizon tasks, with advanced agentic capabilities. For details: Tongyi DeepResearch 30B A3B
You can compare pricing, context windows, and capabilities for all Alibaba models at the alibaba API and Models page and Alibaba Cloud Int. page ("Access 3 alibaba models through the OpenRouter unified API including Wan 2.7, Wan 2.6, and Tongyi DeepResearch 30B A3B. Compare pricing, context windows, benchmarks, and capabilities between different alibaba models.").
For Qwen 3 series models, see the Qwen provider page ("Qwen 3.6 Plus, Qwen3.5-35B-A3B, Qwen3.5-27B, Qwen3.5-122B-A10B, and Qwen3.5-Flash are available with detailed specs listed.").
-# This is an automated response powered by Answer HQ. Use !mute to stop the bot from responding, or !close when your question is resolved.
responda em pt-br
Claro! Por favor, me envie sua dúvida ou questão específica sobre os modelos da Alibaba ou da série Qwen 3, e eu responderei em português.
Se você está com problemas técnicos (“not working cache qwen 3 series”), preciso de mais informações para ajudar:
- Qual é a mensagem de erro completa que você está recebendo?
- Qual modelo exato da série Qwen 3 você está utilizando? (Ex: qwen3.5-35b, qwen3.5-flash, etc)
- Qual código/função você está tentando executar?
Esses detalhes vão ajudar a identificar a causa do problema e permitir um suporte mais rápido.
-# This is an automated response powered by Answer HQ. Use !mute to stop the bot from responding, or !close when your question is resolved.
Aqui eu estou utilizando o opencode Para poder usar os modelos E quando eu acesso os logs Vejo quê cachê não está sendo o utilizado mas quando acessa outros modelos como GPT OSS Mostra que utiliza cachê A partir da segunda requisição
Obrigado pelo detalhamento! Para analisar por que o cache não está funcionando com a série Qwen 3, preciso dessas informações:
- Qual modelo exato da série Qwen 3 você está usando? (exemplo: qwen3.5-35b, qwen3.5-flash, etc)
- Qual é o cabeçalho ou configuração que você está usando para ativar o cache? Você está enviando o header X-OpenRouter-Cache?
- Qual é a mensagem de resposta ou comportamento que aparece nos logs ao tentar usar o cache nesses modelos?
Esses detalhes são essenciais para entender se o modelo e o provedor realmente suportam cache, ou se há alguma configuração faltando. Aguardo suas respostas para ajudar a identificar o problema.
Sobre o funcionamento do cache, segundo a documentação:
"Para economizar nos custos de inferência, você pode habilitar o prompt caching em provedores e modelos suportados. A maioria dos provedores habilita o prompt caching automaticamente, mas alguns exigem ativação por mensagem."
Você pode ativar o cache via header X-OpenRouter-Cache ou por presets. Se o modelo não suporta cache, ele não será utilizado, mesmo que funcione em outros modelos como o GPT OSS.
Veja detalhes e exemplos em Prompt Caching.
Por favor, envie as informações solicitadas acima para que eu possa investigar melhor.
-# This is an automated response powered by Answer HQ. Use !mute to stop the bot from responding, or !close when your question is resolved.
somente via opencode, qwen3.5-flash, tokens totais sem cache
Ótima observação! O modelo qwen3.5-flash realmente suporta caching segundo as páginas oficiais da OpenRouter (veja "Caching" listado nas features) Qwen3.5-Flash - API & Pricing.
No entanto, de acordo com os dados públicos de desempenho:
"| Provider | Input $/1M | Output $/1M | Cache Hit Rate |
| Alibaba Cloud Int. | $0.065 | $0.259 | 0.0% |"
Isso indica que, atualmente, a taxa de acerto do cache está em 0% para o provedor Alibaba Cloud Int. Ou seja, mesmo com suporte declarado, o cache não está sendo utilizado nas respostas do modelo via OpenCode/OpenRouter, e todos os tokens são cobrados normalmente Comparação de Modelos Qwen.
Esse comportamento pode variar conforme o provedor e o modelo. Recomendo acompanhar possíveis atualizações na documentação do modelo e, para confirmação oficial, consultar os canais Qwen3.5-Flash e Comparativo de Modelos.
Se precisar de cache, sugiro testar outros modelos/ provedores, pois o comportamento pode ser diferente. Para dúvidas técnicas ou se isso for crítico para seu uso, entre em contato com os mods no Discord.
-# This is an automated response powered by Answer HQ. Use !mute to stop the bot from responding, or !close when your question is resolved.
Bot has reached the maximum number of responses for this thread and will no longer respond.