Ошибка request (...) exceeds the available context size (16384 tokens) приходит от llama.cpp, то есть сейчас твой сервер реально работает с n_ctx=16384, несмотря на -c 65536. А OpenClaw просто отображает то, что у него выходит по “контексту модели” (и ещё может чуть промахиваться в подсчёте токенов из‑за другого токенизатора, поэтому вылезло 16616 vs 16384).
1) Сначала проверь, какой ctx реально поднялся в контейнере
Посмотри стартовые логи — там llama.cpp печатает n_ctx:
docker logs omnicoder-9b | rg -i "n_ctx|ctx"
Если там n_ctx = 16384, значит -c 65536 не применился или был урезан (часто из-за памяти, особенно с --parallel 4 и q8 KV cache).
Что попробовать для теста:
- временно поставить
--parallel 1 - и/или снизить
-c(например, 32768), чтобы убедиться что вообще меняется - и только потом разгонять до 65536