LLM Deployment
vLLM
唯一目前支持 tool parser 以及自动工具调用的推理工具,可惜在 macOS 中只支持 CPU 模式。
在 langchain 强制绑定工具调用时需要启动特定工具选项,下面拿 MiroThinker-v1.0-8B 举例:
Runpod
--host 0.0.0.0 --port 8001 --model miromind-ai/MiroThinker-v1.0-8B --dtype bfloat16 --max-model-len 32768 --max-num-batched-tokens 65536 --tensor-parallel-size 1 --enable-auto-tool-choice --tool-call-parser hermes --trust-remote-code --api-key YOUR_API_KEY
Linux
vllm serve miromind-ai/MiroThinker-v1.0-8B \
--host 0.0.0.0 \
--port 8001 \
--dtype bfloat16 \
--max-model-len 32768 \
--max-num-batched-tokens 65536 \
--tensor-parallel-size 1 \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--trust-remote-code \
--api-key YOUR_API_KEY
80GB 显存,如 A100-80G, H100 - 推荐设置:--max-model-len 65536 或 131072,需要比请求里的 max_tokens 参数大
macOS
uv run mlx_lm.server --model miromind-ai/MiroThinker-v1.0-8B --port 8001 --host 0.0.0.0 --temp 1.0 --top-p 0.95 --max-tokens 16384
在不清楚 --tool-call-parser 的情况下,粘贴模型的 chat_template.jinja 代码给 Gemini 分析即可