找到一种方法:用LM Studio 和 llmster 可以把qwen3.5改成nothinking版本装载来提高响应速度

张开发
2026/4/4 21:00:04 15 分钟阅读

分享文章

找到一种方法:用LM Studio 和 llmster 可以把qwen3.5改成nothinking版本装载来提高响应速度
废话不多说直接拿Qwen3.5-9B-Q4_K_M.gguf模型举例先用get命令下载这个模型可以正常使用后。找到模型目录如用户目录~/.lmstudio/models/lmstudio-community/Qwen3.5-9B-GGUF[rootlocalhost ~]# cd .lmstudio/models/lmstudio-community[rootlocalhost lmstudio-community]# ls -al总用量 0drwxr-xr-x. 5 root root 90 3月 25 17:12 .drwxr-xr-x. 3 root root 32 3月 19 16:39 ..drwxr-xr-x. 2 root root 71 3月 25 16:34 Qwen3.5-9B-GGUF然后新建一个同样的目录带上后缀如[rootlocalhost lmstudio-community]# mkdir Qwen3.5-9B-GGUF-no-thinking[rootlocalhost lmstudio-community]# ls -al总用量 0drwxr-xr-x. 5 root root 90 3月 25 17:12 .drwxr-xr-x. 3 root root 32 3月 19 16:39 ..drwxr-xr-x. 2 root root 71 3月 25 16:34 Qwen3.5-9B-GGUFdrwxr-xr-x. 2 root root 24 3月 25 17:43 Qwen3.5-9B-GGUF-no-thinking进入这个新建录目并建立一个model.yaml文件[rootlocalhost lmstudio-community]# cd Qwen3.5-9B-GGUF-no-thinking/[rootlocalhost Qwen3.5-9B-GGUF-no-thinking]# vim model.yaml# 将如下内容存进去。注意缩进格式要一样每层都是靠两个空格model: lmstudio-community/Qwen3.5-9B-GGUF-no-thinkingbase: lmstudio-community/Qwen3.5-9B-GGUF/Qwen3.5-9B-Q4_K_M.ggufmetadataOverrides:reasoning: falsecustomFields:- key: enableThinkingdisplayName: Enable Thinkingdescription: Whether to allow thinking output before the final answertype: booleandefaultValue: falseeffects:- type: setJinjaVariablevariable: enable_thinking完了后你的模型列表就会多一个模型出来执行命令lms ls这时候通过命令行lms load 还可能装载不进去(llmster此处还有bug)。要通过界面进行装载。回到windows的 LM Studio界面上因为已经通过LM Link互联上了按CTRL L弹出窗口中应该已经有了这个模型如果没有会有错误提示你再修改model.yaml文件。打开下面的手工调整模型参数开关点击选中模型显示参数窗口托动条调整上下文长度16k左右不要一下子调到200k要一点一点的向大里试和卸载到内存层数32然后装载模型。装载成功后回到命令行试一下lms chat/model选这个no-thinking模型聊几句看看正常否。/exit退出启动接口服务lms server start --help 查一下帮助lms server start --bind 0.0.0.0 --port 1234 --cors(允许跨域)在防火墙上开端口firewall-cmd --add-port 1234/tcp这时候就可以在你项目里配上本地地址了不管是openclaw还是openwebui以及anythingllmn8同时也支持clade codeurl和open ai的不一样多个messageshttp://192.168.0.121:1234/v1/messages可以等等。open ai格式url :http://192.168.0.121:1234/v1key:lmstudio(随便输一个不能空模型Qwen3.5-9B-GGUF-no-thinking同样的方法也适用别的带深度思考的模型只需改改model.yaml文件的前两行就行了。

更多文章