找到一种方法：用LM Studio 和 llmster 可以把qwen3.5改成nothinking版本装载来提高响应速度

张开发

• 2026/6/7 1:40:44 • 15 分钟阅读

分享文章

找到一种方法：用LM Studio 和 llmster 可以把qwen3.5改成nothinking版本装载来提高响应速度

废话不多说直接拿Qwen3.5-9B-Q4_K_M.gguf模型举例先用get命令下载这个模型可以正常使用后。找到模型目录如用户目录~/.lmstudio/models/lmstudio-community/Qwen3.5-9B-GGUF[rootlocalhost ~]# cd .lmstudio/models/lmstudio-community[rootlocalhost lmstudio-community]# ls -al总用量 0drwxr-xr-x. 5 root root 90 3月 25 17:12 .drwxr-xr-x. 3 root root 32 3月 19 16:39 ..drwxr-xr-x. 2 root root 71 3月 25 16:34 Qwen3.5-9B-GGUF然后新建一个同样的目录带上后缀如[rootlocalhost lmstudio-community]# mkdir Qwen3.5-9B-GGUF-no-thinking[rootlocalhost lmstudio-community]# ls -al总用量 0drwxr-xr-x. 5 root root 90 3月 25 17:12 .drwxr-xr-x. 3 root root 32 3月 19 16:39 ..drwxr-xr-x. 2 root root 71 3月 25 16:34 Qwen3.5-9B-GGUFdrwxr-xr-x. 2 root root 24 3月 25 17:43 Qwen3.5-9B-GGUF-no-thinking进入这个新建录目并建立一个model.yaml文件[rootlocalhost lmstudio-community]# cd Qwen3.5-9B-GGUF-no-thinking/[rootlocalhost Qwen3.5-9B-GGUF-no-thinking]# vim model.yaml# 将如下内容存进去。注意缩进格式要一样每层都是靠两个空格model: lmstudio-community/Qwen3.5-9B-GGUF-no-thinkingbase: lmstudio-community/Qwen3.5-9B-GGUF/Qwen3.5-9B-Q4_K_M.ggufmetadataOverrides:reasoning: falsecustomFields:- key: enableThinkingdisplayName: Enable Thinkingdescription: Whether to allow thinking output before the final answertype: booleandefaultValue: falseeffects:- type: setJinjaVariablevariable: enable_thinking完了后你的模型列表就会多一个模型出来执行命令lms ls这时候通过命令行lms load 还可能装载不进去(llmster此处还有bug)。要通过界面进行装载。回到windows的 LM Studio界面上因为已经通过LM Link互联上了按CTRL L弹出窗口中应该已经有了这个模型如果没有会有错误提示你再修改model.yaml文件。打开下面的手工调整模型参数开关点击选中模型显示参数窗口托动条调整上下文长度16k左右不要一下子调到200k要一点一点的向大里试和卸载到内存层数32然后装载模型。装载成功后回到命令行试一下lms chat/model选这个no-thinking模型聊几句看看正常否。/exit退出启动接口服务lms server start --help 查一下帮助lms server start --bind 0.0.0.0 --port 1234 --cors(允许跨域)在防火墙上开端口firewall-cmd --add-port 1234/tcp这时候就可以在你项目里配上本地地址了不管是openclaw还是openwebui以及anythingllmn8同时也支持clade codeurl和open ai的不一样多个messageshttp://192.168.0.121:1234/v1/messages可以等等。open ai格式url :http://192.168.0.121:1234/v1key:lmstudio(随便输一个不能空模型Qwen3.5-9B-GGUF-no-thinking同样的方法也适用别的带深度思考的模型只需改改model.yaml文件的前两行就行了。

更多文章

前端开发 2026/6/3 7:13:21

【skill-creator 】技术解析：Claude Code 元技能系统的设计原理与核心特点

文章目录skill-creator 技术解析：Claude Code 元技能系统的设计原理与核心特点一、引言二、Skill 系统全景2.1 什么是 Skill2.2 Skill 在生态中的定位三、Skill 文件结构解析3.1 文件格式规范3.2 指令内容区的结构层次四、skill-creator 的核心功能4.1 功能矩阵4.2 …

张开发

前端开发 2026/6/7 11:18:26

Linux 定时备份 MySQL 数据库（完整教程）

为了防止数据丢失，我们需要定时把数据备份起来。我们使用用 Linux crontab mysqldump 实现定时自动备份，包含备份、压缩、保留历史、自动清理旧文件。一、先准备备份脚本创建一个备份脚本 mysql_backup.sh，放在 /usr/local/bin/ 方便管理。#…

张开发

前端开发 2026/6/7 3:08:09

Move Mouse防休眠实用指南：保持电脑持续唤醒的完整教程

Move Mouse防休眠实用指南：保持电脑持续唤醒的完整教程【免费下载链接】movemouse Move Mouse is a simple piece of software that is designed to simulate user activity. 项目地址: https://gitcode.com/gh_mirrors/mo/movemouse 你是否遇到过在线会议中…

张开发

前端开发 2026/6/6 10:04:20

Git版本控制系统详解

Git作为当前主流的分布式版本控制系统，已经成为软件开发中不可或缺的工具。它不仅能精准追踪文件修改记录、实现多版本回溯，更能高效协调团队成员的开发节奏，避免代码冲突与混乱。一、Git的起源与发展Git最初由Linux之父Linus Torvalds于2005…

张开发

前端开发 2026/5/30 13:01:36

突破半导体“不可能三角”——飞马座运动平台

在瞬息万变的半导体行业，生产效率和产品质量是企业竞争力的核心。长期以来，半导体检测领域面临着一个“不可能三角”：高精度、高速度和高稳定性难以兼得，高精度往往以牺牲速度为代价，而追求产率又可能影响定位稳定性。…

张开发

前端开发 2026/5/29 23:31:24

146.LRU缓存详细技术解析（O(1)复杂度实现）

146.LRU缓存详细技术解析（O(1)复杂度实现） 🔥 面试高频题 | 手把手教你实现LRU缓存 | 满足O(1)平均时间复杂度 | 含完整代码逐行解析示例验证避坑指南，新手也能看懂一、题目核心解析（读懂LRU约束）二、核心…

张开发

前端开发 2026/5/29 23:30:09

claude skill 官方评测方式解读

基于此文档解读：https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md 以「SQL 解读器」为例，看 Claude 如何全自动构建、测试与优化智能体技能你描述需求，AI 完成从编码、测试、评估到部署的一切。本文将完整揭示…

张开发

前端开发 2026/6/6 9:37:37

嵌入式图形编程实战：SH1106 OLED驱动开发指南

嵌入式图形编程实战：SH1106 OLED驱动开发指南【免费下载链接】Adafruit_SH1106 Adafruit graphic library for SH1106 dirver lcds. 项目地址: https://gitcode.com/gh_mirrors/ad/Adafruit_SH1106 技术原理：如何理解SH1106的显示驱动机制&#…

张开发

前端开发 2026/6/3 11:48:59

终极抖音批量下载指南：5分钟搞定无水印视频批量采集

终极抖音批量下载指南：5分钟搞定无水印视频批量采集【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support…

张开发