PrismML发布超低功耗1位大语言模型,力图将AI从云端解放

张开发
2026/4/8 5:58:17 15 分钟阅读

分享文章

PrismML发布超低功耗1位大语言模型,力图将AI从云端解放
来自加州理工学院的AI初创公司PrismML发布了一个1位大语言模型该模型在性能上超越了更大规模的模型有望提升AI在移动设备等应用场景中的效率和可行性。这个名为Bonsai 8B的模型具有小巧快速的特点功耗需求适中基准测试性能可与更大规模的模型媲美。我们的第一个验证点是1位Bonsai 8B这是一个1位模型占用内存仅1.15GB智能密度比全精度同类模型高出10倍以上该公司在社交媒体上表示。在边缘硬件上它比同等参数级别的其他模型小14倍、快8倍、节能5倍同时保持竞争力。基于Transformer架构的AI模型涉及拥有数百万或数十亿权重的神经网络这些权重控制神经元之间连接的强度并影响模型执行任务的方式。它们在训练过程中设置占用的内存空间取决于表示它们的精度。在GGUF FP1616位量化的模型比在GGUF Q8_08位、GGUF Q4_04位或GGUF Q2_K2位量化的模型占用更多空间。这还不包括可能增加实际存储空间需求的元数据和开销。但在相同基本架构下16位模型通常比低级别量化的模型性能更好。PrismML的Bonsai模型系列基于这样一种架构每个权重只用其符号{–1, 1}表示而每组权重共享一个缩放因子如该公司白皮书所解释的那样而不是使用16位或32位浮点数。研究人员多年来一直在改进量化方法相关论文如《BitNet位正则化深度神经网络》2017年和《1位大语言模型时代所有大语言模型都在1.58位》2024年中有所描述。PrismML的方法基于加州理工学院电气工程教授Babak Hassibi及其同事的工作。该公司声称其1位架构避免了历史上伴随低位量化的权衡问题特别是指令遵循能力差、多步推理错误和工具使用不可靠等问题。我们花费数年时间开发了在不损失推理能力的情况下压缩神经网络所需的数学理论PrismML首席执行官兼创始人Babak Hassibi在声明中表示。我们将1位视为起点而非终点。Hassibi认为该公司的1位架构为AI建立了新的范式专注于每单位计算和能耗的智能效率。为了鼓励其他人沿着这一思路思考——还记得单位功耗性能成为热点的时候吗——PrismML提出了智能密度的测量方法这一指标让其模型表现突出。我们将智能密度定义为模型平均错误率在同一基准测试套件中对数的负值除以模型大小该公司解释道。在智能密度评估中Qwen3 8B在各项基准测试MMLU Redux、MuSR、GSM8K等中略微领先于Bonsai 8B但智能密度得分仅为0.10/GB远低于Bonsai 8B的1.06/GB。指标可能对营销很重要但PrismML模型更有意义的衡量标准是它们将AI从云数据中心中移出的潜力。该公司预见其模型将为设备端智能体、实时机器人技术、安全企业系统以及其他受内存带宽、功耗或合规约束影响部署的项目提供动力。1位Bonsai 8B可通过MLX在苹果设备Mac、iPhone、iPad上原生运行通过llama.cpp CUDA在英伟达GPU上运行该公司表示。模型权重在Apache 2.0许可证下提供。该公司还提供两个较小的模型1位Bonsai 4B和1位Bonsai 1.7B。QAQ1Bonsai 8B模型有什么特别之处ABonsai 8B是PrismML开发的1位大语言模型占用内存仅1.15GB智能密度比全精度模型高10倍以上。在边缘硬件上比同参数级别模型小14倍、快8倍、节能5倍同时保持竞争性能表现。Q21位量化技术与传统量化有什么区别A传统量化使用16位或32位浮点数表示权重而PrismML的1位架构中每个权重只用符号{–1, 1}表示每组权重共享一个缩放因子。这种方法避免了历史上低位量化带来的指令遵循能力差、推理错误等问题。Q3Bonsai模型适用于哪些应用场景ABonsai模型主要面向需要将AI从云端部署到本地的场景包括设备端智能体、实时机器人技术、安全企业系统等。特别适合受内存带宽、功耗或合规约束限制的项目可在苹果设备和英伟达GPU上原生运行。

更多文章