户外 sex 微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同限制全精度开源模子绝顶

栏目分类

热点资讯

www.俺去也.com>>你的位置：在线看片 > www.俺去也.com > 户外 sex 微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同限制全精度开源模子绝顶

户外 sex 微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同限制全精度开源模子绝顶

发布日期：2025-04-22 07:43 点击次数：172

户外 sex 微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同限制全精度开源模子绝顶

微软以小搏大户外 sex，发布首个开源 2B 参数限制"原生 1bit" LLM ——

BitNet b1.58 2B4T，单 CPU 就能跑，性能与同限制全精度开源模子绝顶。

它选择三进制 {-1， 0， 1} 存储权重，相较于传统的 16 位浮点数可大幅镌汰显存需求。

只需 0.4GB 内存即可初始。

基于 4T token 语料践诺，BitNet b1.58 2B4T 在保抓性能的同期，计较效用卓著。

单个 CPU 即可达到"与东说念主类阅读速率"绝顶的速率，每秒 5-7 个 token，CPU 端解码蔓延 29ms，能耗低至 0.028J。

这种效用使其可在闲居条记本电脑以至旯旮配置上及时初始。

举例在苹果 M2 CPU 上快速初始：

另外值得一提的是，BitNet b1.58 2B4T 具有原生践诺上风，与践诺后量化（PTQ）模子对比，幸免了 PTQ 常见的性能衰减。

BitNet b1.58 2B4T 刚发布就眩惑了多量网友点赞顾惜，作家们也当起了我方个儿的自来水。

若何结束原生 1bit？话未几说，沿途来望望技能细目。

权重映射为三元值 {-1， 0， +1}

BitNet b1.58 2B4T 模子基于 Transformer 架构，对中枢组件进行了系统性修订。

传统 LLM 依赖 16bit 或 32bit 浮点数存储权重，而 BitNet b1.58 2B4T 选择一种称为absmean 的量化决策，将权重映射为三元值 {-1， 0， +1}，平均每个权重仅需 1.58bit（log ₂ 3 ≈ 1.58）来暗意。

模子内存占用骤降至 0.4GB，仅为同类全精度模子的 1/5-1/12。

另外，线性投影中的激活值被量化为 8bit 整数，选择基于每 token 的absmax 量化战术，团队还引入subln 归一化，增强量化践诺踏实性。

其它要道筹办包括：户外 sex

激活函数：前馈收集（FFN）子层选择 ReLU ² 替代常见的 SwiGLU，通过普及模子稀少性，优化了 1bit 环境下的计较特质。

位置编码：使用旋转位置镶嵌（RoPE）。

偏置摒除：与 Llama 等架构一致，通盘线性层和归一化层均移除偏置项，减少参数目并简化量化经过。

践诺方面，BitNet b1.58 2B4T 选择三阶段践诺：大限制预践诺、监督微调（SFT）和蔼利偏好优化（DPO）。

先是大限制预践诺，模子履历了两阶段学习率诊疗：成绩于 1bit 模子的践诺踏实性，初期选择高学习率快速经管；中期骤降至低水平，使模子能在高质地数据上细腻化调整。合作动态权重衰减战术，模子在保抓泛化才气的同期幸免过拟合。

监督微调（SFT）阶段，值得提防的是，践诺中选择亏蚀函数乞降而非平均战术，并延长了践诺轮次，这一调整被诠释注解对低精度模子的经管至关进攻。

顺利偏好优化（DPO）阶段，基于 UltraFeedback、MagPie 等东说念主类偏好数据集，模子通过无奖励模子的顺利优化，普及了报恩的安全性与用户满足度，幸免了传统 RLHF 的高计较老本。

实验成果方面，BitNet b1.58 2B4T 内存占用仅为 0.4GB，CPU 端解码蔓延 29ms，能耗低至 0.028J。

在数学推理任务 GSM8K 中，BitNet 以 58.38 的准确率远超 Llama 3.2-1B（38.21）和 Qwen2.5-1.5B（56.79）；在学问推理任务 WinoGrande 中，BitNet 71.90 的得分超同类模子均值（63.55）。

团队稀少指出，BitNet b1.58 2B4T 具有原生践诺上风。与践诺后量化（PTQ）模子对比，BitNet 的原生 1bit 践诺战术幸免了 PTQ 常见的性能衰减。

参数更大的 Llama3-8B 模子量化至 1bit 后，也难打 BitNet b1.58 2B4T。

和其它 1bit 模子比拟，BitNet b1.58 2B4T 也有显赫更强的合座性能，绝大多数基准测试中获取 SOTA。

料想 BitNet b1.58 2B4T 的具体进展，再来看几个例子。

让它生成几个见笑，见笑苟简但也蛮专门旨道理：

稻草东说念主为何成为凯旋的神经外科大夫？报恩是因为它在我方的鸿沟很隆起（outstanding in his field）。

探花小宝

单 CPU 生成 97 个 token，总耗时 3.452 秒，每秒惩办 28.1 token。

再让它基于 2000 年的配景，让一位 PowerPC 惩办器疼爱者和一位英特尔惩办器疼爱者进行五行狡辩。

BitNet b1.58 2B4T 生成端正也很快，何况响应了阿谁时期科技行业的竞争特质。

微软在 1 bit LLM 上的探索

1 bit LLM 的结束措施，微软其实早在 2023 年就有相干商量，其时就称为 BitNet，用 BitLinear 替换了 nn.Linear。

之后，微软原班东说念主马在上一篇论文的基础之上作念了优化，提倡 BitNet b1.58，在原始 BitNet 的基础上增多了一个极度的0 值。

也即是" The Era of 1-bit LLMs "这篇论文，用 6 页商量激勉网友平凡顾惜。

这种措施发布后，也有不少东说念主在这项商量的基础之上进行探索。Huggingface Transformers 还曾整合了 BitNet b1.58，哄骗一些妙技，使得现存模子不错顺利微调到 1.58bit。

接着，微软还斥地并开源了针对 GPU 和 CPU 平台的专用推理库。

BitNet b1.58 选择独到量化决策（1.58bit 权重和 8bit 激活值，W1.58A8）需要专门的结束，圭臬深度学习库每每短缺针对这种搀和精度、低比特时局的优化内核，微软斥地了专门针对 W1.58A8 矩阵乘法的自界说 CUDA 内核。

另外，微软还开源了 bitnet.cpp ——一个用于 1 bit LLM CPU 推理的官方参考 C++ 库，提供针对圭臬 CPU 架构优化的内核，旨在高效适配模子的特定量化决策，尽可能幸免通用量化库的支拨或复杂的底层位操作。

技能论说：https://arxiv.org/abs/2504.12285

抱抱脸连气儿：https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

参考连气儿：https://arstechnica.com/ai/2025/04/microsoft-researchers-create-super‑efficient-ai-that-uses-up-to-96-less-energy/

一键三连「点赞」「转发」「留意心」

接待在驳倒区留住你的思法！

— 完 —

� � 点亮星标 � �

科技前沿进展逐日见户外 sex

上一篇：调教小说好意思政府称“整改邮件”发错了，哈佛大学：你们即是这样思的
下一篇：99BT工厂最新地址只是播3集，收视破2.1，4月份最期待的央视刑侦剧开播就爆了