开云-源2.0

2024-10-27

[导读]北京2024年8月23日 /美通社/ -- 近日，海潮信息发布源2.0-M32年夜模子4bit和8bit量化版，机能比肩700亿参数的LLaMA3开源年夜模子。4bit量化版推理运行显存仅需23.27GB，处置每token所需算力约为1.9 GFLOPs，算力耗损仅为划一当量年夜模子L...

北京2024年8月23日 /美通社/ -- 近日，海潮信息发开云体育app布源2.0-M32年夜模子4bit和8bit量化版，机能比肩700亿参数的LLaMA3开源年夜模子。4bit量化版推理运行显存仅需23.27GB，处置每token所需算力约为1.9 GFLOPs，算力耗损仅为划一当量年夜模子LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB，所需算力为140GFLOPs。

源2.0-M32量化版是"源"年夜模子团队为进一步提高模算效力，下降年夜模子摆设运行的计较资本要求而推出的版本，经由过程采取领先的量化手艺，将原模子精怀抱化至int4和int8级别，并连结模子机能根基不变。源2.0-M32量化版提高了模子摆设加载速度和多线程推理效力，在分歧硬件和软件情况中均能高效运行，下降了模子移植和摆设门坎，让用户利用更少的计较资本，就可以获得源2.0-M32年夜模子的壮大能力。

源2.0-M32年夜模子是海潮信息"源2.0"系列年夜模子的最新版本，其立异性地提出和采取了"基在留意力机制的门控收集"手艺，构建包括32个专家（Expert）的夹杂专家模子（MoE），模子运行时激活参数为37亿，在业界主流基准评测中机能周全对标700亿参数的LLaMA3开源年夜模子，年夜幅晋升了模子算力效力。

模子量化（Model Quantization）是优化年夜模子推理的一种主流手艺，它显著削减了模子的内存占用和计较资本耗损，从而加快推理进程。但是，模子量化可能会影响模子的机能。若何在紧缩模子的同时保持其精度，是量化手艺面对的焦点挑战。

源2.0-M32年夜模子研发团队深切阐发当前主流的量化方案，综合评估模子紧缩结果和精度损掉表示，终究采取了GPTQ量化方式，并采取AutoGPTQ作为量化框架。为了确保模子精度最年夜化，一方面定制化适配了合适源2.0-M32布局的算子，提高了模子的摆设加载速度和多线程推理效力，实现高并发推理；另外一方面临需要量化的中心层（inter_layers）进行了严酷评估和挑选，肯定了最好的量化层。从而成功将模子精怀抱化至int4和int8级别，在模子精度几近无损的条件下，晋升模子紧缩结果、增添推理吞吐量和下降计较本钱，使其更容易在摆设到移动装备和边沿装备上。

评测成果显示，源2.0-M32量化版在多个业界主流的评测使命中机能表示凸起，特殊是在MATH（数学比赛）、ARC-C（科学推理）使命中，比肩具有700亿参数的LLaMA3年夜模子。

源2.0-M32大模型发布量化版运行显存仅需23GB 性能可媲美LLaMA3

总之，源2.0-M32年夜模子量化版在连结推理机能的条件下，显著下降了计较资本耗损和内存占用，其采取的GPTQ量化方式经由过程邃密调剂，成功将模子适配至int4和int8精度级别。经由过程定制化算子优化，源2.0-M32量化版实现了模子布局的深度适配和机能的显著晋升，确保在分歧硬件和软件情况中均能高效运行。将来，跟着量化手艺的进一步优化和利用场景的拓展，源2.0-M32量化版有望在移动装备和边沿计较等范畴阐扬更普遍的感化，为用户供给更高效的智能办事。

欲知详情，请下载word文档

下载文档

北京2024年8月27日 /美通社/ -- 在8月23日举行的2024年长三角生态绿色一体化成长示范区结合招商会上，软通动力信息手艺（团体）股分有限公司（以下简称软通动力）与长三角投资（上海）有限...

要害字： BSP 信息手艺

上海2024年8月26日 /美通社/ -- 本日，高端全合成润滑油品牌美孚1号联袂品牌体验官周冠宇，开启全新路程，助力泛博车主经由过程驾驶去摸索更广漠的世界。在全新发布的品牌视频中，周冠宇和分歧布景的消费者表达了对驾驶的酷爱...

要害字： BSP 汽车制造

开云-BPO行业整合方案提供者

开云-源2.0