第四色vvvv88 3万字详备领路清华大学最新综述使命：大模子高效推理综述

栏目分类

黑丝内射

发布日期：2025-06-27 23:30 点击次数：115

第四色vvvv88 3万字详备领路清华大学最新综述使命：大模子高效推理综述

图片第四色vvvv88

深度学习当然讲话处理原创作家：fanmetasy

大模子由于其在各样任务中的出色阐发而引起了庸碌的温雅。关联词，大模子推理的大量算计和内存需求对其在资源受限场景的部署建议了挑战。业内一直在奋勉开发旨在提广阔模子推理服从的工夫。本文对现存的对于高效大模子推理的文件进行了全面的综述总结。发轫分析了大模子推理服从低下的主要原因，即大模子参数范围、小心力算计操的二次复杂度作和自总结解码方法。然后，引入了一个全面的分类法，将现存优化使命分歧为数据级别、模子级别和系统级别的优化。此外，本文还对枢纽子领域的代表性方法进行了对比实验，以及分析并给出一定的视力。临了，对连接使命进行总结，并对将来的研究地点进行了接头。

论文：A Survey on Efficient Inference for Large Language Models地址：https://arxiv.org/abs/2404.14294

1 Introduction

连年来，大模子受到了学术界和工业界的庸碌温雅。

LLM领域阅历了显贵的增长和显贵的成就。很多开源llm照旧出现，包括gpt-系列(GPT-1， GPT-2和GPT-3)， OPT， lama系列(LLaMA ， LLaMA 2，BaiChuan 2 ，Vicuna， LongChat)， BLOOM， FALCON， GLM和Mtaistral[12]，他们用于学术研究和交易落地。大模子的顺利源于其处理各样任务的刚劲才调，如神经讲话雄厚(NLU)、神经讲话生成(NLG)、推理和代码生成[15]，从而达成了ChatGPT、Copilot和Bing等有影响力的应用模范。越来越多的东谈主以为[16]LMM士的崛起和取得的成就标志着东谈主类向通用东谈主工智能(AGI)迈进了一大步。

图片

图1：大模子部署挑战

关联词，LLM的部署并不老是很凯旋。如图1所示，在推理过程中，使用LLM平素需要更高的算计资本，内存视察资本和内存占用。（根柢原因分析见Sec. 2.3）在资源受限的场景中，推理服从也会诽谤（如，延长，模糊量，功耗和存储）。这对LLM在末端以及云场景这两方面的应用带来了挑战。例如，巨大的存储需求使得在个东谈主条记本电脑上部署70B参数目的模子来用于辅助开发是不切推行的。此外，如果将LLM用于每一个搜索引擎央求，那么低模糊量将带来巨大的资本，从而导致搜索引擎利润的大幅减少。

走时的是，大量的工夫照旧被建议来，以达成LLM的有用推理。为了获取对现存研究的全面了解，并激勉进一步的研究，著述对面前现存的LLM高效推理使命领受了分级分类和系统总结。具体来说，将现存使命分歧组织为数据级别、模子级别和系统级别的优化。此外，著述对枢纽子领域内的代表性方法进行了实验分析，以稳当学问，提供推行性建议并为将来的研究奋勉提供携带。

图片

表1：综述对比

咫尺，综述[17]，[18]，[19]，[20]，[21]，[22]均波及LLM领域。这些综述主要聚集在LLM服从的不同方面，但提供了进一步改动的契机。Zhu等[17]，Park等[18]和Wang等。[19]将综述的要点放在，模子压缩工夫上，是模子级别的优化。Ding等[20]将数据和模子架构算作研究要点。Miao等[21]从机器学习系统(MLSys)研究的角度研究LLM的有用推理。比拟之下，本文提供了一个更全面的研究范围，在三个档次上处罚优化：数据级别、模子级别和系统级别，同期也囊括了最近的研究使命。而Wan等[22]和Xu等[23]也对高效LLM研究进行了全面综述。基于在几个枢纽的子领域如模子量化和模子server端中进行的实验分析，本文通过整合对比实验，提供推行的视力和建议。如表1所示，展示了各样综述之间的比较。

本文行文结构分歧如下：第二章先容了LLMs的基本主意和学问，并对LLMs推理过程中服从瓶颈进行了详备的分析。第三章展示了本文建议的分类法。第四章到第六章从三个不同优化级别分别对连接使命进行展示接头。第七章针对几个枢纽的应用场景进行更庸碌的接头。第八章总结本综述的枢纽孝敬。

2 Preliminaries2.1 transformer架构的LLM

讲话建模算作讲话模子的基本功能，包括对单词序列概率进行建模并预计后续单词的概率散播。连年来研究东谈主员发现增多讲话模子范围不仅提高了讲话建模才调，除了传统的NLP任务除外，还产生了处理更复杂任务的才调[24]，这些范围更大的讲话模子是被称为大模子(LLMs)。

主流大模子是基于Transformer架构[25]联想的。典型的transformer架构的模子由数个堆叠的transformer block组成。平素，一个transformer block由一个多头自小心力（MHSA）模块，一个前馈神经收集（FFN）和一个LayerNorm（LN）层组成。每个transformer block接管前一个transformer block的输出特征，并将其算作输入，并将特征串行送进每个子模块中，临了输出。超越的是，在第一个transformer block前，需要用一个tokenizer将传统的输入语句升沉为token序列，并紧接着使用一个embedding层将token序列升沉为输入特征。且一个罕见的位置embedding被加入到输入特征中，来对输入token序列的token措施进行编码。

Transformer架构的中枢是自小心力机制，其在多头自小心力（MHSA）模块被使用。MHSA模块对输入进行线性变换，得到了Q，K，V向量，如公式(1)所示：

其中为输入特征，为第个小心力头的变换矩阵。接着自小心力操作被应用于每个（）元组并得到第个小心力头的特征，如公式(2)所示：

其中是query(key)的维度。自小心力算计包含矩阵乘法，其算计复杂度是输入长度的二次方。临了，MHSA模块将统共小心力头的特征进行拼接，并对他们作念映射矩阵变换，如公式(3)所示：

其中是映射矩阵。自小心力机制可以让模子识别不同输入部分的重要性，而无谓去酌量距离，也已就此可以获取输入语句的长距离依赖以及复杂的关系。

FFN算作transformer block的另一个重要模块，被缔造在多头自小心力（MHSA）模块之后，且包含两个使用非线性激活函数的。其接管MHSA模块的输出特征如公式（4）所示，进行算计：

其中，和为两个线性层的权重矩阵，为激活函数。

2.2 大模子推理过程

最受迎接的大模子，如，decoder-only架构的大模子平素领受自总结的方式生成输出语句，自总结的方式是逐token的进行输出。在每一次生成步中，大模子将昔日的全部token序列算作输入，包括输入token以及刚刚生成的token，并生成下一个token。跟着序列长度的增多，生过文本这一过程的时候资本也显贵藏家。为了处罚这个问题，一个枢纽工夫，key-value（KV）缓存被建议来，用于加速文本生成。

KV缓存工夫，包括在多头自小心(MHSA)块内，存储和复用前边的token对应的key 向量(K)和value向量(V)。此项工夫在大模子推理以中得到了庸碌的应用，因为其对文本生成延长达成了巨大的优化。基于此项工夫，大模子的推理过程可以分歧为两个阶段：

①prefilling阶段：大模子算计并存储原始输入token的KV缓存，并生成第一个输出token，如图2（a）所示

②decoding阶段：大模子应用KV 缓存逐一输出token，并用重生成的token的K，V（键-值）对进行KV缓存更新。

图片

图2：KV缓存工夫在大模子推理中应用旨趣默示图

图片

如图3所示，展示了提高推理服从的枢纽方针。对于横轴Latency(延长，在预填充（prefilling）阶段，将first token latency记作生成第一个token的时候；在decoding阶段，将per-output token latency记作生成一个token的平均时候。此外，generation latency线路输出统共这个词token序列的时候。对于纵轴Memory（内存），model size被用来线路存储模子权重所需要的内存大小以及KV cache size代表存储存储KV缓存的内存大小。此外，peak memory代表在生成工程中需要占用的最大内存。其大要为model size与KV cache size之和。对模子权重和KV缓存的内存和。猬缩延长和内存中，模糊量（throughput）亦然大模子推理奇迹系统中的一个庸碌使用的方针。token throughput线路每秒生成的token数目，request throughput线路每秒完成的央求数。

2.3 推理服从分析

在资源受限的场景中，部署大模子并保捏其推理服从以及性能对于工业界和科研及都是巨大的挑战。例如，对有700亿参数目的LLaMA-2-70B进行部署，以FP16数据风景对其权重进行加载需要140GB显存（VRAM），进行推理需要至少6张 RTX 3090Ti GPU（单卡显存24GB）或者2张NVIDIA的A100 GPU（单卡显存80GB）。在推理延长方面，2张NVIDIA的A100 GPU上生成一个token需要100毫秒。因此，生成一个具少见百个token的序列需要跨越10秒。猬缩内存占用和推理延长，模糊量以及动力电量的耗费都需要被酌量。大模子推理过程中，三个重要成分将很大程度上影响上述方针。算计资本（computational cost），内存视察资本（memory access cost）和内存使用（memory usage）。大模子推理低服从的根柢原因需要温雅三个枢纽成分：

①Model Size：主流大模子平素包含数十亿以至万亿的参数。例如，LLaMA-70B模子包括700亿参数，而GPT-3为1750亿参数。在推理过程中，模子大小对算计资本、内存视察资本和内存使用产生了显贵影响。

②Attention Operation：如2.1和2.2中所述，prefilling阶段中，自小心操作的算计复杂度为输入长度的2次方，因此输入长度的增多，算计资本、内存视察资本和内存使用都会显贵增多。

③Decoding Approach：自总结解码是逐token的进行生成。在每个decoding step，统共模子权重都来自于GPU芯片的片下HBM，导致内存视察资本巨大。此外，KV缓存跟着输入长度的增长而增长，可能导致内存分散和不规则内存视察。

3 TAXONOMY

上述部分敷陈了影响大模子推感性能的枢纽成分，如算计资本、内存视察资本和内存使用，并进一步分析了根柢原因：Model Size、Attention Operation和Decoding Approach。很多研究从不同的角度对优化推理服从进行了奋勉。通过纪念和总结这些研究，著述将它们分为三个级别的优化，即：数据级别优化、模子级别优化和系统级别优化(如图4所示)：

图片

图4：大模子推感性能优化分类数据级别优化：即通过优化输入prompt（例如，输入压缩)或者更好的组织输出内容（例如，输出组织）。这类优化平素不会改变原来的模子，因此莫得昂扬的模子教师资本(其中，可能需要对极少的辅助模子进行教师，但与教师大模子的资本比拟，这个资本可以被忽略)。模子级别优化：即在模子推理时，通过联想一个有用的模子结构（如有用的结构联想）或者压缩预教师模子（如模子压缩）来优化推理服从。优化第一种优化平素需要昂扬的预教师或极少的微调来保留或者复兴模子才调的资本，而第二种典型的会给模子性能带来蚀本。系统级别优化：即优化推理引擎或者奇迹系统。推理引擎的优化不需要进行模子教师，奇迹系统的优化对于模子性能而言更是无损的。此外，著述还在章节6.3中队硬件加速联想进行了概略的先容。4.数据级别优化

数据级别的优化本年来的使命可以分歧为两类，如优输入压缩或者输出组织。输入压缩工夫顺利缩小了模子的输入长度来减少推理蚀本。同期输出组织工夫通过组织输出内容的结构来达成批量(并行)推理，此方法可以提高硬件应用率和诽谤模子的生成延长。

4.1输入压缩

在大模子的推行应用中，提醒词prompt至关重要，很多使命都建议了联想提醒词的新方法，它们在实践中均展示出尽心联想的提醒可以开释大模子的性能。例如，高下体裁习（In-Context Learning）建议在prompt中包含多个连接示例，这种方法能够饱读舞大模子去进行类比学习。念念维链（Chain-of-Thought， COT）工夫则是在高下文的示例中加入一系列中间的推理要领，用于匡助大模子进行复杂的推理。关联词，这些提醒词上的连接妙技不可幸免地会导致提醒词更长，这是一个挑战，因为算计资本和内存使用在prefilling时间会二次增长(如2.3节所示)。

为了处罚这个问腿输入prompt压缩工夫被建议来用于缩小提醒词长度且不合大模子的回答质地组成显贵性影响。在这一工夫方面，连接研究可分为四个方面，如图5所示：提醒词编著（prompt pruning），提醒词总结（prompt summary），基于提醒词的软压缩（soft prompt-based compression）和检索增强生成（retrieval augmented generation， RAG）。

图片

图5：大模子输入压缩方法分类4.1.1 提醒词编著（prompt pruning）

提醒词编著的中枢念念想是从输入prompt中基于预界说或者学习到的枢纽性方针中去在线去除不重要的token，语句或者文档。DYNAICL建议对给定输入，动态地笃定高下文示例的最优数目，通过一个教师好的基于大模子的controller。Selective Context这篇论文建议将token合并为数个单位，接着使用一个基于self-information方针（如，negative log likelihood）的单位级别地prompt编著。STDC论文基于领路树进行提醒词编著，其迭代地删除在编著后导致最小性能下落的短语node。PCRL论文引入了一种基于强化学习的token级别的编著有谋划。PCRL背后的中枢念念想是通过将诚挚度和压缩比组合到奖励函数中来教师一个战术大模子。诚挚度是通过算计经过编著后的输出提醒符和原始提醒词之间的相似度来揣测的。RECOMP方法达成了一种句子级别编著战术来压缩用于检索增强讲话模子(Retrieval-Augmented Language Models， RALMs)的提醒。该方法包括使用预教师的encoder将输入问题和文档编码为latent embedding。然后，它字据文档embedding与问题embedding的相似度决定要去除哪些文档。LLMLingua引入了一种粗到细的剪枝有谋划，用于prompt压缩。发轫，它实行示范级别的编著，然后字据困惑度实行token级别的编著。为了提高性能，LLMLingua建议了一个预算摆布器，在提醒词的不同部分之间动态分拨编著预算。此外，它应用迭代式的token级的压缩算法来处罚由条款独处性假定引入的不准确性。LLMLingua还领受了一种散播对王人战术，将主义大模子的输出散播与用于困惑度算计的较小大模子进行对王人。LongLLMLingua[41]在LLMLingua的基础上进行了一些加强:(1)它应用以输入问题为条款的困惑度算作提醒词编著的方针。(2)它为不同的演示分拨不同的修剪比例，并字据其方针值在最终提醒词内从新排序。(3)基于反映恢复兴始内容。CoT-Influx引入了一种使用强化学习对念念维链(CoT)提醒词进行粗到细粒度编著的方法。具体来说，它会先编著去除不重要的示例，然后在剩下的示例中无间删除不重要的token。

4.1.2 提醒词总结（prompt summary）

提醒词总结的中枢念念想是在保捏相似的语义信息的前提下，将原有提醒词浓缩为更短的总结。这些工夫还可以算作提醒词的在线压缩方法。与前边提到的保留未编著秀丽的提醒词编著工夫不同，这一溜方法将统共这个词提醒符转机为总结。RECOMP[34]引入了一个抽象压缩器（Abstractive Compressor），其将输入问题和检索到的文档算作输入，生成一个轻松的节录。具体来说，它从大范围的大模子中索求轻量级压缩器来进行总结使命。SemanticCompression建议了一种语义压缩方法。它发轫将文天职解成句子。然后，它字据主题将句子分组，然后总结每组中的句子。

4.1.3 基于提醒词的软压缩（Soft Prompt-based Compression）

这种压缩工夫的中枢念念想是联想一个比原始提醒词短得多的软提醒词，算作大模子的输入。软提醒词被界说为一系列可学习的一语气token。有些工夫对固定前缀的提醒词(如系统提醒词、特定任务提醒词)领受脱机压缩。例如，PromptCompression教师软提醒来模拟预定的系统提醒词。该方法包括在输入token之前添加几个软token，并允许在反向传播时间对这些软token进行接济。在对提醒数据集进行微调之后，软token序列充任软提醒词。Gisting引入了一种方法，使用前缀词调优将特定任务的提醒词压缩为一组轻松的gist token。鉴于特定任务的提醒会因任务而异，前缀词调优将针对每个任务单独使用。为了提高服从，Gisting进一步引入了一种元学习方法，用于预计新的未见过的gist token基于先前任务中的的gist token。

其他工夫对每个新的输入提醒词进行在线压缩。例如，AutoCompressors教师一个预教师的讲话模子，通过无监督学习将提醒词压缩成总结向量。ICAE教师了一个自动编码器将原始高下文压缩到短顾忌槽中。具体来说，ICAE领受得当LoRA的大模子算作编码器，并使用主义大模子算作解码器。在输入token之前添加一组顾忌token并将其编码到顾忌槽中。

4.1.4 检索增强生成（retrieval augmented generation， RAG）

检索增强生成(Retrieval-Augmented Generation， RAG)旨在通过整合外部学问开端来提广阔模子回答的质地。RAG也可以看作是在处理大量数据时提高推理服从的一种工夫。RAG莫得将统共信息合并到一个过长的prompt中，而是将检索到的连接信息添加到原始提醒符中，从而确保模子在显贵减少提醒词长度的同期接管到必要的信息。FLARE使用对行将到来的句子的预计来主动决定何时以及检索什么信息。REPLUG将大模子视为一个黑盒，并使用可调检索模子对其进行推行。它将检索到的文档添加到冻结的黑盒大模子的输入中，并进一步应用大模子来监督检索模子。Self-RAG通过检索和自我反念念来提广阔模子的质地和真的性。它引入了反馈token，使大模子在推理阶段可控。

4.2 输出组织（Output Organization）

传统的大模子的推理过程是王人备措施生成的，这会导致大量的时候耗费。输出组织工夫旨在通过组织输出内容的结构来(部分地)达成并行化生成。

念念维骨架(Skeleton-of-Thought， SoT)是这个地点的前驱。SoT背后的中枢念念想是应用大模子的新兴才调来对输出内容的结构进行谋划。具体来说，SoT包括两个主要阶段。在第一阶段(即框架阶段)，SoT携带大模子使用预界说的“框架提醒词”生成谜底的简明框架。例如，给定一个问题，如“中国菜的典型类型是什么?”，这个阶段的输出将是一个菜的列表(例如，面条，暖锅，米饭)，莫得详备的式样。然后，在第二阶段(即点扩展阶段)，SoT携带大模子使用“点扩展提醒符”来同期扩展骨架中的每个点，然后将这些拓展相接起来最终形成临了谜底。当应用于开源模子时，可以通过批推理实行点扩展，这可以提高硬件应用率，并在使用调换的算计资源的前提下减少总体生成延长，以减少罕见的算计。SoT的推理经过展示如图6所示：

图片

由于罕见的提醒词(如骨架提醒词和点扩展提醒词)带来的支出，SoT接头了在点扩展阶段跨多个点来分享群众提醒词前缀的KV缓存的可能性。此外，SoT使用路由模子来决定SoT是否得当应用于特定的问题，目的是将其扬弃在合适的情况下使用。落幕，SoT在最近发布的12个大模子上达成了高达2.39倍的推理加速，并通过提高谜底的各样性和连接性来提高谜底质地。

SGD进一步扩展了SoT的念念想，其将子问题点组织成一个有向无环图(DAG)，并在一个回合内并行地回答逻辑独处的子问题。与SoT访佛，SGD还应用大模子的新兴才调，通过提供我方制作的提醒词和几个示例来生成输出结构。SGD放宽了不同点之间严格的独处性假定，以提高谜底的质地，超越是对于数学和编码问题。与SoT比拟，SGD优先酌量谜底质地而不是速率。此外，SGD引入了一个自得当的模子聘用方法，来字据其揣度的复杂性为每个子问题分拨最优模子大小，从而进一步提高服从。

APAR领受了与SoT访佛的念念想，应用大模子输出特殊的摆布token(如，[fork])来自动动态的触发并行解码。为了有用地应用输出内容中固有的可并行化结构并准确地生成摆布token，APAR对大模子进行了微调，这些大模子是尽心联想的数据上进行的，这些数据是在特定树结构中形成的。因此，APAR在基准测试中达成1.4到2.0倍的平均加速，且对谜底质地的影响可以忽略不计。此外，APAR将他们的解码方法与推测解码工夫(如Medusa)和推理框架(如vLLM)结合，来进一步改动推理延长和系统模糊量。

SGLang在Python 特征原语中引入了一种领域特定讲话(DSL)，其能够生动地促进大模子编程。SGLang的中枢念念想是自动分析各样生成调用之间的依赖关系，并在此基础上进行批量推理和KV缓存分享。使用该讲话，用户可以松驰达成各样提醒词战术，并从SGLang的自动服从优化(如SoT，ToT）中收益。此外，SGLang 还先容并结合了几种系统级别的编译工夫，如代码挪动和预取谛视。

4.3 意识，建议和将来地点

大模子处理更长的输入、生成更长的输出的需求日益增长，这突显了数据级别的优化工夫的重要性。在这些工夫中，输入压缩方法的主要主义是通过减少由attention操作引起的算计和内存资本来提高prefilling阶段的服从。此外，对于基于API的大模子，这些方法可以减少与输入token连接的API资本。比拟之下，输出组织方法侧重于通过诽谤与自总结解码方法连接的大量内存视察资本来优化解码阶段。

跟着大模子的功能越来越刚劲，是有可能能应用它们来压缩输入提醒词或构建输出内容的。输出组织方法的最新进展也证明了应用大模子将输出内容组织成独处点或依赖图的有用性，从而便于批量推理以改善生成延长。这些方法应用了输出内容中固有的可并行结构，使大模子能够实行并行解码，从而提高硬件应用率，从而减少端到端的生成延长。

最近，各样提醒词pipeline(如，ToT ，GoT)和Agent框架正在出现。诚然这些立异提高了大模子的才调，但它们也增多了输入prompt的长度，导致算计资本增多。为了处罚这个问题，领受输入压缩工夫来减少输入长度是一种很有但愿的处罚有谋划。同期，这些pipeline和框架当然地为输出结构引入了更多的并行性，增多了并行解码和跨不同解码线程来分享KV cache的可能性。SGLang支捏生动的大模子编程，并为前端和后端协同优化提供了契机，为该领域的进一步扩展和改动奠定了基础。总之，数据级别优化，包括输入压缩和输出组织工夫，在可意想的将来，为了提广阔模子推理服从，将变得越来越必要。

除了优化现存框架的推理服从外，一些研究还侧重于顺利联想更高效的智能体框架。例如，FrugalGPT建议了一个由不同大小的大模子组成的模子级联，如果模子对谜底达到敷裕的笃定性水平，那么推理过程就会提前罢手。该方法通过应用分层的模子体捆绑构和基于模子置信度揣度的智能推理断绝来提高服从。与模子级别的动态推理工夫(第5.2.5节)比拟，FrugalGPT在pipeline级别实步履态推理。

5 模子级别优化

大模子高效推理的模子级别优化主要聚集在模子结构或数据线路的优化上。模子结构优化包括顺利联想有用的模子结构、修改原模子和接济推理时候结构。在数据线路优化方面，平素领受模子量化工夫。

在本节中，著述将字据所需的罕见教师支出对模子级别的优化工夫进行分类。第一类包含联想更有用的模子结构(又叫有用结构联想)。使用这种方法开发的模子平素需要从新脱手教师。第二类侧重于压缩预教师模子(称为模子压缩)。此类别中的压缩模子平素只需要最小的微调即可复兴其性能。

5.1 有用结构联想

咫尺，SOTA大模子平素使用Transformer架构，如2.1节所述。关联词，基于transformer的大模子的枢纽组件，包括前馈收集(FFN)和attention操作，在推理过程中存在服从问题。著述以为原因如下:

FFN在基于transformer的大模子中孝敬了很大一部分模子参数，这导致显贵的内存视察资本和内存使用，超越是在解码阶段。例如，FFN模块在LLaMA-7B模子中占63.01%，在LLaMA-70B模子中占71.69%。attention操作在的复杂度是输入长度的二次方，这导致大量的算计资本和内存使用，超越是在处理较长的输入高下文时。

为了处罚这些算计服从问题，一些研究聚集在开发更有用的模子结构上。著述将连接研究分为三组(如图7所示)：高效FFN联想、高效小心力联想和Transformer替代。

图片

图7：大模子有用结构联想分类5.1.1 高效FFN联想

在这一方面，很多研究都聚集在将羼杂大家(mixture-of-experts， MoE)工夫集成到大模子中，以提广阔模子的性能，同期保捏算计资本。MoE的中枢念念想是动态地分拨各样预算，在面对不同的输入token时。在基于MoE的Transformers中，多个并行的前馈审计收集(FFN)，即大家，与可教师的路由模块沿途使用。在推理过程中，模子聘用性地为路由模块摆布的每个token激活特定的大家。

一些研究聚集研究FFN大家的使命，主如果在优化大家权值的获取过程或使大家更轻量化以提高服从。例如，MoEfication联想了一种方法，使用预教师的权重将非MoE大模子转机为MoE版块。这种方法免去了对MoE模子进行昂扬的预教师的需要。为了达成这个工夫，MoEfication发轫将预教师大模子的FFN神经元分红多组。在每一组中，神经元平素同期被激活函数激活。然后，它以大家的身份重组每组神经元。Sparse Upcycling引入了一种方法，顺利从密集模子的checkpoint中驱动化基于MoE的LLM的权重。在这种方法中，基于MoE的LLM中的大家是密集模子中FFN的精准复成品。通过使用这种概略的驱动化，Sparse Upcycling可以有用地教师MoE模子以达到高性能。MPOE建议通过矩阵乘积算子(Matrix Product Operators， MPO)明白来减少基于MoE的大模子的参数。该方法将FFN的每个权重矩阵明白为一个包含群众信息的全局分享张量和一组拿获特定特征的局部辅助张量。

另一项研究侧重于改动MoE模子中路由模块(或战术)的联想。在以前的MoE模子中，路由模块容易导致负载不屈衡问题，这意味着一些大家被分拨了大量token，而另一些大家只处理极少token。这种不屈衡不仅浪费了未充分应用的大家的才调，诽谤了模子的性能，还诽谤了推断推理质地。面前的MoE达成平素使用批矩阵乘法来同期算计统共FFN大家。这就要求每个大家的输入矩阵必须具有调换的风景。关联词，由于存在负载不屈衡问题，需要向那些未充分应用的大家中填充输入token集以知足风景敛迹，这会形成算计浪费。因此，路由模块联想的主要主义是在MoE大家的token分拨中达成更好的平衡。Switch Transformers在最终loss函数中引入了一个罕见的loss，即负载平衡loss，以处分路由模块的不屈衡分拨。这种loss被表述为token分拨分数向量和均匀散播向量之间的缩放点积。因此，惟有在统共大家之间平衡token分拨时，蚀本才会最小化。这种方法饱读舞路由模块在大家之间均匀地分发token，促进负载平衡并最终提高模子性能和服从。BASE用端到端的方式学习了每个大家的embedding，然后字据embedding的相似性将大家分拨给令token。为了保证负载平衡，BASE制定了一个线性分拨问题，并应用拍卖算法有用地处罚了这个问题。Expert Choice引入了一种概略而有用的战术来确保基于MoE的模子的齐全负载平衡。与以前将大家分拨给token的方法不同，Expert Choice允许每个大家字据embedding的相似度独处聘用top-k个token。这种方法确保每个大家处理固定数目的token，即使每个token可能分拨给不同数目的大家。

除了上述温雅模子架构自己的研究外，也有对基于MoE的模子的教师方法改动的连接使命。SE-MoE引入了一种新的辅助loss，称为router z-loss第四色vvvv88，其目的是在不影响性能的情况下提高模子教师的踏实性。SE-MoE发当今路由模块中，softmax操作所引入的指数函数会加重舍入误差，导致教师不踏实。为了处罚这个问题，router z-loss会处分输入到指数函数中的概略率，从而最小化教师时间的舍入误差。StableMoE指出基于MoE的大模子存在路由波动问题，即在教师和推理阶段大家分拨不一致。对于调换的输入token，在教师时其被分拨给了不同的大家，但在推理时却只激活一个大家。为了处罚这个问题，StableMoE建议领受更一致的教师方法。它发轫学习路由战术，然后在模子骨干教师和推理阶段保捏固定的路由战术。SMoE-Dropout为基于MoE的大模子联想了一种教师方法，其建议在教师过程中渐渐增多激活大家的数目。这种方法提高了基于MoE的模子的推理和卑劣微调的可扩展性。GLaM预教师并发布了一系列具有不同参数大小的模子，这证明了它们在few-shot任务上与密集大模子的性能超越。这个系列模子中，最大的模子的参数高达1.2万亿。Mixtral 8x7B是最近发布的一个引东谈主精通的开源模子。在推理过程中，它只应用了130亿个步履参数，在不同的基准测试中取得了比LLaMA-2-70B模子更好的性能。Mixtral 8x7B每层由8个前馈收集(FFN)大家组成，每个token在推理过程等分拨给两个大家。

5.1.2 高效attention联想

attention操作是Transformer体捆绑构中的一个枢纽部分。关联词，它的算计复杂度是与输入长度连接的二次方，这导致了大量的算计资本、内存视察资本和内存使用，超越是在处理长高下文时。为了处罚这个问题，研究东谈主员正在探索更有用的方法来近似原始attention操作的功能。这些研究大致可以分为两个主要分支：multi-query attention和low complexity attention。

①Multi-Query Attention。Multi-Query Attention（MQA）通过分享横跨不同小心力头的KV缓存来优化attention 操作。这项战术有用的减少了推理时的内存视察资本和内存使用，对改善Transformer模子的性能带来了匡助。如第2.2节所述，transformer类型的大模子平素领受多头小心力(MHA)操作。该操作需要在解码阶段为每个小心力头存储和检索KV对，导致内存视察资本和内存使用大幅增多。而MQA通过在不同的头上使用调换的KV对，同期保捏不同的Q值来处罚这一问题。通过庸碌的测试，MQA照旧被证明可以显贵诽谤内存需求，且对模子性能的影响很小，这使它成为一个提高推理服从的枢纽工夫。Grouped-query attention(GQA)进一步扩展了MQA的主意，它可以看作是MHA和MQA的羼杂。具体来说，GQA将小心力头分红不同的组，然后为每个组存储一组KV值。这种方法不仅保捏了MQA在减少内存支出方面的上风，还强化了推理速率和输出质地之间的平衡。

②Low-Complexity Attention。Low-Complexity Attention方法旨在联想新的机制来诽谤每个小心力头的算计复杂度。为了简化接头，这里假定Q(查询)、K(键)和V(值)矩阵的维度是调换的，即。由于底下的使命不波及像MQA那样改变小心头的数目，此处的接头聚集在每个头内的小心力机制。如2.2节所述，传统小心力机制的算计复杂度为，超越于跟着输入长度增长，呈二次增长。为了处罚低服从问题，Kernel-based Attention和Low-Rank Attention方法被建议，此方法将复杂度诽谤到。

Kernel-based Attention。基于核的小心力联想了一个核，通过变换特征映射之间的线性点积如，，来近似的非线性softmax操作。它通过优先算计，然后将其与相乘，从而幸免了与连接的传统二次算计。具体来说，输入Q和K矩阵发轫通过核函数映射到核空间，然而保捏其原始维度。接着应用矩阵乘法的关联秉性，允许K和V在与Q交互之前相乘。因此小心力机制被从新表述为：

其中，。此方法有用的将算计复杂度诽谤至，使其与输入长度成线性关系。Linear Transformer是第一个建议基于核的小心力的使命。它领受算作核函数，其中线路指数线性单位激活函数。Performers和RFA建议使用无意特征映射来更好地近似softmax函数。PolySketchFormer领受多项式函数和素描工夫近似softmax函数。

Low-Rank Attention。 Low-Rank Attention工夫在实行小心算计之前，将K和V矩阵的token维度(如)压缩到较小的固定长度(即如)。该方法基于对小心力矩阵平素阐发出低秩秉性的意识，使得在token维度上压缩它是可行的。这条研究门路的主要重点是联想有用的压缩方法，其中可以是高下文矩阵，也可以是K和V矩阵：

有一种使命是使用线性投影来压缩token维度。它通过将K和V矩阵与映射矩阵相乘来完成的。这么，小心力算计的算计复杂度降至，与输入长度成线性关系。Linformer发轫不雅察并分析了小心力的低秩性，建议了低秩小心力框架。LRT建议将低秩变换同期应用于attention模块和FFN，来进一步提高算计服从。FLuRKA将低秩变换和核化结合到小心力矩阵中，进一步提高了服从。具体的说，它发轫诽谤K和V矩阵的token的维度，然后对Q和低秩K矩阵应用核函数。

除了线性映射外，其他的token维度压缩方法也被建议出来。Luna和Set Transformer应用罕见的小心力算计和较小的query来有用地压缩K和V矩阵。Luna则是使用了一个罕见的固定长度为的query矩阵。小的query使用原始的高下文矩阵实行小心力算计，称为pack attention，来将高下文矩阵压缩到大小为。随后，通例的小心力算计，称为unpack attention，将小心力算计应用于原始Q矩阵和压缩的K和V矩阵。罕见的query矩阵可以是可学习的参数或从前一层中获取。Set Transformer通过引入固定长度的矢量，联想了访佛的工夫。FunnelTransformer不同于以往压缩K和V的使命，它使用池化操作来渐渐压缩Q矩阵的序列长度。

5.1.3 Transformer替代

除了聚焦于优化小心力操作除外，最近的研究还立他乡联想了高效而有用的序列建模体捆绑构。表2比较了一些代表性的非transformer架构模子的性能。在教师和推理过程中，这些架构的模子在序列长度方面阐发出小于二次方的算计复杂度，使大模子能够显着增多其高下文长度。

图片

典型非Transformer架构模子性能比较

在这些研究中，有两个杰出的研究地点引起了极大的温雅。其中一条研究聚集在景色空间模子(State Space Model， SSM)上，该模子将序列建模视作一种基于HiPPO表面的递归变换。此外，其他研究主要聚集在使用长卷积或联想访佛小心力的公式来建模序列。

State Space Model：景色空间模子（SSM）在某些NLP和CV任务中的建模才调极具竞争力。与基于小心力的Transformer比拟，SSM在输入序列长度方面阐发出线性的算计和存储复杂度，这提高了其处理长高下文序列的才调。本篇综述中，SSM是指一系列知足以下两个属性的模子架构:

(1)它们基于HiPPO和LSSL建议的以下公式对序列进行建模：

其中，线路挪动矩阵。为中间景色，为输入序列。

(2)他们基于HiPPO表面联想了挪动矩阵A。具体来说，HiPPO建议通过将输入序列映射到一组多项式基上，将其压缩为统共序列(即)。

在上述框架的基础上，一些研究主要聚集在改动挪动矩阵A的参数化或驱动化。这包括在SSM中从新界说矩阵的公式或驱动化方式，以增强其在序列建模任务中的有用性和性能。LSSL发轫建议用HiPPO联想的最优挪动矩阵驱动化A。此外，LSSL还通过张开公式(7)，以卷积的方式教师SSM。具体地说，通过界说一个卷积核为，可以将公式(7)改写为，也可以通过快速傅里叶变换(FFT)高效地算计。关联词，算计这个卷积核的代价是昂扬的，因为它需要屡次乘以A。为此，S4、DSS和S4D建议对矩阵A进行对角化，从而加速算计速率。这可以看作是转机矩阵A的参数化工夫。昔日的SSM独处处理每个输入维度，从而会产生大量可教师的参数。为了提高服从，S5建议使用一组参数同期处理统共输入维度。在此结构的基础上，S5先容了基于法式HiPPO矩阵的A的参数化和驱动化方法。Liquid S4和Mamba以输入依赖的方式对挪动矩阵进行参数化，这进一步增强了SSM的建模才调。此外，S5和Mamba均领受并行扫描工夫，无需卷积操作即可进行有用的模子教师。这种工夫在当代GPU硬件上的达成和部署方面具有上风。

另一类研究地点是基于SSM联想更好的模子架构。GSS和BiGS结合了门控小心力单位(GAU)和SSM。它们将GAU中的小心力操作替换为SSM操作。BST将SSM模子与建议的使用强局部感应偏置的Block Transformer相结合。H3不雅察到SSM在调回较早的token和跨序列比较token方面很弱。为此，它建议在法式SSM操作之前增多一个移位SSM操作，用于顺利将输入令牌移位插足景色。MambaFormer结合了法式Transformer和SSM模子，将Transformer中的FFN层替换为SSM层。Jamba引入了另一种方法，通过在SSM模子中添加四个Transformer层来组合Transformer和SSM模子。DenseMamba探讨了传统SSM中荫藏景色退化的问题，并在SSM体捆绑构中引入了繁多相接，以在模子的更深层中保存细粒度信息。BlackMamba和MoE- mamba建议用羼杂大家(Mixture-of-Experts， MoE)工夫增强SSM模子，在保捏模子性能的同期优化教师和推理服从。

其他代替：除了SSM除外，还有其他几种高效的替代有谋划也引起了极大的温雅，包括长卷积和类attention的递归运算。一些研究在长序列建模中领受了长卷积。这些使命东如果对于卷积参数的参数化的。例如，Hyena领受了一种数据连接的参数化方法，用于使用浅前馈神经收集(FFN)的长卷积。其他联想类小心力操作，但可以纳入轮回方式的研究，从而达成高效的教师和高效的推理。例如，RWKV是在AFT的基础上引诱的，AFT建议将Transformer模子中的小心力操作代入如下公式:

其中，和Transformer通常，分别为quey，key，vakue，为一个可学习的成对位置偏差和为一个非线性函数。具体来说，它进一步将位置偏差进行重参数化，，因此可以将公式（8）重写为递归步地。这么，RWKV可以将Transformer的有用并行化教师秉性和RNN的高效推理才调结合起来。

恶果分析：著述在表2等分析和比较了几种立异的和具有代表性的非Transformer架构的模子的算计和内存复杂性。在教师时候方面，很多模子(如S4， Hyena， RetNet)这些通过使用卷积或小心力等教师步地来保捏教师并行性。值得小心的是，Mamba用并行扫描工夫处理输入序列，从而也使用了教师并行性。

另一方面，在推理过程中，大多数研究聘用轮回架构来保捏prefilling阶段的线性算计复杂度并在decoding阶段保捏高下文长度不可知。而且，在decoding阶段，这些新颖的体捆绑构排斥了缓存和加载历史token的秉性的需要(访佛于基于Transformer的讲话模子中的KV缓存)，从而显贵检朴了内存视察资本。

5.2 模子压缩

模子压缩包括一系列旨在通过修改预教师模子的数据线路(例如，量化)或改变其模子架构(例如，荒芜化、结构优化和动态推理)来提高其推理服从的工夫，如图8所示。

图片

图8：大模子的模子压缩方法分类5.2.1 量化

量化是一种庸碌使用的工夫，通过将模子的权重和激活从高位宽线路转机为低位宽线路来减少大模子的算计和内存资本。具体来说，很多方法都波及到将FP16张量量化为低位整型张量，可以线路为如下公式:

其中线路16位浮点(FP16)值，线路低精度整数值，线路位数，和线路缩放因子和零点。

不才面，本文从服从分析脱手，说明量化工夫若何减少大模子的端到端推理延长。随后，再分别详备先容两种不同的量化使命经过：Post-Training Quantization (PTQ)和Quantization-Aware Training (QAT)。

服从分析：如2.2节所述，大模子的推理过程包括两个阶段：prefilling阶段和decoding阶段。在prefilling阶段，大模子平素处理长token序列，主要操作是通用矩阵乘法(GEMM)。Prefilling阶段的延长主要受到高精度CUDA内核实行的算计操作的扬弃。为了处罚这个问题，现存的研究方法对权重和激活量化，以使用低精度Tensor核来加速算计。如图9 (b)所示，在每次GEMM操作之前会在线实行激活量化，从而允许使用低精度Tensor核(例如INT8)进行算计。这种量化方法被称为权重激活量化。

比拟之下，在解码阶段，大模子在每个生成步中只处理一个token，其使用通用矩阵向量乘法(GEMV)算作中枢操作。解码阶段的延长主要受到加载大权重张量的影响。为了处罚这个问题，现存的方法只温雅量化权重来加速内存视察。这种方法称为，发轫对权重进行离线量化，然后将低精度权重去量化为FP16风景进行算计，如图9 (a)所示。

图片

图9：(a)纯权分量化推理经过。(b)权重激活量化推理经过。

Post-Training Quantization： PTQ波及对预教师模子进行量化，而不需要再教师，这可能是一个昂扬的过程。尽管PTQ方法照旧在较小的模子中得到了很好的探索，然而将现存的量化工夫顺利应用于大模子存在清贫。这主如果因为与较小的模子比拟，大模子的权重和激活平素阐发出更多的荒谬值，何况具有更宽的散播范围，这使得它们的量化更具挑战性。总之，大模子的复杂秉性，以其范围和复杂性为特征，需要用特意的方法来有用地处理量化过程。大模子中荒谬值和更宽的散播范围的存在需要开发量身定制的量化工夫，以便在不影响模子性能或服从的情况下处理这些特有的特征。

大量的研究悉力于于开发有用的量化算法来压缩大模子。本文在表3中提供了跨四个维度分类的代表性算法的概述。对于量化张量的种类，某些研究专注于weight-only quantization，而其他很多研究则专注于权重和激活的量化。值得小心的是，在大模子中，KV缓存代表了影响内存和内存视察的特有组件。因此，一些研究建议对KV缓存进行量化。在量化风景方面，为了便于硬件达成，大多数算法领受和洽的风景。对于量化参数(如缩放因子、零点)的笃定，大多数研究依赖于由权重或激活值得出的统计数据。关联词，也有一些研究主张基于重构loss来寻找最优参数。此外，一些研究也建议在量化之前或量化过程中更新未量化的权重(称为)以提高性能。

在weight-only quantization方法中，GPTQ代表了大模子量化的早期较好的使命，它引诱在传统算法OBQ的基础上。OBQ通过相对于未量化权重的Hessian矩阵的重建误差的方法，来达成每行权重矩阵的最优量化措施。在每个量化要领之后，OBQ迭代接济未量化的权重以缩小重建误差。关联词，量化过程中频繁更新Hessian矩阵增多了算计复杂度。GPTQ通过领受和洽的从左到右的措施来量化每一溜，从而简化了这个过程，从而幸免了大量更新Hessian矩阵的需要。该战术通过在量化一溜时仅算计Hessian矩阵，然后将算计落幕用于后续行，从而大大减少了算计需求，从而加速了统共这个词量化过程。LUT- GEMM建议了一种新的应用查找表(Look-Up Table， LUT)的去量化方法，旨在通过减少去量化支出来加速量化大模子的推理过程。此外，它领受了一种称为二进制编码量化(BCQ)的非均匀量化方法，该方法包含了可学习的量化区间。AWQ不雅察到权重通谈对性能的重要性各不调换，超越强调那些与激活荒谬值的输入通谈对王人的通谈。为了增强枢纽权重通谈的保存，AWQ领受了一种重参数化的方法。该方法通过网格搜索聘用重参数化统共，有用地减小了重构误差。OWQ不雅察到量化与激活荒谬值连接的权重的清贫。为了处罚这个问题，OWQ领受了羼杂精度量化战术。该方法识别权重矩阵中的弱列，并为这些特定权重分拨更高的精度，同期以较低的精度级别量化其余权重。SpQR引入了一种方法，在量化过程中识别和分拨更高精度的权重荒谬值，而其余权重被量化为3位。SqueezeLLM建议将离群值存储在全精度荒芜矩阵中，并对剩余权重应用非均匀量化。字据量化聪敏度笃定非均匀量化的值，能够提高量化模子的性能。QuIP引入了LDLQ，一种二次代理主义的最优自得当方法。研究标明，保证权值与Hessian矩阵之间的不关联性可以提高LDLQ的有用性。QuIP应用LDLQ，通过无意正交矩阵乘法达成非关联性。FineQuant领受了一种启发式方法。为了笃定每列量化的粒度，结合从实验中获取的教训视力来联想量化有谋划。QuantEase的使命引诱在GPTQ之上。在对每一层进行量化时，其建议了一种基于坐标下落的方法来更精准地赔偿未量化的权重。此外，QuantEase可以应用来自GPTQ的量化权重算作驱动化，并进一步完善赔偿过程。LLM-MQ领受FP16风景保护权重荒谬值，并将其存储在压缩荒芜行(CSR)风景中，以提高算计服从。此外，LLM-MQ将每个层的位宽分拨，建模为整数谋划问题，并领受高效的求解器在几秒内求解。LLM-MQ还联想了一个高效的CUDA内核来集成去量化运算符，从而诽谤了算计过程中的内存视察资本。

对于weight-activation quantization，ZeroQuant领受细粒度量化权值和激活，应用核交融来最小化量化过程中的内存视察资本，并逐层进行学问蒸馏以复兴性能。FlexGen将权重和KV缓存顺利量化到INT4中，以减少大量量推理时间的内存占用。LLM.int8() 发现激活中的荒谬值聚集在一小部分通谈中。基于这一丝，LLM.int8() 字据输入通谈内的离群值散播将激活和权重分红两个不同的部分，以最小化激活中的量化误差。包含激活值和权重的荒谬数据的通谈以FP16风景存储，其他通谈则以INT8风景存储。SmoothQuant领受了一种从新参数化工夫来处罚量化激活值的挑战。该方法引入比例因子，扩大了权重通谈的数据范围，缩小了相应激活通谈的数据范围。ZeroQuant引入了权重的组级别的量化战术和激活的token级别的量化方法。在此方法的基础上，ZeroQuantV2建议了LoRC(低秩赔偿)工夫，领受低秩矩阵来缩小量化不准确性。RPTQ发现不同激活通谈的散播，实质上是变化的，这给量化带来了挑战。为了缓解这个问题，RPTQ将具有相似激活散播的通谈从新组织到集群中，并在每个集群中独随即应用量化。OliVe不雅察到离群值隔壁的正态值不那么枢纽。因此，它将每个离群值与一个正态值配对，毁灭正态值，以获取更大的离群值线路范围。OS+不雅察到荒谬值的散播是聚集且不合称的，这对大模子的量化建议了挑战。为了处罚这个问题，OS+引入了一种通谈级别的挪动和缩下班夫。在搜索过程去笃定挪动和缩放参数，能有用地处理聚集庸不合称的离群值散播。ZeroQuant-FP研究了将权重和激活值量化为FP4和FP8风景的可行性。研究标明，与整数类型比拟，将激活量化为浮点类型(FP4和FP8)会产生更好的落幕。Omniquant与先前依赖量化参数的教训联想的方法不同。相背，它优化了权值编著的鸿沟和等效变换的缩放因子，以最小化量化误差。QLLM通过达成通谈重组来处罚荒谬值对量化的影响。此外，QLLM还联想了可学习的低秩参数，来减小post-quantized模子的量化误差。Atom领受了羼杂精度和动态量化激活的战术。值得小心的是，它扩展了这种方法，将KV缓存量化为INT4，以提高模糊量性能。LLM-FP4奋勉将统共这个词模子量化为FP4风景，并引入了预移位指数偏置工夫。该方法将激活值的比例因子与权重相结合，以处罚荒谬值带来的量化问题。BiLLM代表了迄今为止最低位PTQ的使命之一。BiLLM识别了权值的钟形散播和权值Hessian矩阵的荒谬长尾散播。在此基础上，建议了将基于Hessian矩阵的权重结构分类为显贵值和非显贵值，并分别进行二值化。因此，BiLLM可以将大模子庸碌量化到1.08位，且不会显贵诽谤困惑度。KVQuant通过在校准集上离线导出最优数据类型，建议了KV缓存量化的非均匀量化有谋划。KIVI建议了一种无需调优的2bit KV缓存量化算法，该算法应用单通谈量化用于key cache，应用单token量化进行value cache。Li等进行了全面的评估，评估了量化对不同张量类型(包括KV Cache)、各样任务、11种不同的大模子和SOTA量化方法的影响。

Quantization-Aware Training：QAT在模子教师过程中酌量了量化的影响。通过集成复制量化恶果的层，QAT有助于权重得当量化引起的误差，从而提高任务性能。关联词，教师大模子平素需要大量的教师数据和算计资源，这对QAT的实施组成了潜在的瓶颈。因此，咫尺的研究使命聚集在减少教师数据需求或缩小与QAT实施连接的算计包袱的战术上。为了减少数据需求，LLM-QAT引入了一种无数据的方法，应用原始FP16的大模子生成教师数据。具体来说，LLM-QAT使用词表中的每个token算作生成句子的肇端秀丽。基于生成的教师数据，LLM- QAT应用了基于蒸馏的使命流来教师量化的LLM，以匹配原始FP16大模子的输出散播。Norm Tweaking只针对那些在讲话类别中占最高比例的讲话，作念了肇端秀丽的扬弃聘用。这一战术可以有用地提高量化模子在不同任务上的生成性能。

为了减少算计量，很多方法领受高效参数微调(parameter-efficient tuning，PEFT)战术来加速QAT。QLoRA将大模子的权分量化为4位，随后在BF16中对每个4位权重矩阵使用LoRA来对量化模子进行微调。QLoRA允许在一个惟有30GB内存的GPU上对65B参数的大模子进行有用的微调。QALoRA则建议在QLoRA中加入分组量化。作家不雅察到QLoRA中量化参数的数目明显小于LoRA参数的数目，这会导致量化与低秩自得当之间的不屈衡。他们建议，组级别的操作可以通过增多专用于量化的参数数目来处罚这个问题。此外，QA-LoRA可以将LoRA项合并到相应的量化权矩阵中。LoftQ指出，在QLoRA顶用零驱动化LoRA矩阵对于卑劣任务是低效的。算作一种替代有谋划，LoftQ建议使用原始FP16权重与量化权重之间差距的奇异值明白(Singular Value Decomposition，SVD)来驱动化LoRA矩阵。LoftQ迭代地应用量化和奇异值明白来获取更精准的原始权重近似值。Norm Tweaking建议在量化后教师LayerNorm层，并使用学问蒸馏将量化模子的输出散播与FP16模子的输出散播进行匹配，达到访佛LLM-QAT的恶果，同期幸免了较高的教师资本。

对比实验与分析：本综述的作家对不同场景下的weight-only quantization工夫所产生的加速恶果。作家使用了LLaMA-2-7B和LLaMA-2-13B，并使用AWQ将它们的权分量化至4-bit。作家使用NVIDIA A100进行实验，并使用TensorRT-LLM和LMDeploy这两个推理框架部署量化后的大模子。然后，作家评估了这些推理框架在不同的输入序列上达成的加速，这些序列是批大小和高下文长度不同的。prefilling延长、decoding延长端到端延长的加速恶果，如表4所示。

图片

表4：大模子加速恶果对比

实验落幕标明：（1）Weight-only quantization可以在decoding阶段加速，进而达成端到端的加速。这种提高主要源于从高带宽内存( High Bandwidth Memory，HBM)更快地加载具有低精度权重张量的量化模子，这种方法显贵减少了内存视察支出。(2)对于prefilling阶段，weight-only quantization可能会增多延长。这是因为prefilling阶段的瓶颈是算计资本，而不是内存视察支出。因此，只量化莫得激活的权重对延长的影响最小。此外，如图9所示，weight-only quantization需要将低精度权重去量化到FP16，这会导致罕见的算计支出，从而降速prefilling。(3)跟着批量大小和输入长度的增多，weight-only quantization的加速程度逐步减小。这主如果因为，对于更大的批处理大小和输入长度，算计资本组成了更大比例的延长。诚然weight-only quantization主要诽谤了内存视察资本，但跟着批量大小和输入长度增大，算计需求变得愈加杰出，它对延长的影响变得不那么显贵。(4)由于内存视察支出与模子的参数目范围连接，weight-only quantization为参数范围较大的模子提供了更大的自制。跟着模子的复杂度与尺寸的增长，存储和视察权重所需的内存量也会成比例地增多。通过量化模子权重，weight-only quantization可以有用地减少内存占用和内存视察支出。

5.2.2 荒芜化（Sparsification）

荒芜化是一种压缩工夫，可以增多数据结构(如模子参数或激活)中零值元素的比例。该方法通过在算计过程中有用地忽略零元素来诽谤算计复杂度和内存占用。在应用到大模子中时，荒芜化平素应用于权重参数和小心力激活。这导致了权值修剪战术和荒芜小心力机制的发展。

权重修剪（Weight Pruning）：权值修剪系统地从模子中去除不太枢纽的权值和结构，旨在减少预填充阶段息争码阶段的算计和内存资本，而不会显贵影响性能。这种荒芜化方法分为两种主要类型：非结构化修剪和结构化修剪。它们的分类基于修剪过程的粒度，如图10所示。

图片

图10：非结构化修剪和结构化修剪

非结构化修剪以细粒度修剪单个权重值。与结构化修剪比拟，它平素在对模子预计影响最小的情况下达成更高的荒芜度。关联词，通过非结构化剪枝达成的荒芜模式进攻高级次的限定性，导致不规则的内存视察和算计模式。这种不限定会严重遏抑硬件加速的后劲，因为当代算计架构针对密集、规则的数据进行了优化。因此，尽管达成了更高的荒芜度级别，但非结构化剪枝在硬件服从和算计加速方面的推行自制可能是有限的。

权值修剪的焦点是修剪法式，包括权重重要性和修剪比例。酌量到大模子的参数范围巨大，提高剪枝服从也至关重要。一个修剪准则是最小化模子的重建蚀本。SparseGPT是该领域的代表性方法。它受命OBS的念念想，酌量去除每个权值对收集重构蚀本的影响。OBS迭代地笃定一个剪枝掩模对权值进行剪枝，并重建未剪枝的权值以赔偿剪枝蚀本。SparseGPT通过最优部分更新工夫克服了OBS的服从瓶颈，联想了一种基于OBS重构误差的自得当掩码聘用工夫。Prune and Tune通过在修剪过程中使用最少的教师要领微调大模子来改动SparseGPT。ISC结合OBS和OBD中的显贵性法式联想了一种新的修剪法式。该算法进一步字据Hessian信息为每一层分拨非均匀剪枝比例。BESA通过重构蚀本的梯度下落学习一个可微的二值掩码。每一层的剪枝比治安通过最小化重建误差来笃定。另一种流行的修剪法式是基于大小缺定。Wanda建议使用权值与输入激活范数之间的元素积算作修剪准则。RIA通过使用相对重要性和激活度的度量来合资酌量权重和激活度，该度量基于其统共相接的权重来评估每个权重元素的重要性。此外，RIA将非结构化荒芜范式转机为结构化N:M荒芜范式，可以在NVIDIA GPU上获取推行的加速。OWL侧重于笃定各层的剪枝比例。它字据激活荒谬值比率为每一层分拨剪枝比率。

与非结构化修剪比拟，结构化修剪以更粗的粒度操作，修剪模子中较大的结构单位，例如统共这个词通谈或层。这些方法顺利促进了在传统硬件平台上的推理加速，因为它们与这些系统优化处理的密集、规则的数据范式保捏一致。关联词，结构化修剪的粗粒度平素会对模子性能产生更明显的影响。这类修剪法式还强制实行结构化修剪模式。LLM-Prune建议了一种任务不可知的结构化修剪算法。具体来说，它发轫字据神经元之间的相接依赖关系识别出大模子中的偶伙同构。然后，它字据联想考究的组级别的修剪度量来决定要删除哪些结构组。修剪后，进一步建议通过一个高校参数教师工夫，如LoRA来复兴模子性能。 Sheared LLaMA建议将原始大模子修剪为现存预教师大模子的特定主义架构。此外，它联想了动态批数据加载工夫来提高post-training 性能。

ZipLM迭代地识别和修剪结构组件，在损结怨运行时候之间进行最坏的衡量。LoRAPrune为带有LoRA模块的预教师大模子建议了结构化修剪框架，以达成基于LoRA的模子的快速推理。它联想了基于LoRA的权值和梯度的由LoRA指引的剪枝准则，并联想了基于该准则去除不重要权值的迭代剪枝有谋划。LoRAShear还为基于LoRA的大模子联想了一种修剪方法，该方法领受(1)图算法来识别最小的去除结构，(2)渐进式结构化剪接算法LHSPG，(3)动态学问复兴机制来复兴模子性能。SliceGPT[174]基于RMSNorm操作的算计不变性念念想。它建议在每个权值矩阵中对荒芜性进行结构化成列，并对统共这个词行或列进行切片。PLATON[建议通过酌量权重的重要性和不笃定性来修剪权重。它使用重要性分数的指数挪动平均(Exponential Moving Average，EMA)来揣度重要性，对不笃定性领受上置信度界(UCB)。SIMPLE建议通过学习相应的荒芜掩码来修剪小心头、FFN神经元和荫藏维度。在进行剪枝后，进一步领受学问精馏对剪枝后的模子进行微调，达成性能复兴。

荒芜小心力（Sparse Attention）：Transformer多头自小心力(MHSA)组件中的荒芜小心工夫可以战术性地不祥某些小心运算，以提高小心运算的算计服从，主如果在预填充阶段。这些机制字据对特定输入数据的依赖程度分为静态和动态两类。

静态荒芜小心力去除了独处于特定输入的激活值。这些方法事先笃定了荒芜的小心力掩码，并在推理过程中将其强加于小心力矩阵。昔日的研究使命结合了不同的荒芜模式来保留每个小心力矩阵中最基本的元素。如图11(a)所示，最常见的荒芜小心力模式是局部和全局小心模式。腹地小心力范式拿获每个token的腹地高下文，并在每个token周围缔造固定大小的窗口小心。全局小心力范式通过算计和温雅统共这个词序列中的统共token来拿获特定token与统共其他token之间的连接性。应用全局模式可以排斥存储未使用的token的KV对的需要，从而减少了解码阶段的内存视察资本和内存使用。Sparse Transformer将这些模式结合起来，用腹地模式拿获腹地高下文，然后每隔几个单词就用全局模式团聚信息。StreamingLLM只对前几个token应用腹地模式和全局模式。落幕标明，这种全局模式算作小心力漕，保捏了对驱动秀丽的强小心得分。它有助于大模子推广到无穷输入序列长度。Bigbird也使用无意模式，其中统共token都参加一组无意token。证明了局部模式、全局模式和无意模式的组合可以封装统共一语气序列到序列的函数，并说明了其图灵完备性。如图11(b)所示，Longformer还引入了彭胀的滑动窗口模式。它访佛于扩张的CNN，使滑动窗口“扩张”以增多袭取野。为了使模子得当荒芜缔造，Structured sparse Attention提倡一种熵感知的教师方法，将高概率的小心力值聚集到更密集的区域中。与以往手工联想荒芜模式的研究不同，SemSA使用基于梯度的分析来识别重要的小心模式，并自动优化小心密度散播，进一步提高模子服从。

图片

图11：不同的荒芜小心力掩码例如

比拟之下，动态荒芜小心力字据不同的输入自得当地排斥激活值，通过实时监测神经元的激活值来绕过对神经元的影响可以忽略的算计，从而达成修剪。大多数动态荒芜小心方法领受动态token修剪方法，如图11(c)所示。Spatten、SeqBoat和Adaptive Sparse Attention应用讲话结构的固有冗余建议动态秀丽级修剪战术。Spatten通过汇总小心力矩阵列来评估每个单词的积蓄重要性，并在后头的层中从输入中对具有最小积蓄重要性的token进行修剪。SeqBoat教师了一个线性景色空间模子(State Space Model， SSM)，该模子带有一个荒芜的sigmoid函数，以笃定每个小心力头需要修剪哪个token。Spatten和SeqBoat都对统共这个词输入的无信息的token进行了修剪。自得当荒芜小心力在生成过程中逐步修剪token。它去除了高下文中，在将来生成不再需要的部分。

除了动态token修剪，动态小心力修剪工夫也被应用。如图11(d)所示，这些方法不是修剪某些token的统共小心力值，而是字据输入动态地修剪小心力的聘用部分。在连接使命中，一个较为可以的方法是动态地将输入token分红组，称为桶，并战术性地不祥驻留在单独桶中的token的小心力算计。这些方法的重点在于若何将连接的token聚类在沿途，来促进它们之间的小心力算计，从而提高服从。Reformer应用位置敏锐的哈希来将分享调换哈希码的key和query聚集到合并个桶中。在此之后，Sparse Flash Attention引入了特意针对这种基于哈希的荒芜小心力机制进行优化的GPU内核，进一步提高了算计服从。同期，Routing Transformer领受球形k-means聚类算法将token团聚到桶中，优化了小心力算计的聘用过程。Sparse Sinkhorn Attention领受学习排序收集将key与其连接的query桶对王人，确保仅在相应的query和key对之间算计小心力。与桶级操作不同，H2O引入了token级动态小心力修剪机制。它将静态腹地小心力与面前query和一组动态秀丽的key token之间的动态算计结合起来，称作heavy-hitters(H2)。这些 heavy-hitters通过移除战术进步履态接济，该战术旨在在每个生成要领中删除最不重要的key，从而有用地管束heavy-hitter集的大小和连接性。

此外，将每个token视为图节点，将token之间的小心力视为边，可以扩展静态荒芜小心力的视角。原始的全小心力机制等同于一个均匀最短旅途距离为1的完整图。荒芜小心力通过其无意掩码引入无意边，有用地将随性两个节点之间的最短旅途距离减小到，从而保捏访佛于王人备小心的高效信息流。Diffuser应用图论的视角，通过多跳token关联来扩展荒芜小心的袭取场。它还从扩展图属性中获取灵感，以联想更好的荒芜模式，以近似全小心力的信息流。

除了小心力级和token级的荒芜性除外，小心力修剪的范围扩展到各样粒度。Spatten还将修剪从token粒度扩展到小心力头粒度，排斥了不必要的小心力头的算计，以进一步减少算计和内存需求。

5.2.3 架构优化（Structure Optimization）

架构优化的主义是从新界说模子的体捆绑构或者架构，以提高模子服从和性能之间的平衡。连接使命中有两种杰出的工夫：神经结构搜索(Neural Architecture Search， NAS)和低秩明白(Low Rank Factorization， LRF)。

神经结构搜索(Neural Architecture Search)：神经架构搜索(Neural Architecture Search， NAS)旨在自动搜索在服从和性能之间达到最好平衡的最优神经架构。AutoTinyBERT应用one-shot神经架构搜索(NAS)来发现Transformer架构的超参数。值得小心的是，它引入了一种引东谈主精通的批处理教师方法来教师超等预教师讲话模子(SuperPLM)，随后使用进化算法来识别最优子模子。NAS-BERT使用一些立异工夫，如块级别搜索、搜索空间修剪和性能靠拢，在传统的自监督预教师任务上教师大型超等收集。这种方法允许NAS-BERT有用地应用于各样卑劣任务，而不需要大量的从新教师。通过NAS进行结构剪枝将结构剪枝算作一个多主义NAS问题，通过一次性的NAS方法进行处罚。LiteTransformerSearch建议使用不需要教师的方针，例如参数的数目算作代理方针来携带搜索。这种方法可以有用地探索和聘用最优的体捆绑构，而不需要在搜索阶段进行推行的教师。AutoDistil建议了一种王人备与任务无关的few-shot NAS算法，该算法具有三种主要工夫：搜索空间分歧、与任务无关的SuperLM教师和与任务无关的搜索。这种方法的目的是促进跨各样任务的高效体捆绑构发现，并减少特定于任务的接济。平素，NAS算法需要评估每个采样架构的性能，这可能会产生大量的教师资本。因此，这些工夫在应用于大模子时具有挑战性。

低秩明白(Low Rank Factorization)：低秩明白(LRF)或低秩明白(Low Rank Decomposition)的目的是用两个低秩矩阵和近似一个矩阵:

其中比和小得多。这么，LRF可以减少内存使用，提高算计服从。此外，在大模子推理的解码阶段，内存视察资本是解码速率的瓶颈。因此，LRF可以减少需要加载的参数数目，从而加速解码速率。LoRD夸耀了压缩大模子的后劲，而不和会过LRF大幅诽谤性能。具体来说，领受奇异值明白(SVD)对权重矩阵进行因式明白，顺利地将一个包含16B个参数的大模子压缩为12.3B，性能小幅度下落。TensorGPT引入了一种使用Tensor-Train Decomposition来压缩embedding层的方法。每个token embedding都被视为矩阵乘积景色(Matrix Product State， MPS)，并以散播式方式高效算计。LoSparse结合了LRF和权值剪枝在LLM压缩中的优点。通过应用低秩近似，LoSparse诽谤了顺利进行模子修剪平素会丢失太多抒发神经元的风险。LPLR和ZeroQuant-V2都建议了对权矩阵进行LRF和量化同期压缩的方法。DSFormer建议将权重矩阵明白为半结构化荒芜矩阵与一个袖珍密集型矩阵的乘积。ASVD联想了一个激活感知的奇异值明白方法。该方法包括在应用奇异值明白进行矩阵明白之前，字据激活散播缩放权重矩阵。ASVD还包括通过一个搜索进度笃定每个层的合适的截断秩。

5.2.4 学问蒸馏（Knowledge Distillation）

学问蒸馏(Knowledge Distillation， KD)是一种训练的模子压缩工夫，其中来推进型模子(称为teacher模子)的学问被挪动到较小的模子(称为student模子)。在大模子的布景下，KD使用原始的大模子算作teacher模子来提真金不怕火较小的大模子。咫尺很多研究都聚集在若何有用地将大模子的各样才调挪动到更小的模子上。在这个领域，方法可以分为两种主要类型：白盒KD和黑盒KD(如图12所示)。

图片

图12：白盒KD（左）与黑盒KD（右）默示图

白盒KD（White-box KD）：白盒KD指的是应用对teacher模子的结构和参数的视察的蒸馏方法。这些方法使KD能够有用地应用teacher模子的中间特征和输出概率来增强student模子的性能。MiniLLM领受法式白盒KD方法，但将正向Kullback-Leibler divergence(KLD)替换为反向KLD。GKD引入了对 on-policy数据的使用，其中包括由student模子自己生成的输出序列，以进一步蒸馏学生模子。该方法侧重于使用这些战术数据来对王人teacher和student模子之间的输出概率。TED建议了一种任务感知的层级别的方法，包括结合罕见的检索分层KD方法。这种方法包括在teacher和student模子的每一层之后添加过滤器，教师这些特定任务的过滤器，然后冻结teacher模子的过滤器，在教师student过滤器以使其输出特征与相应的teacher过滤器对王人时。MiniMoE通过使用羼杂大家(MoE)模子算作student模子来缓解才调差距。对于新出现的实体，预教师讲话模子可能进攻最新的信息。为了处罚这个问题，一种处罚有谋划是将罕见的检索文本合并到提醒中，尽管这会增多推理资本。另外，KPTD通过学问蒸馏将学问从实体界说挪动到大模子参数。该方法生成一个基于实体界说的传输集，并索求student模子，以便将输出散播与基于这些界说的teacher模子相匹配。

黑盒KD（Black-box KD）：黑盒KD是指teacher模子的结构和参数不可获取的学问蒸馏方法。平素，黑箱KD只使用teacher模子得到的最终落幕来蒸馏student模子。在大模子领域，黑箱KD主要指引student模子学习大模子的泛化才和洽深入才调，包括InContext Learning (ICL)才调、念念维链(Chain-of-Thought， CoT)推理才和洽Instruction Following (IF)才调。在ICL才调方面，Multitask-ICT引入了高下体裁习蒸馏(in-context learning distillation)来挪动大模子的多任务few-shot才调，同期应用高下体裁习和讲话建模才调。MCKD不雅察到，从通过语境学习得到的teacher模子中提真金不怕火出来的student模子，在看不见的输入prompt上不时阐发优异。基于这一不雅察，MCKD联想了一个多阶段蒸馏范式，其中使用前阶段的student模子为后续阶段生成蒸馏数据，从而提高了蒸馏方法的有用性。为了提真金不怕火念念维链(CoT)推理才调，诸如 Distilling Step-by-Step、SCoTD、CoT prompt、MCC-KD和Fine-tune-CoT等几种工夫建议了提真金不怕火方法，将从大模子中索求的反应和基欢喜趣结合起来教师student模子。 Socratic CoT也将推理才调挪动到较小的模子。具体来说，它对一双student模子进行了微调，即问题生成(QG)模子和问题回答(QA)模子。QG模子被教师成基于输入问题生成中间问题，携带QA模子生成最终的回答。PaD不雅察到误差的推理(即正确的最终谜底但误差的推理要领)可能对student模子无益。为了处罚这个问题，PaD建议生成合成模范用于推理问题，然后由附加的解释器自动查验。这种方法有助于去除带有误差推理的蒸馏数据，提高student模子教师数据的质地。

5.2.5 动态推理

动态推理波及在推理过程中自得当聘用模子子结构，其以输入数据为条款。此末节重点先容early exiting的工夫，这些工夫使大模子能够字据特定的样本或token在不同的模子层罢手其推理。值得小心的是，诚然MoE工夫(在第5.1.1节中接头)也会在推理过程中接济模子结构，但它们平素波及昂扬的预教师资本。比拟之下，这些工夫只需要教师一个小模块来笃定何时落幕推理。本文将此类研究分为两大类：样本级别的early exiting和token级别的early exiting(如图13所示)。

图片

图13：token级别和样本级别的动态推理默示图

样本级别：样本级别的early exiting工夫侧重于笃定用于单个输入样本的大模子的最好大小和结构。一种常见的方法是在每一层之后使用罕见的模块来扩展大模子，应用这些模块来决定是否在特定层断绝推理。FastBERT， DeeBERT， MP和MPEE顺利教师这些模块来字据面前层的特征作念出决策(例如，输出0无间或输出1罢手)。Global Past-Future Early Exit建议了一种方法，应用来自前一层和后一层的讲话信息丰富这些模块的输入。酌量到在推理过程中不可顺利视察将来层的特征，论文教师了一个概略的前馈层来揣度这些将来特征。PABEE教师模块来算作顺利预计的输出面，建议在预计保捏一致时断绝推理。HASHEE领受了一种非参数决策方法，该方法基于相似样本应在合并层退出推理的假定。

Token级别：在大模子推理的decodig阶段，治安生成token，token级别的early exiting工夫旨在优化用于每个输出token的大模子的大小和结构。CALM在每个Transformer层之后引入early exit分类器，教师它们输出置信度分数，以笃定是否在特定层罢手推理。值得小心的是，在self-attention模块中，算计每层面前token的特征依赖于合并层中统共先前token的特征(即KV cache)。为了处罚由于先前token early exit而导致KV cache丢失的问题，CALM建议顺利将该特征从现存层复制到后续层，实验落幕夸耀惟有幽微的性能下落。SkipDecode处罚了先前早期存在的方法的局限性，这些方法遏抑了它们对批处理推理和KV cache的适用性，从而扬弃了推行的加速增益。对于批处理推理，SkipDecode为批处理中的统共token建议了一个和洽的退出点。对于KV cache，SkipDecode确保了exit point的单调减少，以防患KV缓存的从新算计，从而促进了推理过程中的服从提高。

5.3 意识，建议和将来地点

在高效结构联想方面，寻找替代Transformer的结构是一个新兴的研究领域。例如，Mamba、RWKV过火各自的变种在各样任务中阐发出了竞争力，连年来引起了越来越多的温雅。关联词，视察这些非Transformer模子与Transformer模子比拟是否会阐发出某些瑕玷仍然是连接的。同期，探索非transformer架构与小心力操作的集成是将来另一个有但愿的研究地点。

在模子压缩领域，量化算作在大模子部署中使用的主要方法脱颖而出，主如果由于两个枢纽成分。发轫，量化提供了一种绵薄的压缩大模子的方法。例如，使用Post-Training Quantization(PTQ)方法可以在几分钟内将具有70亿个参数的大模子的参数数分钟内减少到压缩步地。其次，量化具有达成内存耗费和推理速率大幅诽谤的后劲，同期只引入了很小的性能折损。对于很多推行应用，这种折损平素被以为是可以袭取的。关联词，值得小心的是，量化仍然可能会挫伤大模子的某些突发才调，例如自校准或多步推理。此外，在处理长高下文等特定场景中，量化可能导致显贵的性能下落。因此，在这些特殊情况下，需要仔细聘用合适的量化方法来缩小这种退化的风险。大量文件研究了荒芜小心力工夫在长高下文处理中的应用。例如，最近的一项代表性使命StreamingLLM仅通过复兴几个小心力汇token就可以处理400万个token。尽管如斯，这些方法不时会毁灭枢纽信息，从而导致性能下落。因此，在有用管束长高下文的同期保留基本信息的挑战仍然是将来探索的一个重要领域。至于权值修剪工夫，LLM-KICK指出，即使在相对较低的荒芜度比下，面前起初进的(SOTA)方法也会出现超越大的性能下落。因此，开发有用的权值修剪方法来保捏大模子性能仍然是一个新兴和枢纽的研究地点。

模子结构的优化平素波及使用神经结构搜索(NAS)，这平素需要大量的算计资源，这对其在压缩大模子中的推行应用组成了潜在的进攻。因此，连接研究领受自动结构优化进行大模子压缩的可行性值得进一步探索。此外，像低秩明白(LRF)这么的工夫在压缩比和任务性能之间达成最好平衡仍然是一个挑战。例如，ASVD在不影响大模子推理才调的情况下，只可达成限制的10%到20%的压缩比。

除了领受单独的模子压缩工夫外，一些研究还探索了不同方法的组合来压缩大模子，应用各自的上风来提高服从。例如，MPOE将权重矩阵明白特意应用于基于MoE的大模子中的大家前馈收集(FFNs)，目的是进一步诽谤内存需求。LLM-MQ应用权值荒芜性工夫在模子量化过程中保护权值荒谬值，从而最大限定地减极少化误差。LPLR侧重于量化低秩明白权重矩阵，以进一步诽谤大模子推理过程中的内存占用和内存视察资本。此外，LoSparse将低秩明白与权值剪枝相结合，应用剪枝增强低秩近似的各样性，同期应用低秩明白保留重要权值，防患枢纽信息丢失。这些方法强调了集成多种压缩工夫以更好地优化大模子的后劲。

6 系统级别优化

大模子推理的系统级优化主要波及增强模子前向传递。酌量到大模子的算计图，存在多个算子，其中小心力算子和线性算子占据了大部分的运行时候。如2.3节所述，系统级优化主要酌量大模子中小心算子息争码方法的特有特征。超越是，为了处罚大模子解码方法的具体问题，线性算子需要特殊的平铺联想，推测解码方法也被建议以提高应用率。此外，在在线奇迹的高下文中，央求平素来自多个用户。因此，除了前边接头的优化除外，在线奇迹还靠近着与异步央求引起的内存、批处理和转变连接的挑战。

6.1 推理引擎

咫尺对推理引擎的优化主要在于加速模子上前推理过程。对大模子推理中的主要算子和算计图进行了高度优化。此外，为了在不诽谤性能的前提下提高推理速率，推测解码工夫也被建议。

6.1.1 图和算计优化

运行时候分析：通过HuggingFace，作家用不同的模子和高下文长度来分析推理运行时候。图15的分析落幕标明，小心力算计和线性算计占据了运行时候的绝大部分，它们平素跨越推理捏续时候的75%。因此，大部分优化使命都悉力于于提高两个操作的性能。此外，有多个操作符占用了一小部分运行时候，这使得操作符的实行时候一鳞半瓜，增多了CPU端的内核启动资本。为了处罚这个问题，在图算计级别，面前优化的推理引擎达成了高度交融的算子。

小心力算计优化：法式的小心力算计(例如，使用Pytorch)包含矩阵Q与矩阵(K)的乘法，这导致时候和空间复杂度与输入序列长度呈现二次增长。如图15所示，小心力算计操作的时候占比跟着高下文长度的增多而增多。这意味着对内存大小和算计才调的要求很高，超越是在处理长序列时。为了处罚GPU上法式小心力算计的算计和内存支出，定制化小心力算计是必不可少的。FlashAttention将统共这个词小心力操作交融为一个单一的、内存高效的操作，以缩小内存视察支出。输入矩阵(Q， K， V)和小心力矩阵被平铺成多个块，从而排斥了完整数据加载的需要。FlashDecoding引诱在Flash Attention的基础上，旨在最大限定地提高解码的算计并行性。由于译码方法的应用，Q矩阵在decoding过程中会退化为一批向量，如果并行度仅限于batch大小维度，则很难填充算计单位。FlashDecoding通过在序列维度上引入并行算计来处罚这个问题。诚然这会给softmax算计带来一些同步支出，但它会显贵提高并行性，超越是对于小批量大小和长序列。随后的使命FlashDecoding++不雅察到，在之前的使命中，softmax内的最大值仅算作防患数据溢出的比例因子。关联词，动态最大值会导致显贵的同步支出。此外，大量实验标明，在典型的大模子(如Llama2， ChatGLM)中，跨越99.99%的softmax输入在一定范围内。因此，FlashDecoding++建议基于统计数据提前笃定比例因子。这排斥了softmax算计中的同步支出，使后续操作能够在softmax算计的同期并行实行。

线性算计优化：线性算子在大模子推理、特征投影和前馈神经收集(FFN)中施展着枢纽作用。在传统神经收聚集，线性算子可以抽象为通用矩阵-矩阵乘法(General Matrix-Matrix Multiplication， GEMM)运算。关联词，对于大模子，decoding方法的应用导致维度的明显诽谤，与传统的GEMM使命负载不同。传统GEMM的底层达成得到了高度优化，主流大模子推理框架(例如，DeepSpeed ， vLLM， OpenPPL等)主要调用cuBLAS为线性算子提供的GEMM API接口。

如果莫得针对诽谤维数的GEMM明笃定制的达成，decoding过程中的线性算计将会服从低下。在最新版块的TensorRT-LLM中可以不雅察到处罚该问题的issue。它引入了专用的通用矩阵向量乘法(General Matrix-Vector Multiplication， GEMV)达成，潜在地提高了decoding要领的服从。最近的研究FlashDecoding++作念了进一步的改动，在解码要领中处理小批量数据时，处罚了cuBLAS和CUTLASS库的低服从问题。该研究的作家发轫引入了FlatGEMM操作的主意，以高度诽谤的维度(FlashDecoding++中的维数< 8)来线路GEMM的使命负载。由于FlatGEMM具有新的算计秉性，传统GEMM的平铺战术需要进行修改。作家不雅察到，跟着使命负载的变化，存在两个问题：低并行性和内存视察瓶颈。

为了处罚这些问题，FlashDecoding++领受了细粒度平铺战术来提高并行性，并应用双缓冲工夫来荫藏内存视察延长。此外，面前经典大模子(例如，Llama2， ChatGLM)中的线性操作平素具有固定的风景，FlashDecoding++引诱了启发式聘用机制。这个机制字据输入大小在不同的线性运算符之间进步履态地聘用转机。这些选项包括FastGEMV、FlatGEMM和由cuBLAS库提供的GEMM。这种方法确保为给定的线性使命负载聘用最有用的算计操作，从而可能导致更好的端到端性能。

连年来，应用MoE FFN来增强模子才调已成为大模子研究的一种趋势。这种模子结构也对算子优化建议了新的要求。如图15所示，在具有MoE FFN的Mixtral模子中，由于HuggingFace达成中未优化FFN算计，线性算子在运行时占主导地位。此外，Mixtral领受了GQA小心结构，其诽谤了小心力算子的运行时候比例，进一步指出了对优化FFN层伏击需要。MegaBlocks是第一个针对MoE FFN层优化算计的算法。该使命将MoE FFN算计制定为块荒芜操作，并建议了用于加速的定制GPU内核。MegaBlocks专注于MoE模子的有用教师，因此忽略了推理的特征(例如，解码方法)。现存框架正在奋勉优化MoE FFN推理阶段的算计。vLLM的官方在Triton中集成了MoE FFN的交融内核，无缝地排斥了索引支出。

图片

图14：大模子推理引擎优化分类

图片

图15：多个大模子的推理运行时候分析

图级别的优化：核交融算作一种流行的图级优化脱颖而出，因为它能够减少运行时候。应用核交融有三个主要优点：(1)减少内存视察。交融内核从骨子上排斥了中间落幕的内存视察，缩小了算计操作的内存瓶颈。(2)缩小内核启动支出。对于一些轻量级操作(如残差add)，内核启动时候占据了大部分延长，内核交融减少了单个内核的启动。(3)增强并行性。对于那些没少见据依赖的运算符，当单个内核实行无法填充硬件容量时，通过交融达成内核并行是成心的。

核交融工夫被证明对大模子推理是有用的，具有上述统共优点。FlashAttention将小心力运算符表述成一个单一的内核，排斥了视察小心力落幕的支出。基于小心力算子是内存有限的这一事实，内存视察的减少能有用地升沉为运行时加速。ByteTransformer和DeepSpeed建议将包括残差加法、层模和激活函数在内的轻量级算子交融到前列性算子中，以减少内核启动支出。

和DeepSpeed[236]建议将包括残差add、layernorm和激活函数在内的轻量级算子交融到前边的线性算子中，以减少内核启动支出。因此，这些轻量级操作符在时候轴上湮灭，简直莫得罕见的延长。此外，还领受核交融来提广阔模子推理的应用率。Q、K和V矩阵的投影变换正本是三个单独的线性运算，并交融成一个线性运算符部署在当代GPU上。咫尺，核交融工夫照旧应用于大模子推理实践中，高度优化的推理引擎在运行时只使用少数交融核。例如，在FlashDecoding++达成中，一个transformer块仅集成了七个交融的内核。应用上述运算符和内核交融优化，FlashDecoding++达成了在HuggingFace高达4.86倍的加速。

6.1.2 推测解码

推测解码（如投契采样）是一种用于自总结大模子的立异解码工夫，旨在提高解码服从，同期不影响输出的质地。这种方法的中枢念念想包括使用一个较小的模子(称为草稿模子)来有用地预计几个后续token，然后使用主义大模子并行考证这些预计。该方法旨在使大模子能够在单个推理平素所需的时候范围内生成多个token。图16夸耀了传统自总结解码方法与推测解码方法的比较。表面上，推测解码方法包括两个要领：

1)草稿构建：领受草稿模子，以并行或自总结的方式生成多个后续token，即Draft token。 2)草案考证：应用主义模子在单个大模子推理要领入网算统共草稿token的条款概率，随后治安笃定每个草稿token的袭取程度。袭取率线路每个推理要领袭取的草稿token的平均数目，是评估推测解码算法性能的枢纽方针。

图片

图16：自总结解码（a）和推测解码（b）对比

推测解码确保了输出与自总结解码方法的质地平等。传统解码工夫主要使用两个采样方法：greedy sampling和 nucleus sampling。greedy sampling波及在每个解码要领中聘用概率最高的令牌来生成特定的输出序列。推测解码的发轫使命，被称为Blockwise Parallel Decoding，旨在确保草草稿token与通过greedy sampling的token达成精准匹配，从而保捏输出令牌等价。比拟之下，nucleus sampling波及从概率散播中抽样token，每次运行都会产生不同的token序列。这种各样性使得nucleus sampling很受迎接。为了在推测解码框架内容纳nucleus sampling，照旧建议了投契采样工夫。投契采样保捏输出散播不变，与nucleus sampling的概松懈质一致，以产生不同的秀丽序列。步地上，给定一个token序列和一个草稿token序列，投契采样战术以以下概率袭取第i个草稿token：

香蕉视频污在线观看无限次数

其中庸分别代表来自主义大模子和草稿模子的概率散播。如果第个token被袭取，它设定为。另外，它退出草稿token的考证，并从底下的散播中进行的重采样：

基于投契采样，出现了几种变体，旨在考证多个草稿token序列。值得小心的是，在这种情况下，token tree verfier已成为一种庸碌领受的考证战术。这种方法应用草稿token集的树状结构线路，并领受树小心力机制来有用地实行考证过程。

在推测解码方法中，草稿token的袭取率受到草稿模子的输出散播与原始大模子的输出散播的一致程度的显贵影响。因此，大量的研究使命都是为了改动草稿模子。DistillSpec顺利从主义大模子中索求较小的草稿模子。SSD包括从主义大模子中自动识别子模子(模子层的子集)算作草稿模子，从而排斥了对草稿模子进行单独教师的需要。OSD动态接济草稿模子的输出散播，以匹配在线大模子奇迹中的用户查询散播。它通过监视来推进模子的被拒却的草稿token，并使用该数据通过蒸馏来改动草稿模子来达成这一丝。PaSS建议应用主义大模子自己算作草稿模子，将可教师的token(look -ahead token)算作输入序列，以同期生成后续token。REST引入了一种基于检索的推测解码方法，领受非参数检索数据存储算作草稿模子。SpecInfer引入了一种集体提高调优工夫来对王人一组草稿模子的输出散播通过主义大模子。Lookahead decoding 包含大模子生成并行的生成n-grams来生成草稿token。Medusa对大模子的几个头进行微调，特意用于生成后续的草稿token。Eagle领受一种称为自总结头的轻量级Transformer层，以自总结的方式生成草稿token，将主义大模子的丰富高下文特搜集成到草稿模子的输入中。

另一项研究侧重于联想更有用的草稿构建战术。传统的方法平素产生单一的草稿token序列，这对通过考证建议了挑战。对此，Spectr主张生成多个草稿token序列，并领受k-sequential草稿聘用工夫并发考证k个序列。该方法应用推测抽样，确保输出散播的一致性。访佛地，SpecInfer领受了访佛的方法。关联词，与Spectr不同的是，SpecInfer将草稿token序列合并到一个“token tree”中，并引入了一个用于考证的树形小心力机制。这种战术被称为“token tree verifier”。由于其有用性，token tree verifier在稠密推测解码算法中被庸碌领受。除了这些奋勉除外，Stage Speculative Decoding和Cascade Speculative Drafting(CS Drafting)建议通过将投契解码顺利集成到token生成过程中来加速草稿构建。

对比实验与分析：论文作家通过实验来评估推测解码方法的加速性能。具体来说，作家对该领域的研究进行了全面的纪念，并聘用了其中6个照旧开源的代码进行研究，分别是：Speculative Decoding (SpD)、Lookahead Decoding (LADE)、REST、Self-speculative Decoding (SSD)、Medusa和Eagle。对于评估数据集，使用Vicuna-80对上述方法进行评估，该数据集包含80个问题，分为10类。这80个问题的平均落幕算作输出。对于主义大模子，作家领受了五个主流的开源大模子，分别是Vicuna-7B-V1.3、Vicuna-13B-V1.3、Vicuna-33B-V1.3、LLaMA-2-7B和LLaMA-2-13B。作家展示了这5个大模子的评估方针范围。对于草稿模子，作家对SpD领受了两个个教师好的草稿模子，即LLaMA-68M和LLaMA-160M。对于其他推测解码方法，作家受命它们建议的草稿构建方法和使用他们提供的权重。在评价方针方面，作家使用袭取率和加速率，袭取率是指袭取token数与生成步数之比，加速比是指在笃定输出总长度时，原始自总结解码的延长与推测解码的延长之比。

表5提供了各样推测解码方法的比较，杰出了几个枢纽不雅察落幕：(1) Eagle阐发出优异的性能，在多个大模子上达成了3.47~3.72倍的端到端加速。为了雄厚它的顺利，作家对Eagle的深入分析揭示了两个枢纽成分。发轫，Eagle领受自总结方法来解码草稿token，顺利应用先前生成的token的信息。其次，Eagle集成了原始大模子和草案模子的先前token的丰富特征，以提高下一个草稿token生成的准确性。(2) token tree verifier被证明在提高投契采样方法的性能中是有用的。(3)这些方法达成的端到端加速不时低于袭取率。这种各别是由于与草稿模子连接的生成资本不可淡薄的推行酌量而产生的。

图片

表5：实验落幕6.2 推理奇迹系统

推理奇迹系统的优化主要在于提高处理异步央求的服从。优化了内存管束以容纳更多的央求，并集成了高效的批处理和转变战术以提高系统模糊量。此外，建议了针对散播式系统的优化方法，以充分应用散播式算计资源。

图片

图17：推理奇迹系统分类图6.2.1内存管束

在大模子奇迹中，KV缓存的存储决定了内存的使用，超越是当高下文长度很万古(参见第2.3节)。由于生成长度不笃定，提前分拨KV cache存储空间很难。早期的达成平素字据每个央求的预设最大长度事先分拨存储空间。然而，在断绝央求生成的时，这种方法会导致存储资源的大量浪费。为了处罚这个问题，为了减少预分拨空间的浪费，建议了为每个央求预计生成长度的上界。

然而，当不存在如斯大的一语气空间时，静态的KV缓存分拨方式仍然是失败的。为了吩咐碎屑化存储，vLLM建议以操作系统的式样，以分页的方式存储KV缓存。vLLM发轫分拨尽可能大的内存空间，并将其平均分歧为多个物理块。当央求驾临时，vLLM以不一语气的方式动态地将生成的KV缓存映射到预分拨的物理块。通过这种方式，vLLM显贵减少了存储碎屑，并在大模子奇迹中达成了更高的模糊量。在vLLM的基础上，LightLLM使用了更细粒度的KV缓存存储，减少了不规则鸿沟产生的浪费。LightLLM将token的KV缓存算作一个单位来处理，而不是一个块，因此生成的KV缓存老是使预分拨的空间饱和。

面前优化的推理奇迹系统平素领受这种分页方式来管束KV缓存存储，从而减少冗余KV缓存的浪费。关联词，分页存储导致小心力操作中的内存视察不规则。对于使用分页KV缓存的小心力算子，这就需要酌量KV缓存的造谣地址空间与其对应的物理地址空间之间的映射关系。为了提高小心力算子的算计服从，必须对KV缓存的加载模式进行接济，以绵薄一语气存储器视察。例如，在vLLM的PagedAttention中，对于K cache，head大小维度的存储结构为16字节的一语气向量，而FlashInfer为KV缓存编排了各样数据布局，并伴跟着合适联想的内存视察有谋划。小心力算子的优化与页面KV缓存存储的结合仍然是推理奇迹系统发展中的一个前沿挑战。

6.2.2 一语气批处理

批处理中的央求长度可能不同，当较短的央求完成而较长的央求仍在运行时，会导致应用率较低。由于奇迹场景中的央求具有异步秉性，因此缓解这种低应用率的时候段是有可能的。基于此，一语气批处理工夫被建议，以便在一些旧央求完成后对新央求进行批处理。ORCA是在大模子奇迹端第一个这么作念的使命。

每个央求的算计包含多个迭代，每个迭代线路预填充要领或解码要领。作家建议可以在迭代级别对不同的央求进行批处理。此使命在线性操作符中达成迭代级批处理，在序列维度中将不同的央求相接在沿途。因此，与完成的央求相对应的备用存储和算计资源被实时开释。继ORCA之后，vLLM将该工夫扩展到小心力算计，使不同KV缓存长度的央求能够批处理在沿途。Sarathi、DeepSpeed-FastGen和SarathiServe进一步引入了一种split-and-fuse方法，将预填充请乞降解码央求批处理在沿途。具体来说，此方法发轫在序列维度上拆分长预填充央求，然后将其与多个短解码央求批处理在沿途。该方法平衡了不同迭代之间的使命负载，并通过排斥新央求的延长显贵减少了尾部延长。LightLLM也领受了split-and-fuse方法。

6.2.3 Scheduling工夫

在大模子奇迹中，每个央求的功课长度具有可变性，因此实行央求的措施会显贵影响奇迹系统的模糊量。head-of-line blocking发生在长央求被赋予优先级时。具体来说，对于长央求，内存使用会赶紧增长，当系统内存容量耗尽时，会导致后续央求受阻。ORCA和开源框架，包括vLLM和LightLLM，领受概略的先到先奇迹(FCFS)原则来转变央求。DeepSpeed-FastGen则优先酌量解码央求以提高性能。FastServe建议了一种霸占式转变战术来优化列队梗阻问题，达成大模子奇迹的低功课完成时候(JCT)。FastServe领受多级反馈部队(MLFQ)来优先处理剩余时候最短的央求。由于自动总结解码方法会产生未知的央求长度，FastServe发轫预计长度，并应用跳过相接方式为每个央求找到合适的优先级。与以往的使命不同，VTC接头了大模子推理奇迹中的公正性。VTC引入了一个基于token数的资本函数来揣测客户端之间的公正性，并进一步建议了一个公正转变模范来确保公正性。

6.2.4 散播式系统

为了达成高模糊量，大模子奇迹平素部署在散播式平台上。最近的使命还侧重于通过应用散播式特征来优化此类推理奇迹的性能。值得小心的是，预填充是算计密集型的，解码是内存密集型的，splitwise， TetriInfer和DistServe证明了明白央求的预填充息争码要领的服从。这么，两个不同的阶段就可以字据各自的秉性进行独处的处理。SpotServe联想用于在具有可霸占GPU实例的云上提供大模子奇迹。SpotServe有用地处理包括动态并行摆布和实例挪动在内的挑战，何况还应用大模子的自总结秉性来达成token级别的景色复兴。此外，Infinite-LLM将vLLM中的分页KV缓存方法扩展到散播式云环境。

6.3 硬件加速器联想

昔日的研究使命聚集在优化Transformer架构，超越是优化小心力算子，平素领受荒芜方法来促进FPGA部署。与NVIDIA V100 GPU比拟，FACT加速器通过线性运算的羼杂精度量化和算法-硬件协同联想达成了超卓的能效，而且这些方法不是为生成式大模子量身定制的。

近期的使命，如ALLO杰出了FPGA在管束内存密集型解码阶段方面的上风。强调了模子压缩工夫对大模子高效FPGA部署的重要性。相背，DFX侧重于解码阶段优化，但穷乏模子压缩方法，扬弃了可扩展性在更大的模子和更长的输入(最多1.5B模子和256个token)。ALLO引诱在这些视力的基础上，进一步提供了一个可组合和可重用的高级合成(High-level Synthesis， HLS)内核库。与DFX比拟，ALLO的达成在预填充阶段展示了超卓的生成加速，在解码时间达成了比NVIDIA A100 GPU更高的能效和加速。

FlightLLM也应用了这些视力，引入了一个可建立的荒芜数字信号处理器(DSP)链，用于各样具有高算计服从的荒芜模式。为了提高存储带宽应用率，建议了一种支捏羼杂精度的片上译码有谋划。FlightLLM在Llama2-7B型号上达成了比NVIDIA V100S GPU高6.0倍的能效和1.8倍的资本效益，解码时的模糊量比NVIDIA A100 GPU高1.2倍。

6.4 大模子推理框架对比

作家对比了多个推理框架的性能，如表6所示。使用Llama2-7B(batch size=1，输入长度=1k，输出长度=128)测量推理模糊量。推理奇迹性能是在ShareGPT数据集上测量的最大模糊量。两者都基于单个NVIDIA A100 80GB GPU。在上述框架中，DeepSpeed、vLLM、LightLLM和TensorRT-LLM集成了推理奇迹功能，为来自多个用户的异步央求提供奇迹。作家还在表格中列出了每个框架的优化。作家还在表中列出了针对每个框架的优化。除了HuggingFace外，统共框架都达成了operator级别或图优化级别的优化以提高性能，其中一些框架还支捏推测解码工夫。请小心，作家测量统共框架的推感性能时，莫得使用推测解码工夫。推理模糊量的落幕标明，FlashDecoding++和TensorRT-LLM在逃匿主要算子和算计图的优化方面优于其他算法。在推理奇迹方面，各框架均领受细粒度、不一语气存储方式进行KV缓存，并领受一语气批处理工夫提高系统应用率。与vLLM和LightLLM不同，DeepSpeed在转变中优先酌量解码央求，这意味着如果批处理中有敷裕的现存解码央求，则不会合并新央求。

图片

表6：开源推理框架性能对比6.5 意识，建议和将来地点

系统级优化在不诽谤精度的同期提高了服从，因此在大模子推理实践中越来越广漠。对推理的优化也适用于奇迹。最近，operator优化照旧与推行奇迹场景详细结合，例如，特意为前缀缓存联想的RadixAttention和加速推测解码考证的tree attention。应用和场景的迭代将束缚对operator的发展建议新的要求。

酌量到推行推理奇迹系统中固有的多方面主义，例如JCT、系统模糊量和公正性，转变战术的联想相应地变得复杂。在央求长度不笃定的大模子奇迹领域，现存文件平素依赖于预计机制来促进转变战术的联想。关联词，咫尺的预计器的有用性够不上瞎想的法式，这标明在奇迹转变战术开发中存在改动和优化的后劲。

7 枢纽应用场景接头

咫尺的研究在探索跨各样优化级别的高效大模子推理的鸿沟方面取得了紧要进展。关联词，需要进一步的研究来提广阔模子在推行场景中的服从。作家为数据级(第4.3节)、模子级(第5.3节)和系统级(第6.5节)的优化工夫分析了有但愿的将来地点。在本节中，作家总结了四个枢纽场景：Agent and Multi-Model Framework、Long-Context LLMs、Edge Scenario Deployment和安Security-Efficiency Synergy，并对它们进行了更庸碌的接头。

Agent and Multi-Model Framework：如4.3章所接头，Agent 和Multi-Model框架的最近使命，通过应用大模子的刚劲才调，显贵提高了Agent处理复杂任务和东谈主类央求的才调。这些框架在增多大模子算计需求的同期，在大模子输出内容的结构中引入了更多的并行性，从而为数据级和系统级优化(如输出组织工夫)创造了契机。此外，这些框架当然地引入了一个新的优化级别，即pipeline级别，它具有在该级别上提高服从的后劲。

此外，越来越多的研究趋势侧重于将AI智能体扩展到多模态领域，平素使用多模态大模子(Large multimodal Models， LMM)算作这些Agent系统的中枢。为了提高这些新兴的基于LMM的智能体的服从，为LMM联想优化工夫是一个很有出路的研究地点。

Long-Context LLMs：咫尺，大模子靠近着处理越来越长的输入高下文的挑战。关联词，自小心力操作(Transformer-style大模子的基本组成部分)阐发出与高下文长度连接的二次复杂度，对最大高下文长度施加了扬弃在教师和推理阶段。各样战术照旧被探索了来处罚这一扬弃，包括输入压缩(第4.1节)、荒芜小心力(第5.2.2节)、低复杂度结构的联想(第5.1.3节)和小心算子的优化(第6.1.1节)。值得小心的是，具有次二次或线性复杂性的非transformer架构(第5.1.3节)最近引起了研究东谈主员的极大兴趣兴趣。

尽管它们服从很高，但与Transformer架构比拟，这些新架构在各样才调(如高下体裁习才和洽费力建模才调)上的竞争力仍有待检修。因此，从多个角度探索这些新架构的功能并处罚它们的局限性仍然是一个有价值的追求。此外，为各样场景和任务笃定必要的高下文长度，以及笃定将算作将来大模子基础支捏的下一代架构，这一丝至关重要。

Edge Scenario Deployment：尽管提广阔模子推理的服从照旧有了很多使命，但将大模子部署到资源极其有限的边际引诱(如挪动电话)上仍然存在挑战。最近，很多研究东谈主员对具有1B ~ 3B参数的较小讲话模子的预教师阐发出了兴趣兴趣。这种范围的模子在推理过程中提供了更少的资源资本，何况与更大的模子比拟，具有达成泛化才和洽竞争性能的后劲。关联词，开发如斯高效和刚劲的袖珍讲话模子的方法仍然莫得得到充分的探索。

一些研究照旧开启了这个有但愿的地点。例如，MiniCPM通过沙盒实验来笃定最优的预教师超参数。PanGu-π-Pro建议使用来自模子修剪的矩阵和工夫来驱动化预教师打磨谢谢的模子权重。MobileLLM在袖珍模子联想中领受了“深而薄”的架构，并建议了跨不同层的权重分享，在不增多罕见内存资本的情况下增多层数。关联词，小模子和大模子之间仍存在性能差距，需要将来的研究来缩小这一差距。将来，伏击需要研究若何识别边际场景下的模子法式，并探索各样优化方法在联想上的鸿沟。

除了联想较小的模子除外，系统级优化为大模子部署提供了一个有出路的地点。最近一个值得小心的式样，MLC-LLM顺利地在挪动电话上部署了LLaMA-7B模子。MLC-LLM主要使用交融、内存谋划和轮回优化等编译工夫来增强延长并诽谤推理时间的内存资本。此外，领受云边际协调工夫或联想更复杂的硬件加速器也可以匡助将大模子部署到边际引诱上。

Security-Efficiency Synergy：除了任务性能和服从外，安全性亦然大模子应用中必须酌量的枢纽成分。咫尺的研究主要聚集在服从优化方面，莫得充分处罚安全酌量的操作。因此，研究服从和安全性之间的互相作用，并笃定面前的优化工夫是否会挫伤大模子的安全性是至关重要的。如果这些工夫对大模子的安全性产生负面影响，一个有但愿的地点是开发新的优化方法或改动现存的方法，以达成大模子的服从和安全性之间更好的衡量。

8 总结

高效的大模子推理侧重于减少大模子推理过程中的算计、内存视察和内存资本，旨在优化诸如延长、模糊量、存储、功率和动力等服从方针。作家在本综述中提供了高效大模子推理研究的全面纪念，建议了枢纽工夫的视力，建议和将来地点。发轫，作家引入了包含数据级、模子级和系统级优化的分层分类法。随后，在这一分类方法的携带下，作家总结每个档次和子领域的研究。对于模子量化和高效奇迹系统等训练的工夫，作家进行了实验来评估和分析它们的性能。在此基础上，建议了实践建议。为该领域的从业者和研究东谈主员建议建议并笃定有出路的研究门路。

备注：昵称-学校/公司-地点/会议(eg.ACL)，插足工夫/投稿群

id：DLNLPer第四色vvvv88，铭刻备注呦

本站仅提供存储奇迹，统共内容均由用户发布，如发现存害或侵权内容，请点击举报。

上一篇：第四色vvvv88 张景岳特殊擅长使用的熟地，补肾精若何就这样好？ |张景岳语音笔墨温习
下一篇：第四色vvvv88 交游真相，系统中枢三因素

香港三级片！

栏目分类