还记得之前那个提出了新的液体基础模型(LFM,Liquid Foundation Model)的 Liquid AI 吗?在被 AMD 投资数月后,这家来自美国麻省理工学院的初创公司又带来新成果了。
4 月 25 日 ,Liquid AI 正式发布了面向边缘设备的全新 AI 架构“Hyena Edge” 。与目前主流的基于 Transformer 的模型架构不同,Hyena Edge 是一种基于卷积的多混合模型,专为智能手机等边缘设备优化设计。
“人工智能正迅速变得无处不在 ,从大规模云端部署到智能手机和笔记本电脑等资源受限的边缘设备。 ”Liquid AI 科学团队成员 Armin Thomas、Stefano Massaroli 和 Michael Poli 在研究报告中表示,“尽管有令人印象深刻的进步,大多数为边缘部署优化的小型模型 ,如 SmolLM2 、Phi 模型和 Llama 3.2 1B,主要依赖于基于注意力运算符的 Transformer 架构 。”
这些传统架构虽然具有可并行计算和高效内核的特点,但在边缘设备上仍面临效率瓶颈。而 Hyena Edge 作为一种 Liquid 架构 ,天生就在计算效率上具有优势,非常适用于边缘部署。据 Liquid AI 宣称,Hyena Edge 在真实硬件测试中 ,于计算效率和模型质量两方面均展现出超越 Transformer 基线的性能 。
他们在三星 Galaxy S24 Ultra 上对 Hyena Edge 进行了测试,结果显示该模型在多个关键指标上均超越强大的基于 Transformer 的基准模型。
在效率方面,Hyena Edge 展示了更快的预填充(prefill)和解码延迟。特别是对于超过 256 个标记的序列,解码和预填充延迟最高可提高 30% 。值得注意的是 ,其在短序列长度下的预填充延迟也优于 Transformer 基线,这一点对响应式设备应用至关重要。在内存使用方面,Hyena Edge 在所有测试序列长度下均使用更少的内存。
(来源:Liquid AI)
在模型质量方面,Hyena Edge 在经过 1000 亿 tokens 的训练后 ,在包括 Wikitext、Lambada、Hellaswag 、Winogrande、Piqa、Arc-easy 和 Arc-challenge 在内的各种常见语言建模基准测试中表现出色 。例如,在 Wikitext 上的困惑度(perplexity)从 17.3 降至 16.2,在 Lambada 上从 10.8 降至 9.4 ,在 PiQA 上的准确率从 71.1% 提升至 72.3%,在 Hellaswag 上从 49.3% 提升至 52.8%,在 Winogrande 上从 51.4% 提升至 54.8%。
“这些结果表明 ,模型的效率提升并不以预测质量为代价——这是许多边缘优化架构常见的取舍。”研究团队表示。
而 Hyena Edge 的核心技术,正在于团队此前提出的 STAR(Synthesis of Tailored Architectures)框架及其优化技术 。STAR 框架的核心思想是利用进化算法(Evolutionary Algorithms)和线性输入变化系统(LIVs,Linear Input-Varying Systems)的数学理论,来高效地探索广阔的神经网络架构空间 ,并自动合成出针对特定目标(如低延迟 、小内存占用、高模型质量、小参数量等,可多目标同时优化)的“量身定制 ”的架构。
图丨 STAR 框架说明(来源:Liquid AI)
与传统的依赖人工经验和直觉进行模型设计,或在有限空间内进行自动化搜索的方法不同,STAR 提供了一个更全面的解决方案。LIV 理论是一个关键的理论基础 ,它能够统一地描述和泛化深度学习中常见的多种计算单元,包括各种注意力变体 、线性循环网络、卷积网络以及其他结构化算子 。STAR 基于 LIV 理论,构建了一个新颖的、分层的架构搜索空间。
在这个框架下 ,模型架构被编码成一种“基因组(Genome)”。这种基因组包含了架构的多个层级信息,从底层的特征化(Featurization)方式 、算子结构(Operator Structure,定义了 Token 和 Channel 的混合方式) ,到顶层的骨干网络(Backbone,定义了 LIV 单元之间的连接和组合方式) 。STAR 的基因组设计具有良好的层次化和模块化特性。
随后,STAR 运用进化算法的原理,对这些架构基因组进行迭代优化。主要包括评估(根据预设目标衡量架构性能)、重组(组合优秀父代架构的特征)和变异(引入随机变化以探索新架构)等步骤 。该框架支持多目标优化 ,能够同时考虑模型质量、参数量、推理缓存大小 、延迟等多个可能相互冲突的指标,以寻找在这些目标间达到较好平衡的架构方案。
根据其技术文档,STAR 在优化大型语言模型架构时 ,无论是在纯质量优化、质量与参数量联合优化,还是质量与推理缓存大小联合优化方面,其生成的架构均能在各项指标上显著优于高度优化的 Transformer++ 和 StripedMamba 等基准模型。例如 ,在优化质量和参数量时,7/8 的 STAR 进化架构在下游任务基准上超越了 Transformer++ 和混合模型,同时参数量减少高达 13% 。在优化质量和缓存大小时 ,7/8 的 STAR 进化架构实现了比混合模型小 37%、比 Transformer 小 90% 的缓存,同时质量相当甚至更好。
在 Hyena Edge 的设计中,Liquid AI 团队就应用了 STAR 框架。他们从一个包含 16 个候选架构的初始种群开始 ,进行了 24 代的进化迭代。其搜索空间设计得非常丰富,包含了多种卷积算子的变体,这些变体主要受到 Hyena 架构的启发:
- Hyena(Full):在门控机制(Gating Mechanism)和 Hyena 内部卷积中都包含卷积操作 。
- Hyena-X:排除了内部卷积。
- Hyena-Y:排除了特征组(门)中的卷积。
除了这三种主要的 Hyena 类型,搜索空间还考虑了它们学习到的短距离 、显式卷积核的长度变化(从 3 到 128) ,总共构成了 18 种不同的卷积算子 。此外,搜索空间还包括了分组查询注意力的变体(具有不同的 KV 头数量)和 SwiGLU(具有不同的内部宽度)等常见的 Transformer 组件。
在进化过程中,STAR 框架通过对每个候选架构在三星 S24 Ultra 上的初始延迟和内存占用进行性能分析 ,并结合模型在训练过程中的困惑度表现,不断地将架构种群向着效率-质量前沿(Efficiency-Quality Frontier)进行优化。
有意思的是,随着进化过程的推进 ,当架构接近效率-质量最优边界时,STAR 明显地偏爱选用 Hyena-Y 类型的卷积 。这表明 Hyena-Y 卷积在延迟、内存和模型质量之间取得了更优越的平衡。
基于这一发现,最终的 Hyena Edge 架构在一个 GQA-Transformer++ 基准模型的基础上 ,将部分 GQA 算子替换为由 STAR 优化选出的 Hyena-Y 门控卷积。
而最终结果如基准测试所表明的,Hyena Edge 在提升效率的同时,保持了较高的模型质量 ,这对于性能和资源都受限的边缘设备应用而言是一个重要的特性 。
Liquid AI 已表示计划在未来数月内开源包括 Hyena Edge 在内的一系列基础模型,其目标是构建能够适应从云端到边缘多种环境的 AI 系统。除了模型本身,其所展现出的设计方法,或许更值得我们的期待。
参考资料:
1.https://www.liquid.ai/research/convolutional-multi-hybrids-for-edge-devices
2.https://arxiv.org/abs/2411.17800
3.https://venturebeat.com/ai/liquid-ai-is-revolutionizing-llms-to-work-on-edge-devices-like-smartphones-with-new-hyena-edge-model/
运营/排版:何晨龙
内容来自网络收集 ,如有侵权请联系删除