引言
自2017年Transformer模型架构的提出以来,它凭借其强大的并行处理能力和对序列数据的处理能力,成为了人工智能领域的明星。然而,随着技术的发展和应用的深入,Transformer模型在可扩展性、计算效率以及应对复杂任务等方面也暴露出了一些挑战。本文将深入探讨Liquid AI推出的STAR(Synthesis of Tailored Architectures)框架和谷歌的Titans模型架构,这两种架构旨在超越传统的Transformer模型,引领AI领域的新潮流。
STAR框架:自动化的架构设计
1. STAR框架概述
Liquid AI的STAR框架通过进化算法和数值编码系统,旨在自动化生成和优化人工智能模型架构。STAR框架的设计方法与传统架构设计不同,它采用了分层编码技术,称为“STAR基因组”,从而探索潜在架构的广泛设计空间。
2. STAR架构的优势
- 高效性:在针对自回归语言建模的测试中,STAR显示出优于传统优化Transformer和混合模型的能力。在优化质量和缓存大小方面,STAR进化的架构相较于混合模型的缓存大小减少了高达37%,而相较于传统Transformer则达到了90%的减少。
- 可扩展性:STAR架构可扩展性强,一个从1.25亿参数扩展到10亿参数的STAR进化模型在标准基准测试中表现与现有的Transformer和混合模型相当或更好,同时显著降低了推理缓存需求。
- 模块化设计:STAR的模块化设计使得它能够在多个层次上编码和优化架构,为研究人员提供了洞察有效架构组件组合的机会。
Titans模型架构:超越Transformer的新机制
1. Titans架构概述
谷歌的Titans模型架构旨在通过整合受人类认知过程启发的机制来克服Transformer模型在可扩展性、计算效率以及应对复杂任务等方面的挑战。
2. Titans架构的创新点
- 神经长期记忆模块:Titans包含一个神经长期记忆模块,这使得该架构可以将上下文窗口拓展至远超出Transformer的200万令牌限制,从而让模型能够在更长的序列中处理和保留信息。
- 惊喜的记忆优先级:Titans聚焦于意外或新颖的数据点,这些数据点在复杂数据集中通常蕴含着最为丰富的信息。这一机制让模型能够识别关键信息并进行优先级排序,进而提升了其应对各类复杂任务的能力。
- 衰退记忆机制:过时或相关性较低的信息会逐渐被舍弃,确保Titans始终保持高效与适应性。
液态神经网络(LNN):超越Transformer的新思路
1. LNN概述
Liquid AI推出的液态神经网络(Liquid Neural Networks,LNN)是一种新型神经网络架构,旨在超越传统的Transformer模型。
2. LNN的优势
- 高效、低内存占用:LFM系列模型在多个基准测试中超越了同等规模的Transformer模型,同时展现出低内存占用的特点。
- 混合专家模型(MoE)架构:LFM-40.3B采用了混合专家模型架构,通过激活12B参数,能够以更小的模型规模实现与更大模型相媲美的性能。
结论
STAR框架和Titans模型架构以及LNN的提出,标志着AI领域在超越Transformer模型方面迈出了重要的一步。这些新架构通过引入自动化的架构设计、神经长期记忆模块和液态神经网络等创新技术,有望在可扩展性、计算效率和复杂任务处理等方面带来革命性的进步。随着这些新架构的不断发展和应用,AI领域将迎来新的突破。