近日,科技媒体marktechpost报道,Meta AI发布创新技术Token-Shuffle,旨在解决自回归(AR)模型在高分辨率图像生成中的扩展难题。AR模型虽在语言生成领域表现优异,但在处理高分辨率图像时因计算成本激增而受限。相比之下,扩散模型虽擅长高分辨率任务,但采样复杂且推理速度较慢。
Token-Shuffle通过合并空间相邻的视觉token并沿通道维度压缩,显著降低计算量,同时保持高质量输出。该方法无需修改Transformer架构或额外预训练编码器,操作简便且兼容性强。实验结果显示,基于2.7B参数LLaMA模型的Token-Shuffle,在GenAI-Bench和GenEval测试中表现突出,特别是在文本对齐和图像质量方面超越同类模型。这一技术为AR模型在高分辨率图像生成领域的应用开辟了新路径。