Unified Normalization for Accelerating and Stabilizing Transformers

Yang, Qiming
Zhang, Kai
Lan, Chaoxiang
Yang, Zhi
Li, Zheyang
Tan, Wenming
Xiao, Jun
Pu, Shiliang

Open PDF

Open link

Publication date

August 2022

DOI

10.1145/3503161.3547860

Publisher

Association for Computing Machinery (ACM)

Language

English

Abstract

Solid results from Transformers have made them prevailing architectures in various natural language and vision tasks. As a default component in Transformers, Layer Normalization (LN) normalizes activations within each token to boost the robustness. However, LN requires on-the-fly statistics calculation in inference as well as division and square root operations, leading to inefficiency on hardware. What is more, replacing LN with other hardware-efficient normalization schemes (e.g., Batch Normalization) results in inferior performance, even collapse in training. We find that this dilemma is caused by abnormal behaviors of activation statistics, including large fluctuations over iterations and extreme outliers across layers. To tackle these ...

Extracted data

We use cookies to provide a better user experience.

Data Protection

Unified Normalization for Accelerating and Stabilizing Transformers

Abstract

Extracted data

Unified Normalization for Accelerating and Stabilizing Transformers

Abstract

Extracted data

Related items

Related items