Few-to-Many: Incremental Parallelism for Reducing Tail Latency in Interactive Services ⇤

Md E. Haque
Yong Eom
Yuxiong He
Sameh Elnikety
Ricardo Bianchini
Kathryn S. Mckinley

Publication date

December 2015

Abstract

Interactive services, such as Web search, recommendations, games, and finance, must respond quickly to satisfy cus-tomers. Achieving this goal requires optimizing tail (e.g., 99th+ percentile) latency. Although every server is multi-core, parallelizing individual requests to reduce tail latency is challenging because (1) service demand is unknown when requests arrive; (2) blindly parallelizing all requests quickly oversubscribes hardware resources; and (3) parallelizing the numerous short requests will not improve tail latency. This paper introduces Few-to-Many (FM) incremental parallelization, which dynamically increases parallelism to reduce tail latency. FM uses request service demand pro-files and hardware parallelism in an offline phas...

Extracted data

We use cookies to provide a better user experience.

Data Protection

Few-to-Many: Incremental Parallelism for Reducing Tail Latency in Interactive Services ⇤

Abstract

Extracted data

Few-to-Many: Incremental Parallelism for Reducing Tail Latency in Interactive Services ⇤

Abstract

Extracted data

Related items

Related items