Publications

DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving.

Yinmin Zhong, Shengyu Liu, Junda Chen, Jianbo Hu, Yibo Zhu, Xuanzhe Liu, Xin Jin, Hao Zhang

In OSDI 2024. PDF Cite Code

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs.

Ziheng Jiang, Haibin Lin, Yinmin Zhong, Qi Huang, Yangrui Chen, Zhi Zhang, Yanghua Peng, Xiang Li, Cong Xie, Shibiao Nong, Yulu Jia, Sun He, Hongmin Chen, Zhihao Bai, Qi Hou, Shipeng Yan, Ding Zhou, Yiyao Sheng, Zhuo Jiang, Haohan Xu, Haoran Wei, Zhang Zhang, Pengfei Nie, Leqi Zou, Sida Zhao, Liang Xiang, Zherui Liu, Zhe Li, Xiaoying Jia, Jianxi Ye, Xin Jin, Xin Liu

In NSDI 2024. PDF Cite Code Slides Video

DistMind: Efficient Resource Disaggregation for Deep Learning Workloads.

Xin Jin, Zhihao Bai, Zhen Zhang, Yibo Zhu, Yinmin Zhong, Xuanzhe Liu

In TON 2024. PDF Cite

AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving.