Cheng Luo - Research

Open Attention Residuals: Replacing Additive Residuals with Learned Cross-Layer Attention

Blog Code

Fine-tuning Large Language Models with Mini-Sequence Technology and Distributed Training

Blog

Extending LLAMA Training Context with Mini-Sequence Technology

Blog

Extending Mistral Training Context with Mini-Sequence Technology

Blog

Extending Qwen Training Context with Mini-Sequence Technology

Blog

Extending gemma2 Training with Mini-Sequence Technology

Blog

Revolutionizing LLM Training with Mini-Sequence Technology

Blog

BLOGS