Xue J. Zhao Blog

Mar

Mathematics of Diffusion Models

discrete diffusion

Training Infrastructure

Multimodal-Pretraining

multimodal foundation model

Insights on Rotation Based Position Embedding

context extension

Asynchronous RL

memory efficiency

6D Parallelism for Distributed Training

distributed training

Feb

LLM Inference Optimizations

Engram and LLM Memory

emerging architecture

scaling law for memory

Programming Blackwell GPU

Backward Pass Through LLM

Jan

Low Precision LLM Pre-training with NVFP4

mixed-precision

Time Reversal SDE in Diffusion Models

diffusion model

The Fokker Planck Equation

diffusion model

Optimal Transportation and Diffusion Models

diffusion model

Primal Dual Langevin Monte Carlo Algorithm

Xue J. Zhao © 2026