请问 Algorithm 1 Distributed Muon 中6: G = gather(g', dp_group) 是采用的allgather吗?
请问 Algorithm 1 Distributed Muon 中6: G = gather(g', dp_group) 是采用的allgather吗?