Skip to content

是否可以接受引入torch.distributed以外的集合通信库? #71

@hanhan-networking

Description

@hanhan-networking

最近在将ckpt engine引入到其他系统中,遇到一个通信组的问题:两组资源相对隔离,都有一个由torch.distributed创建的global 通信域,现在引入ckpt engine后,无法从ckpt engine视角看到包括两组资源的global 通信组。我们准备为ckpt engine提供一个pr,引入vllm/sglang(两者都有,到时候以安装的依赖导入)中的支持statelessProcessGroup集合通信库,基于此构建global通信域,不知社区是否会接受?或者有没有其他建议?感谢。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions