Skip to content

平台支持多节点并行训练Megatron-LM或者Deepspeed吗? #8

@Lzl20092009

Description

@Lzl20092009

你好,请问现在平台支持在本地集群中运行Megatron-LM、Deepspeed等大的训练框架吗?
我们在配置中遇到2个问题
1.Megatron多节点启动bash脚本(每个节点bash有部分参数不一样,如NODE_RANK)。如何可以让分配相同任务节点使用不同配置文件?
2.多节点bash脚本有一个需要配置主Master IP,分配任务节点是由调度器分配的并不知道后续哪一个真正工作节点,这个配置要怎么支持
有没有多节点结合Megatron-LM的实现例子,提供参考一下。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions