标签:算法

豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍

HybridFlow 采用混合编程模型强化学习(RL)对大模型复杂推理能力提升有关键作用,但其复杂的计算流程对训练和部署也带来了巨大挑战。近日