Loading...

社招|美团RLHF招人啦!

强化学习7个月前发布 智源社区
196 0 0

欢迎ML基础扎实、对RLHF感兴趣的小伙伴投递!1-N年经验都欢迎!

岗位职责

  1. 负责LLM强化学习链路整体优化,包括数据探索与增强、奖励模型优化、RL策略迭代及效果评估等,持续提升算法的效率与效果;
  2. 强化学习技术前瞻探索,包括但不限于离线强化学习、环境模型学习、约束强化学习等方向;
  3. 开展大语言模型在搜索、推荐、广告等业务场景中的应用并实现业务目标。

岗位基本需求

  1. 一年以上相关工作经验,具备NLP、搜索、推荐、广告等至少其一领域的算法优化和业务实践;
  2. 扎实的算法基础,熟悉强化学习、自然语言处理和机器学习技术,对技术开发及应用有热情;
  3. 熟悉Python、Java等至少一种编程语言,具有良好的编程能力和扎实的数学理论基础;
  4. 熟悉Tensorflow、PyTorch等深度学习框架并有实际项目经验;
  5. 关注行业前沿进展,对技术开发及应用有热情,有自己的想法并乐于挑战自我;
  6. 良好的沟通能力和跨团队协作能力,能够梳理繁杂的工作并建立有效机制,推动上下游配合完成目标。

具备以下者优先

  1. 具备RL算法优化和项目实践经验,熟悉DQN、PPO、MCQ等强化学习算法,能够基于实际业务问题优化算法;
  2. 在ICML、KDD、SIGIR、WWW、ICLR等顶级会议或期刊上发表过论文者优先。获得过国际或国内赛事奖项者优先;
  3. 有大语言模型算法优化和大规模分布式RL框架优化经验优先。

岗位亮点

  1. 能够接触到海量的用户数据,良好的技术氛围和技术牛人;
  2. 能够触达丰富的业务,具备技术挑战,使用技术手段解决业务中的实际问题。

联系方式

lirumei at meituan.com

© 版权声明

相关文章

暂无评论

暂无评论...