2026/6/9 17:42:22
网站建设
项目流程
网站网页打不开怎么办,有什么网站学做标书的,提升学历图片,国际品牌的ui设计公司量化私募急招分布式机器学习平台专家 全职
岗位职责:
1.负责规划设计高性能分布式机器学习训练平台的整体架构#xff0c;支撑大规模数据处 理和模型训练;
2.主导分布式训练相关的技术选型#xff0c;比如适配业务的并行策略、存储方案等;
3.持续分析大规模集群的训练性能…量化私募急招分布式机器学习平台专家 全职岗位职责:1.负责规划设计高性能分布式机器学习训练平台的整体架构支撑大规模数据处 理和模型训练;2.主导分布式训练相关的技术选型比如适配业务的并行策略、存储方案等;3.持续分析大规模集群的训练性能解决数据读取、显存、通信等核心瓶颈同 时跟踪前沿分布式训练技术推动平台架构持续演进;4.对接算法团队配合算法团队适配不同的机器学习任务并做针对性的优化。5.监控系统运行状态识别潜在风险建立预防机制以减少故障发生。职位要求1.计算机科学、电子工程、软件工程或相关理工科本科及以上学历5 年以上工 作经验2.熟悉Python/Golang/C中至少一种语言掌握主流深度学习框架(如 PyTorch)3.熟悉在分布式环境中快速定位故障根源如网络延迟、节点失效或数据同步问 题具备日志分析、性能剖析和调试工具使用经验(如 Prometheus、Grafana)4.熟悉机器学习训练全链路工具(如 KubernetesSlurm 混合调度、机器学习平 台)、熟悉分布式训练框架(如 DeepSpeed、Megatron)、掌握 CUDA 性能调优或者 GPU 架构等。5.有大规模 AI 训练集群(1000节点)项目的设计、实施管理经验6.具备金融行业或大型互联网公司 HPC 运维经验7.具备较强的责任心和团队合作意识、具有良好的学习能力和分析解决问题能力8.精通分布式队列系统实现原理有 Slurm/YARN、RAY 等资源管理系统经验者优先