ML Platform & HPC Engineer > Order | (주)핀커스코리아

ML Platform & HPC Engineer

페이지 정보

등록일 : 22-04-19

기본정보

포지션제목필수	포지션제목필수 ML Platform & HPC Engineer
분류필수	분류필수 대기업	직급	직급 ~
성별필수	성별필수 무관	연령	연령 무관
진행절차필수	진행절차필수 서류전형 -> 1차면접 -> 2차면접	외국어	외국어
접수일필수	접수일필수 2022-04-19	마감일	마감일 2022-05-18

상세정보

본문

[주요 수행업무 및 역할]
ㅇ GPT-3 와 같은 대형 모델 학습을 위한 Hyperscale AI 인프라 및 학습 플랫폼을 구축하고 운영
ㅇ ML 학습과 평가, 배포에 이르는 전반적인 Workflow를 구성하고 모델 개발 및 운영 프로세스를 조율하고 통합
    - HPC infrastructure 설계, 구축 및 운영
      • 초고속 네트워크(InfiniBand) 기반의 GPU HPC 시스템 설계, 구성 및 운영
      • H/W Platform의 확장성, 안정성, 부하, Throughput, Latency 등에 대한 구성 요소 최적화
    - Distributed Deep Learning Platform 구축 및 운영
      • Slurm 및 Kubernetes 기반의 On-Premise 분산 D/L 학습 플랫폼의 구축, 운영 및 최적화
      • AWS(Parallel Cluster), Azure(CycleCloud), OCI (HPC등의 Cloud 기반 분산 D/L 학습 플랫폼 구축, 운영 및 최적화
    -AI Platform Backend 개발
      • 데이터 엔지니어 및 ML 모델러들과 협력하여 데이터 전처리, 모델 학습 및 배포, 그리고 서빙에 이어지는 Workflow 설계 및 플랫폼 개발

[필요 역량 및 경험]
ㅇ 총 보유경력 : 총 경력 3년 이상 (석사학위 기간 포함)
ㅇ Linux 운영 체제 기반의 HPC Cluster 및 GPU 기반 시스템 운영 경험 (필수)
ㅇ 시스템 모니터링 분석, 자동화 설계/구축/분석 관련 기술과 경험 (필수)
ㅇ Golang, Python중 한 개 이상의 언어 능숙 (필수)
ㅇ GRPC/HTTP/REST 기반의 Backend 개발 경험( 필수)

[자격요건]
ㅇ 컴퓨터공학 전공자 우대
ㅇ 기술/경험
   - OpenSource를 활용한 MLOps 관련 플랫폼 개발 경험
   - ML Workflow(Kubeflow, Airflow, Argo)
   - Inference (Triton, BentoML, Seldon, KFserving)
   - 대규모 D/L 분산 학습 플랫폼의 설계/구축/성능 최적화 관련 기술과 경험
   - Slurm/PBS/LSF 등과 같은 HPC Job scheduler에 대한 경험
   - Kubernetes, Docker 사용 및 개발 경험
   - Pytorch, Tensorflow 등의 ML Framework를 통한 개발 경험

[우대사항]
ㅇ 엔터프라이즈 기업, 신기술 기업에서 MLOps 관련 프로젝트 수행 경험
ㅇ 엔터프라이즈 기업 또는 연구소에서 대규모 HPC 클러스터 구축 및 운영 경험
ㅇ HPC, MLOps 관련 Open Source 참여 경험

담당컨설턴트

이름필수	이름필수 James 이사	전화필수	전화필수
이메일	이메일

온라인 이력서등록

SNS바로가기 링크

웹사이트 언어 선택 및 인트라넷 바로가기 링크

페이지 정보

기본정보

상세정보

본문

담당컨설턴트