エンジニアフルリモート

【フルリモート/週5/AWS】ペタバイト級のデータと大規模GPUクラスタを統制し、AIの限界を突破する次世代生成AIプラットフォームのコアSRE/インフラアーキテクト

【フルリモート/週5/AWS】ペタバイト級のデータと大規模GPUクラスタを統制し、AIの限界を突破する次世代生成AIプラットフォームのコアSRE/インフラアーキテクト

案件要件

職種
エンジニア
業務内容
システム開発・運用
SES
報酬目安
6,200 ~ 7,000円/時
稼働時間目安
週5日 (時間目安 160時間)
はたらく場所
フルリモート
スキル

【フルリモート/週5/AWS】ペタバイト級のデータと大規模GPUクラスタを統制し、AIの限界を突破する次世代生成AIプラットフォームのコアSRE/インフラアーキテクト

お任せしたいこと

[役割]SRE(Site Reliability Engineer)兼インフラアーキテクトとして、独自のLLM(大規模言語モデル)の学習・推論、および数千万ユーザーからのリクエストを処理する次世代生成AIプラットフォームにおいて、AWSのポテンシャルを極限まで引き出したミッションクリティカルなインフラ基盤の設計・構築・運用をお任せします。
[役割に対して求める成果]「AIモデルの進化スピードをインフラが絶対に邪魔しない」という強烈なコミットメントのもと、Amazon EKSと大規模GPUクラスタを用いたスケーラブルな計算基盤を構築すること。そして、異常なほど高騰しがちなクラウドリソースのコストを、アーキテクチャの工夫とFinOpsの実践によって極限まで最適化し、ビジネスの利益率を劇的に向上させること。

具体的な業務内容

・AWS(EKS, EC2 P4d/P5インスタンス, S3, RDS等)を利用した、生成AI(LLM)の分散学習および超低遅延な推論APIのためのセキュアで高可用なインフラストラクチャの詳細設計・構築
・TerraformやAWS CDKを用いた、数百〜数千ノード規模のインフラの完全なコード化(IaC)と、GitHub ActionsやArgo CDを活用したGitOpsによる自動デプロイメントパイプラインの実装
・Amazon FSx for LustreやAmazon S3を活用した、ペタバイト級の学習データセットに対する超高スループット・低遅延なストレージアーキテクチャの設計
・Karpenter等を利用した、突発的な推論リクエストのスパイクに対するミリ秒単位のオートスケーリング戦略の実装と、Spotインスタンスの高度な活用によるインフラコストの劇的な削減(FinOps)
・EFA(Elastic Fabric Adapter)を活用した、GPUノード間の広帯域・低遅延なネットワーキング最適化
・Datadog、Prometheus、Grafana等を利用した、インフラからアプリケーション層、さらにはGPUの使用率(DCGM等)に至るまでの包括的なオブザーバビリティ(可観測性)基盤の構築とSLOの運用
・障害の未然防止や復旧の自動化(トイルの削減)に向けた、GoやPythonを用いたKubernetesカスタムコントローラー(Operator)や自動化ツールの開発

必須スキル・経験

・AWSを利用した大規模なWebサービスまたはプラットフォームのインフラ設計、構築、運用経験(3年以上)
・DockerおよびKubernetes(Amazon EKS等)を利用したコンテナオーケストレーションの本番環境での運用経験(2年以上)
・Terraform、AWS CDK、CloudFormationのいずれかを用いたIaCの実務経験
・Datadog等のモニタリングツールを用いた、システムのパフォーマンス監視、ボトルネック特定、および障害対応経験
・Git/GitHubを用いたチーム開発およびPull Requestベースのコードレビュー経験

歓迎スキル・経験

・機械学習(MLOps)インフラ、またはGPUインスタンス(NVIDIA A100/H100等)の大規模な運用・チューニング経験
・Amazon FSx for Lustre等のハイパフォーマンスコンピューティング(HPC)向けストレージの運用経験
・FinOps(クラウドコストの可視化、予測、最適化)のプラクティスを組織に導入し、大幅なコスト削減を達成した経験
・Go、Python等のプログラミング言語を用いたバックエンド開発、またはSREとしての各種自動化ツールの開発経験
・Argo CDやFlux等のGitOpsツールを用いた継続的デリバリー環境の構築経験
・SLI/SLOの定義、およびエラーバジェットに基づいた運用設計の経験
・AWS認定ソリューションアーキテクト – プロフェッショナル(SAP)、または同等の高度な資格

開発・業務環境

インフラ・クラウド:AWS (EKS, EC2 GPU Instances, FSx for Lustre, S3, RDS, ElastiCache, Route 53)
コンテナ・IaC:Docker, Kubernetes, Karpenter, Terraform, AWS CDK
CI/CD・自動化:GitHub Actions, Argo CD
言語(ツール開発):Go, Python, Bash
監視・分析:Datadog, Prometheus, Grafana, PagerDuty

開発チームについて

VPoE直下の「プラットフォーム・SRE部」への配属となります。インフラエンジニア4名(今回募集枠含む)、MLOpsエンジニア2名、AIリサーチャー、バックエンドエンジニア多数の体制です。「手作業はバグの温床である」という強い危機感を持ち、泥臭い運用業務(トイル)をソフトウェアエンジニアリングの力で徹底的に焼き尽くすことに熱狂するハッカー集団です。

求める人物像

・「トラフィックが増えたからサーバーを足す」という脳死のスケールアウトを嫌い、カーネルやネットワークの低レイヤーまで潜り込んで根本的なパフォーマンス・コストチューニングを行うことに無上の喜びを感じる方
・AI・機械学習領域の急速な技術進化に知的好奇心を持ち、インフラの観点から「どうすればAIエンジニアがより早く実験を回せるか」をプロアクティブに提案できる方
・フルリモート環境下において、AIエンジニアやバックエンドエンジニアなど他職種とも自発的かつ円滑にテキストや通話でコミュニケーションが取れる方

仕事の魅力

現在のテック業界における最大のトレンドである「生成AI」の心臓部となるインフラを、AWSの最先端サービスを駆使して支える非常にエキサイティングなポジションです。ペタバイト級のデータ処理と大規模GPUクラスタの制御という、世界でも一握りのエンジニアしか経験できない最高難易度のアーキテクチャ課題をクリアすることで、AI時代に最も市場価値が高く求められる「AI・クラウドインフラアーキテクト」としての圧倒的なキャリアを確立することができます。

働き方

リモート環境

[フルリモート] フルリモートで働いていただけます(※大規模障害時等には、事前に合意した上でのオンコール対応やシフト調整が発生する場合があります)。


SNSでこの案件をシェア

株式会社Kaizen Tech Agent

株式会社Kaizen Tech Agent

株式会社Kaizen Tech Agentは、「人と技術をつなぐ」ことを企業理念に掲げ、日々向上していく『技術』と『人』を最適な形でむつび付け提供することで、
お客様にとって真にプラスとなる価値でありたいと考えております。
私たちはそれぞれの個性を尊重し、ほっとする和みの社風でありながら、変化する時代に対して受け身にならず、未来への挑戦心を宿しています。
事業領域は、WEBアプリ開発、業務システム開発、スマホアプリ開発、インフラ構築など幅広く展開しており、
フリーランス様に対して最適な案件をご提案させて頂いております。どんな些細な事でも結構ですので是非いつでもお気軽にご相談ください。

案件を公開しました

案件をシェアしませんか?(SNSシェアをすることで、求職者の応募数アップが期待できます。)

案件を公開しました

この案件は限定公開です。案件のURLを知っている人のみが案件情報を見ることができます。

応募が完了しました

アピールしたいポイントがあれば積極的にメッセージを送ってみましょう。