【フルリモート/週5/AWS】数千万ユーザーのインフラをコードで統治し、極限の可用性を追求する次世代SRE・クラウドアーキテクト お任せしたいこと [役割]SRE(Site Reliability Engineering)およびクラウドアーキテクトとして、数千万人のユーザーが利用する大規模プラットフォームを支えるAWSインフラの設計、構築、運用、および継続的な改善をお任せします。 [役割に対して求める成果]「手作業による運用(Toil)」を徹底的に排除してInfrastructure as Code(IaC)を推進し、突発的なトラフィックスパイクにも自動でスケールする極めて堅牢で可用性の高いクラウドネイティブ・インフラをAWS上で実現すること。そして、開発チームのアジリティ(リリース速度)とシステムの信頼性(Reliability)を高い次元で両立させること。 具体的な業務内容 ・AWS(EKS, ECS, Aurora, DynamoDB, ElastiCache等)を利用した、高トラフィックかつ耐障害性の高いクラウドアーキテクチャの詳細設計および構築 ・TerraformやAWS CDKを用いた、インフラストラクチャの完全なコード化(IaC)の推進と、レビュー・デプロイフローの確立 ・DockerおよびKubernetes(Amazon EKS)を用いたマイクロサービス・コンテナ基盤の運用、およびオートスケール戦略の最適化 ・GitHub ActionsやArgo CDを利用した、開発者が安全かつ高速にデプロイできるCI/CDパイプラインの構築と継続的な改善 ・Datadog等の監視ツールを用いたSLI/SLOの策定・運用、およびパフォーマンスボトルネック(DBの負荷、ネットワークI/O等)のプロアクティブな検知と解消 ・AWS Security Hub、WAF、IAM等を駆使したゼロトラストセキュリティ基盤の構築と、FinOps(クラウドコスト最適化)の推進 ・障害発生時のインシデントコマンダーとしての対応、および再発防止に向けた「非難なきポストモーテム(Blameless Post-mortem)」の主導 必須スキル・経験 ・AWSを利用したWebサービスのインフラ設計、構築、および本番環境での運用経験(3年以上) ・Terraform、CloudFormation等を用いたInfrastructure as Code(IaC)の実務経験 ・Docker等のコンテナ技術を利用したインフラ構築・運用経験 ・Linuxサーバーの構築・運用、およびTCP/IPなどネットワークに関する深い基礎知識 ・Git/GitHubを用いたチーム開発およびPull Requestベースのコードレビュー経験 歓迎スキル・経験 ・SRE(Site Reliability Engineering)のプラクティスに基づいたSLI/SLOの運用経験 ・Kubernetes(Amazon EKS等)を利用した大規模なクラスター設計・運用経験 ・Datadog、New Relic等のAPMツールを利用した高度なパフォーマンスチューニング・トラブルシューティング経験 ・Go、Python、Rubyなどのプログラミング言語を用いた、運用自動化ツールやCLIの開発経験 ・マイクロサービスアーキテクチャにおけるインフラ設計、またはサービスメッシュ(Istio等)の導入経験 ・AWS認定ソリューションアーキテクト – プロフェッショナル(SAP)、または同等の高度なクラウド資格の保有 開発・業務環境 インフラ・クラウド:AWS (EKS, ECS, Fargate, Aurora, DynamoDB, S3, ElastiCache, CloudFront, Route 53等) コンテナ・IaC:Docker, Kubernetes, Helm, Terraform CI/CD・監視:GitHub Actions, Argo CD, Datadog, PagerDuty, Prometheus, Grafana その他ツール:GitHub, Jira, Confluence, Slack, Zoom 開発チームについて VPoE直下のSRE組織として、SREマネージャー1名、SREメンバー6名(今回募集枠含む)の体制です。インフラを単なる「サーバーのお守り」と捉えるのではなく、ソフトウェアエンジニアリングの力でシステムを制御する「エンジニア集団」です。バックエンドエンジニアやPdMと密に連携し、アーキテクチャの選定段階から深く入り込んでシステム全体の信頼性を担保する、非常に技術感度とプロ意識の高いカルチャーです。 求める人物像 ・同じ手作業を2回繰り返すことを嫌い、スクリプトやIaCによって徹底的に自動化(Toil撲滅)することにエンジニアリングの喜びを感じる方 ・深夜の障害アラートや本番環境のトラブルといったプレッシャーの中でも冷静にログを分析し、論理的に根本原因(Root Cause)を特定できる方 ・「インフラはインフラチームの仕事」と境界線を引かず、アプリケーションエンジニアと協調してDevOps文化を組織全体に浸透させることができる方 仕事の魅力 数千台規模のコンテナが稼働し、ペタバイト級のデータが飛び交う巨大なAWS環境をコードの力で統治する、インフラエンジニアにとって最高峰のエキサイティングなポジションです。Kubernetesのディープなチューニングや、高度な分散システムのオブザーバビリティ(可観測性)向上といったモダンなSREプラクティスを極めることで、クラウドネイティブ時代において最も市場価値の高いトップティアのアーキテクトとしてのキャリアを確固たるものにすることができます。 働き方 リモート環境 [フルリモート] フルリモートで働いていただけます(※障害対応時のオンコール当番等が発生する場合がありますが、柔軟な勤務調整が可能です)。