【フルリモート/週5/AWS】SLA 99.999%を追求するグローバル決済プラットフォームのSREおよびカオスエンジニアリング推進

案件要件
- 職種
- エンジニア
- 業務内容
- システム開発・運用SES
- 報酬目安
- 5,700 ~ 6,800円/時
- 稼働時間目安
- 週5日 (時間目安 160時間)
- はたらく場所
- フルリモート
- スキル
【フルリモート/週5/AWS】SLA 99.999%を追求するグローバル決済プラットフォームのSREおよびカオスエンジニアリング推進
お任せしたいこと
[役割]SRE(サイト信頼性エンジニア)として、世界中のユーザーが24時間365日利用する「グローバル決済・送金プラットフォーム」のAWSインフラストラクチャにおける、マルチリージョン構成の運用およびカオスエンジニアリング(カオス・テスト)の推進をお任せします。
[役割に対して求める成果]AWSのあるリージョン全体がダウンするような大規模障害が発生した場合でも、Route 53やGlobal Acceleratorを用いたトラフィックの自動フェイルオーバーにより、ユーザーにダウンタイムを感じさせない「Active-Active」なマルチリージョンアーキテクチャを確立すること。また、本番環境にあえて擬似的な障害を注入するカオスエンジニアリングを定期的に実施し、システムの隠れた脆弱性(単一障害点)をあぶり出して、極限の可用性(SLA 99.999%)を担保し続けること。
具体的な業務内容
・AWSを利用した、高可用性・耐障害性を備えたグローバルインフラストラクチャ(マルチAZ・マルチリージョン)のアーキテクチャ設計および構築
・Amazon Aurora Global DatabaseやDynamoDB Global Tablesを利用した、リージョン間の低遅延なデータレプリケーションおよびフェイルオーバー戦略の設計
・AWS Fault Injection Simulator (FIS) やGremlinを利用したカオスエンジニアリングの計画・実行、およびフォールトトレランス(耐障害性)の検証
・Datadog、OpenTelemetryを利用した高度なオブザーバビリティ(可観測性)基盤の構築、およびSLI/SLOの定義とエラーバジェットの運用管理
・AWS Step FunctionsやEventBridge、Lambdaを利用した、障害検知時の自動復旧(オートヒーリング)パイプラインの実装
・Terraformを利用したインフラ構成のコード化(IaC)、およびDR(災害復旧)環境を別リージョンへ瞬時に立ち上げるための自動化スクリプトの開発
・開発チームに対する、レジリエンス(回復力)の高いアプリケーション設計(サーキットブレーカー、リトライ制御等)のアーキテクチャレビューおよび技術支援
・本番環境におけるクリティカルな障害発生時のインシデントコマンド(指揮)、および「Blameless(非難なき)」なポストモーテムの実施を通じた恒久対応策の策定
必須スキル・経験
・AWSを利用した大規模インフラの設計、構築、および本番環境での運用保守経験(3年以上)
・SRE(Site Reliability Engineering)のプラクティスに基づいたシステムの運用・改善経験
・Terraform等のIaCツールを用いたインフラの自動化経験
・TCP/IP、DNS、CDN等のネットワークプロトコルに関する極めて深い理解
・Git/GitHubを用いたプルリクエストベースでのインフラ構成管理経験
歓迎スキル・経験
・月間数億リクエスト以上の高トラフィック、またはSLA 99.99%以上が求められるミッションクリティカルなシステムの運用経験
・カオスエンジニアリング(Chaos Engineering)の概念を用いたテスト・運用経験
・AWSマルチリージョンアーキテクチャの構築・運用経験
・Go、Python等のプログラミング言語を用いた、インフラ運用ツールや自動化スクリプトの開発経験
・Kubernetes(EKS)等を利用したコンテナ基盤の高度な運用経験
・SOC 2やPCI DSS等、厳格なセキュリティ・コンプライアンス要件下でのインフラ運用経験
・AWS認定DevOpsエンジニア(プロフェッショナル)、またはソリューションアーキテクト(プロフェッショナル)等の資格
開発・業務環境
クラウド・インフラ:AWS (Route 53, Global Accelerator, EKS, Aurora, DynamoDB, ElastiCache, S3等)
障害テスト・運用:AWS Fault Injection Simulator (FIS), AWS Step Functions, EventBridge
IaC・CI/CD:Terraform, GitHub Actions
監視・オブザーバビリティ:Datadog, OpenTelemetry, PagerDuty
言語(ツール開発):Go, Python
コミュニケーション・管理:GitHub, Jira, Confluence, Slack
プロジェクトチームについて
インフラストラクチャ本部のSREチームへの配属となります。「希望は戦略ではない(Hope is not a strategy)」というSREの格言を体現し、障害が起きないことを祈るのではなく「システムは必ず壊れる」という前提に立って防御的・悲観的な設計を徹底するカルチャーです。障害発生時も個人のミスを責めることは一切なく、「なぜシステムがそのミスを許容してしまったのか」「どうすれば自動検知・自動復旧できたのか」という仕組みの改善に全力を注ぎます。
求める人物像
・本番環境のネットワークを遮断したり、意図的にデータベースのプロセスを落としたりすること(破壊的テスト)に知的な面白みと意義を感じる方
・インフラの運用作業(トイル)を憎み、あらゆる手作業をコードと自動化によって排除しようとする強い怠惰さを持った方
・複雑な分散システムにおいて、予期せぬ障害(カスケード障害など)が発生するメカニズムを論理的に紐解き、パズルのように解決策を導き出せる探求心を持った方
仕事の魅力
現代のデジタル社会において最も重要なインフラである「グローバルな決済基盤」を、AWSの最先端機能とSREのベストプラクティスを駆使して守り抜く、極めてスケールとプレッシャーの大きなポジションです。世界トップクラスのIT企業でしか経験できない「マルチリージョン・アクティブ/アクティブ構成の運用」や「カオスエンジニアリングの実践」といった、インフラエンジニアリングにおける最高到達点とも言える技術課題に挑むことができます。
働き方
リモート環境
[フルリモート] 基本的にフルリモートで働いていただけます(※グローバル展開しているシステムのため、オンコール当番の際は海外拠点のエンジニアと英語のテキストベースで連携を行う場合があります)。
株式会社Kaizen Tech Agent
株式会社Kaizen Tech Agentは、「人と技術をつなぐ」ことを企業理念に掲げ、日々向上していく『技術』と『人』を最適な形でむつび付け提供することで、
お客様にとって真にプラスとなる価値でありたいと考えております。
私たちはそれぞれの個性を尊重し、ほっとする和みの社風でありながら、変化する時代に対して受け身にならず、未来への挑戦心を宿しています。
事業領域は、WEBアプリ開発、業務システム開発、スマホアプリ開発、インフラ構築など幅広く展開しており、
フリーランス様に対して最適な案件をご提案させて頂いております。どんな些細な事でも結構ですので是非いつでもお気軽にご相談ください。
