エンジニアフルリモート

【フルリモート/週5/AWS】数千万人が同時接続する熱狂の瞬間を死守する。世界的ライブストリーミング・プラットフォームのシニアSRE(Site Reliability Engineer)

【フルリモート/週5/AWS】数千万人が同時接続する熱狂の瞬間を死守する。世界的ライブストリーミング・プラットフォームのシニアSRE(Site Reliability Engineer)

案件要件

職種
エンジニア
業務内容
システム開発・運用
SES
報酬目安
5,200 ~ 5,700円/時
稼働時間目安
週5日 (時間目安 160時間)
はたらく場所
フルリモート
スキル

【フルリモート/週5/AWS】数千万人が同時接続する熱狂の瞬間を死守する。世界的ライブストリーミング・プラットフォームのシニアSRE(Site Reliability Engineer)

お任せしたいこと

[役割]シニアSRE(Site Reliability Engineer)として、ワールドカップや世界的アーティストのライブ配信など、単一のイベントで「数千万人の同時接続」と「秒間数百万リクエスト」という暴力的かつ突発的なトラフィック・スパイクが発生するグローバル配信プラットフォームにおいて、AWSの限界を引き出す「絶対に落ちないインフラ」の設計・構築・運用をお任せします。
[役割に対して求める成果]「サーバーダウンによる配信停止」という、ユーザーにとって最大の絶望をテクノロジーの力で未然に防ぐこと。単一障害点(SPOF)を徹底的に排除したマルチリージョン・アクティブ/アクティブ構成の実現と、AWS Fault Injection Service(FIS)等を用いた日常的なカオスエンジニアリングの実践により、「障害は起きるもの」という前提のもとで99.99%以上の可用性(SLO)を担保する強靭(レジリエント)なシステムを構築すること。

具体的な業務内容

・AWS(Amazon EKS, Aurora, DynamoDB, ElastiCache等)を利用した、極めてスケーラブルで耐障害性の高いマイクロサービス基盤の詳細設計、構築、およびキャパシティプランニング
・Amazon CloudFrontとLambda@Edgeを活用した、エッジロケーションでの動的コンテンツのキャッシュ最適化と、オリジンサーバーへの負荷を極限まで下げるトラフィック・シェーピング(流量制御)
・Karpenterを活用したAmazon EKSクラスターの超高速なオートスケーリング戦略の策定と、Spot Instanceの効果的な利用によるインフラコスト(FinOps)の劇的な最適化
・TerraformおよびAWS CDKを利用したインフラの完全なコード化(IaC)と、CI/CDパイプラインへの組み込みによるプロビジョニングの自動化
・Datadog、OpenTelemetry、およびAWS X-Rayを統合した、全レイヤーにわたるマイクロ秒単位のオブザーバビリティ(可観測性)の確立と、SLI/SLOに基づく精緻なアラート設計
・本番環境におけるカオスエンジニアリング(Chaos Engineering)の定期的な実施と、ゲームデー(GameDay:障害対応訓練)のファシリテーション
・トイル(手作業の運用業務)を撲滅するための、Go言語やPythonを用いた運用自動化ツール、およびカスタムKubernetesオペレーターの開発
・インシデント発生時のコマンダー業務と、Blameless(個人を責めない)なポストモーテム(事後検証)の主導による、組織的な学習サイクルの確立

必須スキル・経験

・AWSを利用した大規模なWebサービス、または高トラフィックなインフラストラクチャの設計・構築・運用経験(3年以上)
・DockerおよびKubernetes(Amazon EKS等)を利用したコンテナ運用、およびトラブルシューティングの実務経験(2年以上)
・Terraform、AWS CDK等を用いたIaC(Infrastructure as Code)の運用経験
・Go、Python、Node.js等のプログラミング言語を用いたシステム開発、またはツール開発経験
・Git/GitHubを用いたチーム開発およびPull Requestベースのコードレビュー経験

歓迎スキル・経験

・動画配信(VOD/ライブ)、オンラインゲーム、または大規模ECサイト等における強烈なトラフィックスパイクのハンドリング経験
・Amazon CloudFront、Fastly、Akamai等のCDNの高度なチューニング経験
・マルチリージョン/マルチアベイラビリティゾーンをまたぐ高可用性システムの設計経験
・Datadog、New Relic等を用いた高度なSLI/SLO管理、およびオブザーバビリティ基盤の構築経験
・カオスエンジニアリングの導入、または実践経験
・AWS認定ソリューションアーキテクト – プロフェッショナル(SAP)、またはAWS認定 DevOps エンジニア – プロフェッショナル(DOP)の資格

開発環境

クラウド・インフラ:AWS (EKS, CloudFront, Aurora, DynamoDB, ElastiCache, Route 53, FIS)
コンテナ・IaC:Docker, Kubernetes, Karpenter, Terraform, AWS CDK
監視・オブザーバビリティ:Datadog, OpenTelemetry, PagerDuty
自動化・言語:Go, Python, GitHub Actions, Argo CD
その他ツール:Slack, Jira, Confluence, Notion

開発チームについて

CTO直下の「SREグループ」への配属となります。SRE 6名(今回募集枠含む)、プラットフォームエンジニア3名の体制です。「希望は戦略ではない(Hope is not a strategy)」というGoogle SREの哲学を深く体現し、インシデントを「システムの弱点を知る最高の機会」として歓迎する、極めて心理的安全性の高いBlamelessなカルチャーです。トラフィックの急増をダッシュボードで見守りながら、自らが組み上げたオートスケール機構が完璧に動作する瞬間に全員で熱狂する職人集団です。

求める人物像

・「トラフィックの暴力」に対し、サーバーのスペックを上げる力技ではなく、キャッシュ戦略や非同期処理、サーキットブレーカーといったアーキテクチャの力でエレガントに立ち向かうことに快感を覚える方
・障害発生時の張り詰めたプレッシャーの中でも冷静にデータ(ログ・メトリクス)を分析し、論理的に原因を特定できる「名探偵」のような思考力を持った方
・フルリモート環境下において、アプリケーションエンジニアやプロダクトマネージャーとSLOについて自発的かつ円滑にテキストや通話で交渉・合意形成ができる方

仕事の魅力

世界的な熱狂を生み出すエンターテインメントの裏側で、「秒間数百万リクエスト」という国内でも一握りの企業でしか経験できない圧倒的なスケールのインフラをAWSで操る、極めてエキサイティングなポジションです。エッジコンピューティングからデータベースの最深部まで、AWSのエコシステムを限界まで酷使する経験を積むことで、グローバルでもトップクラスの「ハイエンドSREアーキテクト」としての圧倒的な市場価値を獲得することができます。

働き方

リモート環境

[フルリモート] フルリモートで働いていただけます(※大規模な配信イベントやインシデント発生時には、オンラインでの密な同期やオンコール対応が発生する場合があります)。


SNSでこの案件をシェア

株式会社Kaizen Tech Agent

株式会社Kaizen Tech Agent

株式会社Kaizen Tech Agentは、「人と技術をつなぐ」ことを企業理念に掲げ、日々向上していく『技術』と『人』を最適な形でむつび付け提供することで、
お客様にとって真にプラスとなる価値でありたいと考えております。
私たちはそれぞれの個性を尊重し、ほっとする和みの社風でありながら、変化する時代に対して受け身にならず、未来への挑戦心を宿しています。
事業領域は、WEBアプリ開発、業務システム開発、スマホアプリ開発、インフラ構築など幅広く展開しており、
フリーランス様に対して最適な案件をご提案させて頂いております。どんな些細な事でも結構ですので是非いつでもお気軽にご相談ください。

案件を公開しました

案件をシェアしませんか?(SNSシェアをすることで、求職者の応募数アップが期待できます。)

案件を公開しました

この案件は限定公開です。案件のURLを知っている人のみが案件情報を見ることができます。

応募が完了しました

アピールしたいポイントがあれば積極的にメッセージを送ってみましょう。