【フルリモート/週5】AWS SRE・インフラエンジニア(大規模Webサービス・高トラフィック基盤の信頼性向上と運用自動化)

案件要件
- 職種
- エンジニア
- 業務内容
- システム開発・運用SES
- 報酬目安
- 4,700 ~ 5,600円/時
- 稼働時間目安
- 週5日 (時間目安 160時間)
- はたらく場所
- フルリモート
- スキル
【フルリモート/週5】AWS SRE・インフラエンジニア(大規模Webサービス・高トラフィック基盤の信頼性向上と運用自動化)
お任せしたいこと
自社で展開する大規模Webサービス、または急成長中のSaaSプロダクトにおいて、システムの高い可用性とパフォーマンスを維持し続けるためのSRE(Site Reliability Engineering)業務をお任せします。
「AWSのコンソール画面から手作業でサーバーを立てる」ような属人的なインフラ管理から脱却し、Terraformを用いた完全なコード化(IaC)や、SLI/SLOに基づいたデータドリブンな監視体制の構築など、気合いや根性による障害対応(ヒーロープレイ)をシステムと仕組みによって泥臭く撲滅していくポジションです。
具体的な業務内容
・AWS(EKS, ECS, EC2, RDS, ElastiCache等)を利用した、スケーラブルで耐障害性の高いインフラストラクチャの設計・構築・運用
・Terraform、またはAWS CDKを用いたインフラリソースの完全なコード化(IaC)と、CI/CDを通じた自動プロビジョニング
・Datadog、AWS CloudWatch等を利用したSLI(サービスレベル指標)の計測、SLOの設定、およびノイズを排除した適切なアラート設計
・本番環境における障害発生時のインシデント対応(オンコール)、および「非難なきポストモーテム(Blameless Post-mortem)」の主導と再発防止策の実行
・開発チーム(バックエンドエンジニア)に対する、可用性やパフォーマンスを考慮したアーキテクチャ設計のレビュー・技術支援
・GitHub Actions等を利用した、アプリケーションの安全かつ高速なデプロイメントパイプライン(CI/CD)の継続的な改善
・トイル(価値を生まない手作業)を削減するための、PythonやGo言語を用いた運用自動化スクリプト・ツールの開発
必須スキル・経験
・AWSを利用したインフラ環境の構築、および実運用(障害対応含む)の経験(目安として3年以上)
・Linuxサーバーの構築・運用知識、およびTCP/IP等のネットワークに関する深い理解
・Terraform、Ansible、AWS CloudFormation等のいずれかを用いたIaCの実務経験
・Git / GitHubを用いた構成管理、およびプルリクエストベースでのチーム開発経験
歓迎スキル・経験
・SREとしての実務経験、またはSLI/SLOの策定・運用経験
・Docker / Kubernetes(Amazon EKS等)を利用したコンテナオーケストレーション環境の運用経験
・Datadog等のAPMツールを利用した、分散システムのボトルネック調査・パフォーマンスチューニング経験
・Python、Go、またはRuby等を用いたバックエンドアプリケーション、またはCLIツールの開発経験
・高トラフィック(秒間数千〜数万リクエスト)を捌くシステムのインフラ運用・負荷テストの経験
開発・業務環境
クラウド・インフラ:AWS (EKS, ECS, EC2, RDS, Aurora, ElastiCache, S3, CloudFront, Route53等)
IaC・構成管理:Terraform, Docker
運用自動化・開発言語:Python, Go, または Bash
監視・管理:Datadog, AWS CloudWatch, PagerDuty (または Opsgenie)
テスト・CI/CD:GitHub Actions, CircleCI
コミュニケーション・管理:GitHub, Jira, Backlog, Slack, Zoom
プロジェクトチームについて
インフラ基盤統括・SREチームへの配属となります。
「インフラエンジニアは開発チームの尻拭いをする部署だ」という被害者意識を強く嫌い、「どうすれば開発者が安全に、かつ最速でコードをデプロイできるか」というプラットフォームとしての価値提供を第一に考える手堅いカルチャーです。深夜にアラートが鳴った際にも、場当たり的な再起動で済ませるのではなく、「なぜCPUスパイクが起きたのか?」「アラートの閾値は適切だったか?」をログから泥臭く紐解き、二度と同じ問題で人間が起こされないための恒久対応を地道に徹底しています。
求める人物像
・「同じ作業を2回繰り返すくらいなら、3時間かけてでも自動化スクリプトを書く」という、良い意味での「怠惰さ」を持っている方
・システム障害という極度のプレッシャー下においてもパニックにならず、事実とメトリクスに基づいて冷静に状況を切り分けられる方
・「インフラの壁」に閉じこもるのではなく、アプリケーションのコードにも踏み込んで開発チームと建設的な議論(越境)ができる方
仕事の魅力
事業の成長に伴って指数関数的に増大するトラフィックと複雑さを、AWSの高度なエコシステムとソフトウェアエンジニアリングの力で制御し、システムの「落ちない当たり前」を裏側からダイレクトに支えるポジションです。単なるサーバーの運用保守にとどまらず、SLOの運用やトイルの削減といったモダンなSREプラクティスを実践する経験を通じて、クラウドネイティブ時代に極めて需要が高く、あらゆる企業から渇望される「高度なサイトリライアビリティエンジニア」としてのキャリアを着実に磨くことができます。
働き方
リモート環境
[フルリモート] 基本的にフルリモートで働いていただけます(※システムの安定稼働を担保するため、PagerDuty等を通じたオンコール対応(輪番制)が発生しますが、特定のアラート頻発による疲弊を防ぐため、アラートのチューニングとトイル削減をチームの最優先課題として取り組んでいます)。
株式会社Kaizen Tech Agent
株式会社Kaizen Tech Agentは、「人と技術をつなぐ」ことを企業理念に掲げ、日々向上していく『技術』と『人』を最適な形でむつび付け提供することで、
お客様にとって真にプラスとなる価値でありたいと考えております。
私たちはそれぞれの個性を尊重し、ほっとする和みの社風でありながら、変化する時代に対して受け身にならず、未来への挑戦心を宿しています。
事業領域は、WEBアプリ開発、業務システム開発、スマホアプリ開発、インフラ構築など幅広く展開しており、
フリーランス様に対して最適な案件をご提案させて頂いております。どんな些細な事でも結構ですので是非いつでもお気軽にご相談ください。
