【フルリモート/週5/AWS】ペタバイト級のデータレイク基盤を構築・運用するAWSデータエンジニア(Redshift / Glue)

案件要件
- 職種
- エンジニア
- 業務内容
- システム開発・運用SES
- 報酬目安
- 5,600 ~ 6,500円/時
- 稼働時間目安
- 週5日 (時間目安 160時間)
- はたらく場所
- フルリモート
- スキル
【フルリモート/週5/AWS】ペタバイト級のデータレイク基盤を構築・運用するAWSデータエンジニア(Redshift / Glue)
お任せしたいこと
[役割]データエンジニアとして、自社で展開する複数のインターネットサービス(メディア、EC、SaaS等)から発生する膨大なログや業務データを統合し、ビジネスサイドやデータサイエンティストが価値あるインサイトを迅速に引き出せる「モダンデータスタック(データレイク/DWH)」の設計・構築をお任せします。
[役割に対して求める成果]事業部門ごとにサイロ化(分散)していたデータをAmazon S3を中心としたデータレイクに集約し、AWS GlueやAmazon Redshiftを活用して、ペタバイトスケールのデータに対しても高速かつスケーラブルにクエリを実行できる強固な分析基盤を構築すること。また、ETLパイプラインにおけるデータの欠損や重複を防ぐ冪等性(べきとうせい)を担保し、AWS Lake Formation等を用いて適切なアクセス制御(データガバナンス)を効かせた安全なデータ基盤を運用し続けること。
具体的な業務内容
・AWS(S3, Glue, Redshift, Athena, Step Functions等)を利用した、スケーラブルなデータレイクおよびデータウェアハウス(DWH)のアーキテクチャ設計・構築
・AWS Glue(PySpark / Python)を利用した、各種データソース(RDBMS、API、SaaS等)からの大規模なデータ抽出、変換、ロード(ETL/ELT)処理の開発
・Amazon MWAA(Managed Workflows for Apache Airflow)やAWS Step Functionsを利用した、複雑なデータパイプラインのオーケストレーションと自動化
・Amazon Kinesis Data StreamsやAmazon MSKを利用した、リアルタイム(ストリーミング)データの取り込み基盤の設計・実装
・Amazon Redshiftにおけるテーブル設計、分散キー・ソートキーの最適化、およびアナリスト向けの大規模クエリのパフォーマンスチューニング
・AWS Lake FormationやIAMを利用した、列レベル・行レベルでのきめ細やかなデータアクセス制御とガバナンス統制
・dbt(data build tool)を活用したデータモデリングの導入支援、およびSQLのバージョン管理・テストの自動化
・Terraformを用いたデータ基盤インフラのコード化(IaC)、およびCI/CDパイプラインによるデプロイの自動化
必須スキル・経験
・AWSを利用したインフラ環境の構築、またはバックエンドシステムの実務開発経験(3年以上)
・データウェアハウス(DWH)の構築、または大規模なデータ処理・ETLパイプラインの開発経験(2年以上)
・複雑な集計や分析用途を想定した、高度なSQLの記述およびチューニング経験
・Pythonを用いたプログラミング経験
・Git/GitHubを用いたプルリクエストベースでのチーム開発経験
歓迎スキル・経験
・AWS Glue、Amazon EMR等を利用したPySparkによる分散データ処理の実務経験
・Amazon Redshift、またはBigQuery、Snowflake等のモダンDWHの運用・チューニング経験
・Apache Airflow(MWAA等)を利用したデータパイプラインの構築経験
・dbtを用いたデータモデリング、データ変換処理の実務経験
・KinesisやKafkaを利用したストリーミングデータ基盤の設計経験
・Terraform等のIaCツールを用いたインフラ構成管理経験
・AWS認定データエンジニア(アソシエイト)、またはAWS認定データベース/データアナリティクス関連の資格
開発・業務環境
クラウド・データ基盤:AWS (S3, Glue, Redshift, Athena, Kinesis, MWAA, Step Functions, Lake Formation等)
開発言語:Python (PySpark), SQL
データ変換・モデリング:dbt
IaC・CI/CD:Terraform, GitHub Actions
BIツール:Amazon QuickSight, Tableau
コミュニケーション・管理:GitHub, Jira, Confluence, Slack
プロジェクトチームについて
データ戦略・基盤開発チームへの配属となります。「データは集めるだけではゴミの山になる」という危機感を強く持ち、ビジネス側が真に必要とするデータマートをいかに美しく、かつ低遅延で提供できるかに価値を置くカルチャーです。単に要件通りにパイプラインを作るだけでなく、「このデータはどの部署がどういう意思決定に使うのか」をデータアナリストやPdMと深く議論し、データ品質(Data Quality)の維持向上に向けて泥臭いデータのクレンジングや監視にもチーム全体で取り組んでいます。
求める人物像
・散らかったデータソースを整理し、論理的で美しいデータモデル(スタースキーマ等)として組み上げることに知的な喜びを感じる方
・「バッチが途中で落ちた場合、再実行してもデータが重複しないか」といった、データエンジニアリング特有の冪等性やフォールトトレランスの設計に執念を持てる方
・最新のデータ技術トレンド(モダンデータスタック、データメッシュ等)を継続的にキャッチアップし、AWSのマネージドサービスを適材適所で組み合わせて課題解決を図れる方
仕事の魅力
企業のデータドリブン経営を根底から支える、極めてビジネスインパクトの大きなポジションです。AI・機械学習の普及に伴いデータエンジニアの需要が世界的にも急増する中、ペタバイト級のトラフィックとAWSの強力なデータエコシステム(Redshift, Glue, MWAA等)をフル活用して堅牢なデータレイクを構築する経験は、クラウドデータアーキテクトとして最高峰の市場価値をもたらします。
働き方
リモート環境
[フルリモート] 基本的にフルリモートで働いていただけます。
株式会社Kaizen Tech Agent
株式会社Kaizen Tech Agentは、「人と技術をつなぐ」ことを企業理念に掲げ、日々向上していく『技術』と『人』を最適な形でむつび付け提供することで、
お客様にとって真にプラスとなる価値でありたいと考えております。
私たちはそれぞれの個性を尊重し、ほっとする和みの社風でありながら、変化する時代に対して受け身にならず、未来への挑戦心を宿しています。
事業領域は、WEBアプリ開発、業務システム開発、スマホアプリ開発、インフラ構築など幅広く展開しており、
フリーランス様に対して最適な案件をご提案させて頂いております。どんな些細な事でも結構ですので是非いつでもお気軽にご相談ください。
