【フルリモート/週5/AWS】ペタバイト級のデータ資産をビジネスの「血肉」に変える、次世代データレイクハウスのAWSアーキテクト お任せしたいこと [役割]クラウドデータアーキテクト(データエンジニア)として、社内外から絶え間なく生成されるペタバイト級のあらゆるデータ(ユーザーログ、トランザクション、センサーデータ等)を統合し、全社のデータ駆動型(Data-driven)意思決定とAI開発を支える「次世代データレイクハウス」の設計・構築をお任せします。 [役割に対して求める成果]「データが散在して使えない」「クエリが遅すぎる」といった組織のサイロ化とボトルネックを打破すること。AWSの最新のデータエコシステムとオープンテーブルフォーマットを駆使し、厳格なデータガバナンスと圧倒的なクエリパフォーマンスを両立させた、堅牢で拡張性の高いDataOps基盤を実現すること。 具体的な業務内容 ・Amazon S3を中心としたペタバイト級のデータレイク、およびAmazon Redshift Serverlessを利用したスケーラブルなデータウェアハウス(DWH)の詳細設計および構築 ・Amazon EMR(Apache Spark)やAWS Glueを活用した、超大規模なデータセットに対する分散データ処理およびETL/ELTパイプラインの実装と計算リソースのチューニング ・Amazon MSK(Apache Kafka)やKinesis Data Streamsを利用した、リアルタイムなストリーミングデータ収集パイプラインの構築 ・Apache Iceberg、Delta Lake、Hudi等のモダンなオープンテーブルフォーマットの導入による、データレイク上でのACIDトランザクション保証とタイムトラベル機能の実装 ・AWS Lake Formationを利用した、テーブル・カラムレベルでのきめ細やかなアクセスコントロール(RBAC/ABAC)と、全社データガバナンス・監査基盤の確立 ・Amazon MWAA(Apache Airflow)を利用した複雑なワークフローのオーケストレーション、およびdbtを用いたデータモデリングとデータリネージ(来歴)の可視化 ・Terraformを用いたデータインフラストラクチャのコード化(IaC)、およびCI/CDパイプラインを通じたデータ品質テスト(Data Quality Check)の自動化 必須スキル・経験 ・AWSを利用したインフラストラクチャ、またはデータ基盤の設計・構築・運用経験(3年以上) ・Python、Scala、Javaいずれかの言語を用いたサーバーサイド開発、またはデータエンジニアリングの実務経験(2年以上) ・分散データ処理フレームワーク(Apache Spark, Hadoop等)の知見、および高度なSQLを用いたクエリチューニング経験 ・Git/GitHubを用いたチーム開発、およびTerraform等を利用したIaCの運用経験 歓迎スキル・経験 ・データレイクハウスアーキテクチャの設計経験、およびApache Iceberg等のテーブルフォーマットの実務経験 ・Amazon Redshift、Snowflake、BigQueryなどのモダンなDWHを用いたデータモデリング(スタースキーマ、データボルト等)の経験 ・dbtを用いたデータパイプライン開発、またはApache Airflowによるワークフロー管理の経験 ・機械学習基盤(MLOps)の構築、またはAmazon SageMakerとの連携基盤の構築経験 ・データカタログ、データディスカバリツール(Amundsen, DataHub等)の導入経験 ・AWS認定データエンジニア – アソシエイト(DEA)、または専門知識(データ分析)の資格保有 開発・業務環境 データ基盤・AWS:S3, EMR, Redshift, Glue, MSK, Kinesis, Lake Formation, MWAA データスタック:Apache Spark, Apache Iceberg, dbt, Apache Airflow 言語:Python, Scala, SQL IaC・CI/CD:Terraform, GitHub Actions その他ツール:Datadog, Tableau (BI), GitHub, Jira, Slack, Notion 開発チームについて VPoE直下の「データプラットフォーム部」への配属となります。データアーキテクト3名(今回募集枠含む)、データエンジニア5名、アナリティクスエンジニア3名の体制です。「データは単なる副産物ではなく、プロダクトそのものである(Data as a Product)」という強い信念を持ち、泥臭いデータクレンジングやパイプラインの運用(トイル)をソフトウェアエンジニアリングで徹底的に自動化していく、非常に知的で探求心の強いカルチャーです。 求める人物像 ・「ゴミを入れればゴミが出る(Garbage In, Garbage Out)」というデータ基盤の鉄則を深く理解し、データの品質とセキュリティに対して異常なまでの執着を持てる方 ・特定のマネージドサービスに盲目的に依存するのではなく、Sparkの実行計画(DAG)やメモリ管理のレイヤーまで潜り込んで泥臭くパフォーマンスチューニングを楽しめる方 ・フルリモート環境下において、データアナリストやAIエンジニアなど、データを消費する他職種とも自発的かつ円滑にテキストや通話でコミュニケーションが取れる方 仕事の魅力 企業の競争力の源泉である「データ」のインフラを根本から設計し直すという、非常にダイナミックで影響力の大きなポジションです。ペタバイト級のデータ処理と、Apache Icebergやdbtといったモダンデータスタック(MDS)の最前線の技術をAWS上で極限まで使い倒す経験を積むことで、データエンジニアリング領域において最も希少性の高い「トップティア・データアーキテクト」としての圧倒的な市場価値を獲得することができます。 働き方 リモート環境 [フルリモート] フルリモートで働いていただけます。