【フルリモート/週5/Python】数千万ユーザーの行動データを処理する推薦基盤のデータパイプライン構築およびMLOpsエンジニア

案件要件
- 職種
- エンジニア
- 業務内容
- システム開発・運用SES
- 報酬目安
- 4,900 ~ 5,600円/時
- 稼働時間目安
- 週5日 (時間目安 160時間)
- はたらく場所
- フルリモート
- スキル
【フルリモート/週5/Python】数千万ユーザーの行動データを処理する推薦基盤のデータパイプライン構築およびMLOpsエンジニア
お任せしたいこと
[役割]MLOpsエンジニア(またはデータエンジニア)として、月間数千万人が利用する大規模メディア・ECサービスにおける「レコメンド(推薦)エンジン」や「パーソナライゼーション基盤」を本番環境で安定稼働させるための、Pythonを用いたデータパイプライン構築およびMLOps環境の設計をお任せします。
[役割に対して求める成果]データサイエンティストがJupyter Notebook等で作成した検証用の機械学習モデルを、本番環境の巨大なトラフィックに耐えうる低遅延かつスケーラブルな推論API(FastAPI等)として再設計・実装すること。また、Apache Airflow等を利用して日々のデータ抽出からモデルの再学習、デプロイまでを全自動化する堅牢なパイプラインを構築し、「AIのPoC(実証実験)止まり」を防ぎビジネス価値を継続的に創出できるインフラを提供すること。
具体的な業務内容
・Python(FastAPI)を用いた、機械学習モデルのリアルタイム推論APIの詳細設計、実装、テスト、およびレイテンシ要件(数ミリ秒以内)を満たすためのパフォーマンスチューニング
・データサイエンティストが記述したプロトタイプコード(Python)の解読と、保守性・再利用性・テスト容易性を担保したプロダクションコードへのリファクタリング
・Apache Airflow(またはPrefect)を用いた、BigQuery等から学習データを抽出・前処理し、定期的にモデルを更新する複雑なバッチパイプラインの開発
・MLflowやKubeflow等のMLOpsツールを利用した、モデルのバージョン管理、実験管理、およびCI/CDパイプラインへの組み込み
・PySpark等を利用した、数テラバイト〜ペタバイト級のログデータに対する分散処理・特徴量エンジニアリング基盤の構築
・本番環境で稼働する機械学習モデルの予測精度低下(データドリフト・コンセプトドリフト)を検知するためのモニタリング環境(Datadog等)の構築
・GCP(GKE, Vertex AI, Cloud Composer等)を利用した、スケーラブルな機械学習インフラの運用保守とコスト最適化
必須スキル・経験
・Pythonを用いたWebアプリケーション、またはデータ処理パイプラインの実務開発経験(3年以上)
・RDBMS、またはデータウェアハウス(BigQuery等)に対する高度なSQLの記述経験
・Docker等のコンテナ技術を用いた開発、およびLinux/ネットワークに関する基礎的な知識
・Git/GitHubを用いたプルリクエストベースでのチーム開発経験
歓迎スキル・経験
・FastAPI等の軽量フレームワークを用いた、高トラフィックなAPIの開発・チューニング経験
・Apache Airflow、Prefect等を利用したワークフローエンジンの運用経験
・MLflow、Vertex AI、SageMaker等を利用したMLOps基盤の構築・運用経験
・PySpark、Hadoop等の分散処理フレームワークの実務経験
・機械学習(推薦システム、自然言語処理等)のアルゴリズムや評価指標に関する基礎知識
・GCP(Google Cloud)またはAWSにおける、Kubernetes(GKE/EKS)の運用経験
・pytest等を用いたテストコードの記述、およびCI/CDパイプラインの構築経験
開発・業務環境
開発言語:Python 3.10以降
フレームワーク・ライブラリ:FastAPI, Pandas, PySpark, Scikit-learn
パイプライン・MLOps:Apache Airflow, MLflow
データベース・DWH:Google BigQuery, Redis
インフラ:Google Cloud (GKE, Cloud Composer, Vertex AI), Docker
テスト・CI/CD:pytest, GitHub Actions
監視・ツール:Datadog, GitHub, Jira, Slack, Zoom
プロジェクトチームについて
データ戦略本部のMLOps・データエンジニアリングチームへの配属となります。「精度の高いモデルを作ること」と同じくらい、「そのモデルをいかに速く、安定して、自動的に運用し続けるか」というエンジニアリングの価値を重んじるカルチャーです。数理モデリングの専門家であるデータサイエンティストと密に連携しながら、お互いの専門領域(モデルの精度 vs システムの堅牢性)を尊重し合い、泥臭く本番導入に向けた技術的課題を解決していく体制が整っています。
求める人物像
・「AIや機械学習の華やかなアルゴリズム開発」よりも、それを裏側で支える「落ちないシステム作り」「パイプラインの自動化」といったインフラ・エンジニアリング領域に知的な面白みを感じる方
・Jupyter Notebook上のスクリプト的なコード(Fatな関数やグローバル変数の多用)を憎み、オブジェクト指向やクリーンアーキテクチャに基づいた美しいPythonコードに書き換えることにやりがいを感じる方
・データサイエンティスト等の他職種と積極的にコミュニケーションを取り、アルゴリズムの意図や必要なデータ仕様を正しく汲み取れる方
仕事の魅力
現代のビジネスにおいて最も競争力の源泉となる「機械学習の社会実装」を、データエンジニアリングの力で直接的に支える非常に市場価値の高いポジションです。単なるPythonバックエンド開発にとどまらず、Airflowを用いた大規模パイプライン構築や、Kubernetesを活用したMLOpsアーキテクチャの設計など、AI時代に最も必要とされる「データを価値に変えるためのスケーラブルな基盤構築スキル」を実践的に磨き上げることができます。
働き方
リモート環境
[フルリモート] 基本的にフルリモートで働いていただけます。
株式会社Kaizen Tech Agent
株式会社Kaizen Tech Agentは、「人と技術をつなぐ」ことを企業理念に掲げ、日々向上していく『技術』と『人』を最適な形でむつび付け提供することで、
お客様にとって真にプラスとなる価値でありたいと考えております。
私たちはそれぞれの個性を尊重し、ほっとする和みの社風でありながら、変化する時代に対して受け身にならず、未来への挑戦心を宿しています。
事業領域は、WEBアプリ開発、業務システム開発、スマホアプリ開発、インフラ構築など幅広く展開しており、
フリーランス様に対して最適な案件をご提案させて頂いております。どんな些細な事でも結構ですので是非いつでもお気軽にご相談ください。
