エンジニアフルリモート

【フルリモート/週5/Python】数十億件のデータを収集・解析するデータアグリゲーションSaaSのバックエンド開発および分散クローラ基盤構築

【フルリモート/週5/Python】数十億件のデータを収集・解析するデータアグリゲーションSaaSのバックエンド開発および分散クローラ基盤構築

案件要件

職種
エンジニア
業務内容
システム開発・運用
SES
報酬目安
5,600 ~ 6,800円/時
稼働時間目安
週5日 (時間目安 160時間)
はたらく場所
フルリモート
スキル

【フルリモート/週5/Python】数十億件のデータを収集・解析するデータアグリゲーションSaaSのバックエンド開発および分散クローラ基盤構築

お任せしたいこと

[役割]バックエンドエンジニアとして、国内外の数万のWebサイトから毎日数十億件のデータを収集し、顧客(金融機関やマーケティング企業など)に価値あるインサイトとして提供する「データアグリゲーションSaaS」のPython(FastAPI)を用いたAPI開発、および大規模な分散クローリング基盤の構築をお任せします。
[役割に対して求める成果]ターゲットサイトの仕様変更やアクセス制限(IPブロック等)に柔軟に対応し、データの欠損や取得遅延を起こさない堅牢なデータ収集パイプラインを運用すること。また、CeleryやRedisを活用した分散タスク処理のパフォーマンスチューニングを行い、膨大な非構造化データを高速かつ正確に構造化してデータベース(PostgreSQL / Elasticsearch)へ格納するスケーラブルなアーキテクチャを実現すること。

具体的な業務内容

・Python(FastAPI)を用いた、収集データを顧客へ提供するための高スループットなWeb APIの詳細設計、実装、テスト
・Scrapy、BeautifulSoup、Selenium/Playwright等を駆使した、複雑な動的サイトに対するクローラ・スクレイパーの開発および保守
・CeleryとRedis(またはRabbitMQ)を利用した、数万個のクローリングジョブを並列処理する分散タスクキューの設計とリトライ制御の実装
・プロキシサーバーのローテーション、リクエストレートの制御、およびターゲットサイトに負荷をかけない(Politeness)スクレイピングの高度な運用設計
・取得した膨大な非構造化データに対する、Pandas等を用いたデータクレンジングおよび正規化パイプラインの構築
・数十億レコードを扱うPostgreSQLのパーティショニング設計、およびElasticsearchを利用した超高速なフルテキスト検索エンジンのチューニング
・レガシーなPythonスクリプト(単一サーバーで動くCronジョブ等)の解きほぐしと、保守性の高いマイクロサービス・コンテナアーキテクチャへの移行
・Datadog等を利用した、クローラーの成功率低下やAPIのエラーレート上昇を即座に検知する監視体制の構築

必須スキル・経験

・Pythonを用いたWebアプリケーション、またはデータ処理システムの実務開発経験(3年以上)
・FastAPI、Django、Flask等のWebフレームワークを用いたAPI開発経験(2年以上)
・RDBMS(PostgreSQL, MySQL等)を用いたデータベース設計、および複雑なSQLの記述経験
・Git/GitHubを用いたプルリクエストベースでのチーム開発経験

歓迎スキル・経験

・Scrapy等のフレームワークを用いた大規模なクローラー、スクレイパーの開発・運用経験
・Celery等を利用した非同期処理、分散タスクキューの設計・運用経験
・Elasticsearch等の検索エンジンを利用したインデックス設計・チューニング経験
・Pandas等を用いたデータ前処理、データクレンジングの実務経験
・AWS(ECS, RDS, SQS等)、またはGCPを利用したクラウドインフラ環境での開発経験
・Docker、Kubernetesを用いたコンテナオーケストレーション環境の基礎知識
・pytest等を用いたテストコードの記述、およびCI/CDパイプラインの構築経験

開発・業務環境

開発言語:Python 3.11以降
フレームワーク・ライブラリ:FastAPI, Scrapy, Celery, Pandas, SQLAlchemy
データベース・KVS:PostgreSQL, Elasticsearch, Redis
インフラ:AWS (ECS, RDS, SQS, S3等), Docker
テスト・CI/CD:pytest, GitHub Actions
監視・ツール:Datadog, GitHub, Jira, Slack

プロジェクトチームについて

データ基盤開発部のバックエンドチームへの配属となります。「データこそがビジネスの源泉である」という強い信念を持ち、データの網羅性と正確性を何よりも重んじるカルチャーです。ターゲットサイトの予期せぬDOM変更やBot対策に対して「仕方ない」と諦めるのではなく、パズルのように解決策を探求し、いかにシステムを止めることなく自動修復・検知できるかという技術的な議論が日常的に行われています。

求める人物像

・Webサイトの裏側の仕組み(HTTPリクエスト、ヘッダー、セッション管理、DOMツリー等)を読み解き、泥臭くデータを抽出することに知的な面白みを感じる方
・「とりあえず動くスクリプト」を書くのではなく、オブジェクト指向やクリーンアーキテクチャに基づいた、再利用可能でテスト容易なPythonコードを書くことにこだわりを持てる方
・収集したデータが顧客のビジネス課題をどう解決するのかを想像し、PdMやデータサイエンティストと建設的な仕様のすり合わせができる方

仕事の魅力

世の中に散らばるカオスなデータを収集・整理し、価値ある情報へと変換するデータエンジニアリングの最前線に立つことができます。Pythonの強みであるデータ処理のエコシステムをフル活用し、「超大規模な分散タスクキューの設計」「高速なAPI開発」「Elasticsearchの高度なチューニング」といった実践的な課題に取り組むことで、高トラフィック・大容量データを捌くトップクラスのバックエンドエンジニアとして市場価値を高めることができます。

働き方

リモート環境

[フルリモート] 基本的にフルリモートで働いていただけます。


SNSでこの案件をシェア

株式会社Kaizen Tech Agent

株式会社Kaizen Tech Agent

株式会社Kaizen Tech Agentは、「人と技術をつなぐ」ことを企業理念に掲げ、日々向上していく『技術』と『人』を最適な形でむつび付け提供することで、
お客様にとって真にプラスとなる価値でありたいと考えております。
私たちはそれぞれの個性を尊重し、ほっとする和みの社風でありながら、変化する時代に対して受け身にならず、未来への挑戦心を宿しています。
事業領域は、WEBアプリ開発、業務システム開発、スマホアプリ開発、インフラ構築など幅広く展開しており、
フリーランス様に対して最適な案件をご提案させて頂いております。どんな些細な事でも結構ですので是非いつでもお気軽にご相談ください。

案件を公開しました

案件をシェアしませんか?(SNSシェアをすることで、求職者の応募数アップが期待できます。)

案件を公開しました

この案件は限定公開です。案件のURLを知っている人のみが案件情報を見ることができます。

応募が完了しました

アピールしたいポイントがあれば積極的にメッセージを送ってみましょう。