【フルリモート/週5】Pythonデータエンジニア(クローリング・データ収集基盤開発)

案件要件
- 職種
- エンジニア
- 業務内容
- SES
- 報酬目安
- 4,600 ~ 5,400円/時
- 稼働時間目安
- 週5日 (時間目安 160時間)
- はたらく場所
- フルリモート
- スキル
【フルリモート/週5】Pythonデータエンジニア(クローリング・データ収集基盤開発)
お任せしたいこと
自社サービス(価格比較、アグリゲーション、またはデータ分析サービス等)の根幹となるデータをWeb上から収集するための、Pythonを用いたクローラーの開発・運用保守をお任せします。
「一度作って終わり」ではなく、収集先のWebサイトの仕様変更(HTML構造の変更やDOMの更新)によって突然動かなくなるスクレイパーを素早く修復したり、相手先サーバーに負荷をかけないよう適切なリクエスト間隔を制御したりと、サービスの土台を支える泥臭くも非常に重要なデータ収集活動にチームで取り組んでいただきます。
具体的な業務内容
・Python(Scrapy, BeautifulSoup, Playwright等)を用いた、Webクローラーおよびスクレイピングプログラムの設計・開発
・収集先サイトのDOM変更や、JavaScriptによる非同期レンダリングに対するスクレイピングロジックの継続的な修正・保守
・相手先サイトへの負荷を考慮したレートリミット(リクエスト間隔)の制御、およびリトライ処理の実装
・プロキシサーバーのローテーションや、IPブロック・タイムアウト等の通信エラーに対する堅牢なエラーハンドリングの実装
・収集した泥臭いデータ(全角半角の混在、表記ゆれ、不要な改行など)のクレンジング処理、およびデータベース(MySQL等)への格納
・AWS(ECS, Lambda等)やGCPを用いた、分散クローリング環境の構築・運用
・クローラーの死活監視(エラー検知時のアラート設定)と、データ欠損時のリカバリ対応
必須スキル・経験
・Pythonを用いたシステム開発、またはバッチ処理の実務経験(目安として3年以上)
・Scrapy、BeautifulSoup、Requests等のライブラリを用いたWebスクレイピングの実務経験
・Webの基本的な仕組み(HTTPリクエスト/レスポンス、HTML、CSSセレクタ、DOM等)に関する深い理解
・RDBMSを用いた基本的なSQLの記述、およびデータ抽出・加工経験
・Git / GitHubを用いたプルリクエストベースでのチーム開発経験
歓迎スキル・経験
・Playwright、Selenium等を用いた、ヘッドレスブラウザによるスクレイピングの実務経験
・SPA(Single Page Application)や、隠しAPI(ネットワークタブから解析できる非公開API)からデータを取得した経験
・AWS、またはGCP環境でのバッチ処理・インフラ運用経験
・Apache Airflow等を用いたワークフロー管理の経験
・著作権法や利用規約、Webスクレイピングの倫理的なガイドラインに関する基礎的な知識
開発・業務環境
開発言語:Python 3.x
ライブラリ:Scrapy, BeautifulSoup4, Playwright (または Selenium), Requests, pandas
データベース:MySQL (または PostgreSQL)
インフラ:AWS (ECS, Lambda, EventBridge等) または GCP (Cloud Run, Cloud Scheduler等), Docker
監視・管理:Datadog (または Sentry), Slack
コミュニケーション・管理:GitHub, Jira, Backlog, Zoom
プロジェクトチームについて
データ収集・クローリング基盤チームへの配属となります。
「最新のAI技術を使う」ことよりも、「毎日決まった時間に、欠損なく正確なデータがDBに格納されていること」に最も価値を置く手堅いカルチャーです。相手先サイトの気まぐれな仕様変更によって金曜日の夕方にクローラーが落ちたとしても、文句を言うのではなく、「次はどうすればDOM変更に強い(壊れにくい)セレクタの指定ができるか」「どうすればアラートのノイズを減らせるか」を前向きに議論し、地道に改善を重ねています。
求める人物像
・複雑なHTML構造や、難解なJavaScriptでレンダリングされるサイトに対し、パズルを解くようにデータの取得方法を探るプロセスを楽しめる方
・「とりあえず動けばいい」と相手先サーバーに無配慮な大量リクエストを送るのではなく、礼儀正しいクローラーを設計できるバランス感覚を持った方
・エラーが起きた際に、場当たり的なコード修正で済ますのではなく、仕組みや監視体制から改善しようとする姿勢のある方
仕事の魅力
どれだけ高度なデータ分析やAIモデルも、「良質なデータ」がなければ機能しません。その最も上流工程である「データ収集」の最前線を担うポジションです。DOMの解析から非同期通信の裏側を暴くようなWebフロントエンドの深い知見と、エラーに強い分散バッチ処理を構築するバックエンドの知見を両立させながら、データエンジニアとして非常に需要が高く、かつ「職人芸」とも言える息の長い実務スキルを着実に磨くことができます。
働き方
リモート環境
[フルリモート] 基本的にフルリモートで働いていただけます(※毎日のクローリング結果を担保するため、バッチ処理のエラー検知時に調査等をお願いする場合がありますが、チーム内で持ち回り・負荷分散を行っています)。
株式会社Kaizen Tech Agent
株式会社Kaizen Tech Agentは、「人と技術をつなぐ」ことを企業理念に掲げ、日々向上していく『技術』と『人』を最適な形でむつび付け提供することで、
お客様にとって真にプラスとなる価値でありたいと考えております。
私たちはそれぞれの個性を尊重し、ほっとする和みの社風でありながら、変化する時代に対して受け身にならず、未来への挑戦心を宿しています。
事業領域は、WEBアプリ開発、業務システム開発、スマホアプリ開発、インフラ構築など幅広く展開しており、
フリーランス様に対して最適な案件をご提案させて頂いております。どんな些細な事でも結構ですので是非いつでもお気軽にご相談ください。
