【Python/フルリモート】TTS音声合成モデル開発エンジニア募集案件

案件要件
- 職種
- エンジニア
- 業務内容
- SES
- 報酬目安
- 5,312 ~ 5,625円/時
- 稼働時間目安
- 週5日 (時間目安 160時間)
- はたらく場所
- フルリモート
- スキル
案件概要
担当業務
・TTS/音声合成モデルのFine-tuningおよび追加学習を行い、話者適応や感情・プロソディ制御、多言語対応などの高度なカスタマイズを実施していただきます。
・音声データセットの構築や前処理パイプラインの設計・実装、GPUを活用した推論最適化や推論基盤のチューニングを行っていただきます。
・また、REST APIやWebSocket、gRPCを用いた推論サービスの設計・実装および運用に携わっていただきます。
開発環境
・PyTorchを中心とした機械学習環境およびGPUを活用した推論基盤を使用し、vLLM、TensorRT-LLM、SGLang等のミドルウェアや各種監視・可観測性ツールを組み合わせて開発を行います。
求めるスキル
必須スキル
・TTS/音声合成モデルに関する知見
・Qwen-TTS、Orpheus、VITS、Fish-Speech等のTTSモデルのFine-tuning・追加学習の実務経験
・話者適応、感情/プロソディ制御、多言語対応などのカスタマイズ経験
・音声データセットの構築および音声/テキストアライメント等を含む前処理パイプラインの開発経験
・PyTorchでのモデル学習およびLoRA等の効率的Fine-tuning手法の実装経験
・GPU上での推論最適化(バッチング、KV cache管理、量子化、ストリーミング生成)の実務経験
・vLLM、TensorRT-LLM、SGLang等の推論基盤の選定・導入・最適化経験
・同時実行数(concurrency)のチューニングおよびレイテンシ(TTFS等)改善の実務経験
・CUDA最適化およびメモリ効率化に関する深い理解
・REST API、WebSocket、gRPC設計およびストリーミング音声配信の実装経験
・推論サービスのレプリカ構成、オートスケーリング、監視・可観測性基盤の構築経験
歓迎スキル
・音素タイムライン(phoneme timestamp)生成をTTSに統合した経験
・リアルタイム音声対話・AIアバターのリップシンク等の開発経験
・日本語および英語でのビジネスレベルのコミュニケーション能力
・音声AI領域におけるTTS/音声生成モデルの開発・運用経験
求める⼈物像
・独自データや事業領域に強い関心を持ち、新たな価値創造に貢献したいという強い意欲のある方を求めております。
・非常に困難な課題に対しても粘り強く研究開発を推進でき、自律的に行動し未知の領域にも積極的に挑戦できる方、チーム内外との円滑なコミュニケーションを通じてプロジェクトを推進できる方を歓迎いたします。
その他
精 算:140-180h(想定)
時 期:長期
場 所:フルリモート
サイト:月末締め翌月15日支払い(15日サイト)
株式会社ココナラテック
フリーランスITエンジニア向け案件・求人サイト
業界最大級の案件掲載実績があるフリーエンジニアのIT案件・求人サイト「ココナラテック」なら、初心者でもスキルアップできる案件から収入アップを狙える高単価案件まで多数あります。
