구현 요약
- DDSP-SVC 모델을 통해 사용자가 등록한 오디오 파일을 3초 단위로 잘라 15000 epoch로 목소리 학습
- 생성한 상황 별 TTS 오디오 파일에 학습된 목소리를 입력 받은 성별에 맞춰 VC(목소리 변환) 진행
시도해 본 모델
STT
- kospeech
- espnet
- espnet-asr
TTS
- SCE-TTS
- Tacotron2
- Tacotron-Wavenet-Korean-TTS
- KoreanTTS
- fastspeech2
- tensorspeech/tts-tacotron2-kss-ko
- coqui-ai/TTS
- ParallelWaveGAN
- VALL-E-Korean
- YourTTS
- Bark