구현 요약

DDSP-SVC 모델을 통해 사용자가 등록한 오디오 파일을 3초 단위로 잘라 15000 epoch로 목소리 학습
생성한 상황 별 TTS 오디오 파일에 학습된 목소리를 입력 받은 성별에 맞춰 VC(목소리 변환) 진행

시도해 본 모델

STT

kospeech
espnet
espnet-asr

TTS

SCE-TTS
Tacotron2
Tacotron-Wavenet-Korean-TTS
KoreanTTS
fastspeech2
tensorspeech/tts-tacotron2-kss-ko
coqui-ai/TTS
ParallelWaveGAN
VALL-E-Korean
YourTTS
Bark