TTS 기능 구현을 위해 fastspeech2와 StarGAN-VC2, 두 모델의 사용을 구상하고 있는데, 두 모델이 올라와있는 github 상의 설명을 따라 가는 과정에서 여러 에러가 발생합니다.
zero-shot learning 방식을 사용해서 학습시킨 모델로 텍스트를 오디오 파일로 만들면 등록한 파일 속 목소리로 읽어주는 voice conversion을 구현하고자 합니다. 구현에 텍스트를 오디오 파일로 변환해주는 모델과, 등록한 파일의 화자의 목소리를 입히는 모델이 필요한데 어떤 모델로 구현하는 것이 좋은지 궁금합니다.

학습을 위해서는 모든 오디오 파일을 wav 확장자로 변경을 해야 하는데, 로컬에서 AudioSegment를 통해 등록된 파일을 wav 파일로 변경 시, 변경 파일을 로컬에 저장한 뒤에 다시 사용할 수 있었는데, 서버로 올라가서 해당 작업을 할 때 파일 확장자를 변경할 때 마다 db에 저장한 뒤에 사용해야 하는지 궁금합니다.
이전 프로젝트에서는 백엔드 프레임 워크 한 개, 프론트엔드 프레임 워크 한 개만 있으며, 서로 간의 통신만 있었는데, 현재 저희가 개발하는 서비스에서는 여기에 ai 서버가 하나 더 추가되어 벡엔드 프레임워크와 ai 서버 간의 통신이 필요한데 어떻게 서로 간의 통신을 주고 받을 수 있는지 방법이 궁금합니다.
전 기수의 팀 중에서 ai 음성 관련해서 저희가 구현하고자 하는 서비스와 유사한 기능을 구현한 팀이 있다면 해당 팀이 사용한 모델이 궁금합니다.
향후에 저희가 할 수 있는 모든 모델을 시도했지만 여러 가지 이유로 모델이 정상 작동 하지 않는다면(결과물 자체가 나오지 않는 상황일 때), 음성 파일 등록 시 해당 목소리로 정해진 문장을 읽어주는 TTS api에는 어떤 것이 있으며, 해당 api는 파이썬 서버가 아닌 spring에서도 사용 가능한가요?
웹 브라우저에서 vpn 서버에 로그인 후에 vpn이 실행되어야 vpn을 킨 윈도우에서만 gpu 서버로 접속이 가능한데, 이를 도커로 이미지 생성이 가능한가요