전문가 질문 사항

  1. TTS 기능 구현을 위해 fastspeech2와 StarGAN-VC2, 두 모델의 사용을 구상하고 있는데, 두 모델이 올라와있는 github 상의 설명을 따라 가는 과정에서 여러 에러가 발생합니다.

    1. 우분투로 리눅스 환경을 실행해 라이브러리를 설치하는 과정에서 gcc not found 에러가 발생해 해결하려고 했으나 NSGClient 종속성 문제가 발생으로 해결이 되지 않습니다. 우분투 22.04.3 버전에서 NSGClient 문제 해결하는 방법이 궁금합니다.
    2. readme에 나와있는 파이썬 버전으로 가상 환경 설정 후, 라이브러리를 설치해도 라이브러리가 설치되지 않는 에러가 발생합니다.
  2. zero-shot learning 방식을 사용해서 학습시킨 모델로 텍스트를 오디오 파일로 만들면 등록한 파일 속 목소리로 읽어주는 voice conversion을 구현하고자 합니다. 구현에 텍스트를 오디오 파일로 변환해주는 모델과, 등록한 파일의 화자의 목소리를 입히는 모델이 필요한데 어떤 모델로 구현하는 것이 좋은지 궁금합니다.

    Untitled

  3. 학습을 위해서는 모든 오디오 파일을 wav 확장자로 변경을 해야 하는데, 로컬에서 AudioSegment를 통해 등록된 파일을 wav 파일로 변경 시, 변경 파일을 로컬에 저장한 뒤에 다시 사용할 수 있었는데, 서버로 올라가서 해당 작업을 할 때 파일 확장자를 변경할 때 마다 db에 저장한 뒤에 사용해야 하는지 궁금합니다.

  4. 이전 프로젝트에서는 백엔드 프레임 워크 한 개, 프론트엔드 프레임 워크 한 개만 있으며, 서로 간의 통신만 있었는데, 현재 저희가 개발하는 서비스에서는 여기에 ai 서버가 하나 더 추가되어 벡엔드 프레임워크와 ai 서버 간의 통신이 필요한데 어떻게 서로 간의 통신을 주고 받을 수 있는지 방법이 궁금합니다.

    1. ssafy에서 지원해준 gpu 서버로 접속 시 jupyter lab으로 사이트가 접속이 되는데 벡엔드와의 통신을 위해 해당 사이트 내에 django나 flask 같은 프레임 워크를 설치해서 사용해야 벡엔드와 통신이 가능한건가요
  5. 전 기수의 팀 중에서 ai 음성 관련해서 저희가 구현하고자 하는 서비스와 유사한 기능을 구현한 팀이 있다면 해당 팀이 사용한 모델이 궁금합니다.

  6. 향후에 저희가 할 수 있는 모든 모델을 시도했지만 여러 가지 이유로 모델이 정상 작동 하지 않는다면(결과물 자체가 나오지 않는 상황일 때), 음성 파일 등록 시 해당 목소리로 정해진 문장을 읽어주는 TTS api에는 어떤 것이 있으며, 해당 api는 파이썬 서버가 아닌 spring에서도 사용 가능한가요?

  7. 웹 브라우저에서 vpn 서버에 로그인 후에 vpn이 실행되어야 vpn을 킨 윈도우에서만 gpu 서버로 접속이 가능한데, 이를 도커로 이미지 생성이 가능한가요

    1. 주피터 로그인 후 세션 타임이 24시간으로 설정되어 있어 주피터 터미널에서 nohup이나 tmux로 background 방식으로 실행해도 타임 아웃 시간에 프로세스가 종료된다고 하는데 그럼 서비스가 24시간 유지되기 위해서는 저희가 세션이 종료되면 수동으로 다시 로그인하는 과정으로만 다시 세션을 킬 수 있나요

    질문