Qwen3-TTS 로컬 음성클로닝 가이드
출처: https://www.threads.com/@tofukyung/post/DT4PYCvAq3U
핵심 요약
- Qwen3-TTS: 알리바바의 최신 TTS 모델, 로컬에서 무료 음성 클로닝 가능
- 10~30초 음성 샘플만으로 목소리 복제
- 다국어 지원 (한국어, 영어, 중국어, 일본어 등)
설치 방법
- conda create -n qwen3tts python=3.10
- pip install qwen3-tts
- 모델 다운로드: huggingface-cli download Qwen/Qwen3-TTS
사용 방법
-
참조 음성 준비: 10~30초 분량의 깨끗한 음성 파일 (.wav, .mp3)
-
텍스트 입력: 원하는 문장 작성
-
음성 생성: qwen3tts.synthesize(text, reference_audio) 실행
주요 특징
- 제로샷 음성 클로닝: 사전 학습 없이 즉시 사용
- 감정 조절 가능: 톤, 속도, 감정 파라미터 조정
- 실시간 생성: GPU 환경에서 빠른 처리
- 오픈소스: 완전 무료, 로컬 실행 가능