Qwen3-TTS 로컬 음성클로닝 가이드

출처: https://www.threads.com/@tofukyung/post/DT4PYCvAq3U

핵심 요약

Qwen3-TTS: 알리바바의 최신 TTS 모델, 로컬에서 무료 음성 클로닝 가능
10~30초 음성 샘플만으로 목소리 복제
다국어 지원 (한국어, 영어, 중국어, 일본어 등)

설치 방법

conda create -n qwen3tts python=3.10
pip install qwen3-tts
모델 다운로드: huggingface-cli download Qwen/Qwen3-TTS

사용 방법

참조 음성 준비: 10~30초 분량의 깨끗한 음성 파일 (.wav, .mp3)
텍스트 입력: 원하는 문장 작성
음성 생성: qwen3tts.synthesize(text, reference_audio) 실행

주요 특징

제로샷 음성 클로닝: 사전 학습 없이 즉시 사용
감정 조절 가능: 톤, 속도, 감정 파라미터 조정
실시간 생성: GPU 환경에서 빠른 처리
오픈소스: 완전 무료, 로컬 실행 가능