로봇처럼 들리는 텍스트-투-스피치 음성에 실망한 적 있으신가요? 아니면 제한된 커스터마이징에 구독료를 지불하는 클라우드 기반 TTS 서비스에 지치셨나요? 저도 그랬습니다. 그러다 Dia-1.6B를 발견했죠 — 텍스트-투-스피치 기술의 가능성을 재정의하는 혁신적인 오픈소스 모델입니다.
처음 Dia-1.6B가 생성한 오디오 샘플을 들었을 때, 기계가 만든 것이라고 믿기 어려웠습니다. 자연스러운 멈춤, 감정의 억양, 심지어 웃음이나 목을 가다듬는 비언어적 신호까지 진짜 사람처럼 들렸습니다. 간단한 내레이션부터 복잡한 다중 인물 대화까지 다양한 스크립트로 일주일간 테스트한 결과, 오늘날 이용 가능한 가장 인상적인 오픈소스 TTS 솔루션 중 하나임을 확신하게 되었습니다.
약 2 분