AI 기반으로 텍스트에서 오디오를 생성하는 일레븐랩스(Elevenlabs)에 관해 알아보겠습니다. 보통 이런 기능을 텍스트 투 스피치(Text to Speech, TTS)라고 말합니다. 자신의 목소리를 기반으로 음성을 생성할 수 있고, 아예 새로운 음성을 생성할 수도 있습니다. 지금부터 AI 음성 생성 플랫폼 일레븐랩스의 사용법을 알아보겠습니다.
사용 방법 (본인 목소리와 Description 합성)
사이트 방문 및 가입
다음 링크로 일레븐랩스 사이트에 방문합니다. 우측 상단의 Sign up with Google을 클릭합니다. 이제 구글 계정으로 일레븐랩스에 가입이 완료되었습니다.
구독 및 요금제 가입
먼저 제 목소리를 기반으로 음성을 생성하겠습니다. 가입 후 처음으로 보는 화면 우측에서 Add voice를 누릅니다.
다음으로 Add Generative or cloned voice를 클릭합니다.
다음 팝업창에서 Instant Voice Cloning을 클릭합니다. Instant Voice Cloning 항목은 깨끗하게 녹음된 음성 샘플로부터 음성을 합성하는 항목입니다. 주변 소음 없이 녹음 된, 최소 1분 이상의 음성 파일이 필요합니다.
다만 이 기능을 활용하려면 Starter 이상의 유료 요금제에 가입해야 합니다. 또한 상업적인 사용 역시 Starter부터 가능합니다. 첫 달은 1달러로 Starter 등급을 이용할 수 있습니다. Starter 요금제에 가입하겠습니다. 요금제에 관한 설명은 포스팅의 마지막 부분에 다시 작성하겠습니다.
첫 달 이후 결제 취소는 메인 화면 우측 상단의 본인 아이디를 누르고, Subscription 항목을 클릭합니다. 다음 요금제 화면에서 Cancel Subscription을 클릭합니다. 현재 결제된 기간까지 사용 후 구독이 취소됩니다.
음성 녹음 및 업로드
이제 음성을 녹음하겠습니다. 노트북에 마이크가 달려 있다면, 노트북을 이용합니다. 데스크톱을 사용하고 마이크가 없다면, 스마트폰의 녹음 기능을 이용합니다. 이제 음성 파일을 컴퓨터로 이동합니다. 케이블 인식에 문제가 있다면 네이버 킵을 이용하시길 바랍니다.
다음으로 주 메뉴의 VoiceLab – Add Generative or cloned voice – Instant Voice Cloning을 선택하면 팝업 창이 나타납니다. 녹음한 음성을 업로드하고, 합성할 음성의 제목을 정합니다. A voice for Youtube shorts라고 적겠습니다.
다음으로 Description 항목에 내용을 넣어야 합니다. 일종의 AI 프롬프트라고 생각하시면 됩니다. 저는 ‘저음의 깊은 40대 남성 목소리, 뉴스나 다큐멘터리 내레이션을 위한 목소리’라고 하겠습니다. DeepL 사이트를 이용하여 번역합니다. 번역 결과는 ‘Low, deep, 40-something male voice for news or documentary narration’입니다. 책임 확인에 표시하고 Add voice 버튼을 누릅니다.
음성 생성(Text-to-Speech)
이제 VoiceLab 항목에서 새로운 보이스를 생성하였습니다. 본인의 목소리에 Description을 합성한 AI 목소리입니다. Use를 클릭하여 들어갑니다.
Text-to-speech, 합성 음성의 이름이 선택되었는지 확인합니다. Voice settings는 건드리지 않겠습니다. 기본적으로 AI 모델인 Eleven Multilingual V2가 선택되어 있습니다. 텍스트를 작성하고 Generate를 누릅니다. 다시 재생 및 다운로드가 가능합니다.
한글 텍스트와 영문 텍스트를 기반으로 음성을 생성했습니다.
정리
본인의 목소리와 Description을 통해 새로운 음성을 합성했습니다. 기본적으로 29개 언어를 지원하기 때문에, 외국어로 음성을 녹음할 필요가 없습니다. 다음 포스팅에서는 사이트에 내장된 음성(프리셋) 및 프리셋에 오디오 파일을 합성하여 음성 생성, 이렇게 두 가지를 알아보겠습니다. 그리고 요금제를 설명하겠습니다.
일레븐랩스(ElevenLabs)의 사용법: 기본 음성과 음성 합성 활용