API Reference

Text-to-Speech with Timestamp

음성합성 + Timestamp API

음성데이타 응답

Segmentation API의 음성데이타는 base64 인코딩된 값을 리턴하며, 아래와 같이 디코딩하여 사용한다.

data = response.json()

audio_b64 = data['audio']
audio = base64.b64decode(audio_b64)

Timestamp 응답

Segmentation API는 음성데이타와 함께 아래와 같이 입력 텍스트에 대한 Token list와 해당 Token의 시작/끝 시간(second) 정보를 리턴한다.

data['segmentaion'] = {
	"token_seq": ["_", "음", "성", "합", "성", "_", "테", "스", "트", "입", "니", "다", "."],
	"start_time_seq": [0, 0.06, 0.2, 0.36, 0.5, 0.68, 0.76, 0.84, 0.96, 1.04, 1.18, 1.3, 1.56],
	"end_time_seq": [0.06, 0.2, 0.36, 0.48, 0.66, 0.76, 0.84, 0.96, 1.04, 1.18, 1.3, 1.6, 2.04]
}
Language
Click Try It! to start a request and see the response here!