Text-to-Speech with Timestamp

Time	Status	User Agent
Retrieving recent requests…

Time

Status

User Agent

Retrieving recent requests…

음성데이타 응답

Segmentation API의 음성데이타는 base64 인코딩된 값을 리턴하며, 아래와 같이 디코딩하여 사용한다.

data = response.json()

audio_b64 = data['audio']
audio = base64.b64decode(audio_b64)

Timestamp 응답

Segmentation API는 음성데이타와 함께 아래와 같이 입력 텍스트에 대한 Token list와 해당 Token의 시작/끝 시간(second) 정보를 리턴한다.

data['segmentaion'] = {
	"token_seq": ["_", "음", "성", "합", "성", "_", "테", "스", "트", "입", "니", "다", "."],
	"start_time_seq": [0, 0.06, 0.2, 0.36, 0.5, 0.68, 0.76, 0.84, 0.96, 1.04, 1.18, 1.3, 1.56],
	"end_time_seq": [0.06, 0.2, 0.36, 0.48, 0.66, 0.76, 0.84, 0.96, 1.04, 1.18, 1.3, 1.6, 2.04]
}

음성데이타 응답

Timestamp 응답

200200

400400