创建转录
POST
/v1/audio/transcriptions将音频文件转录为文本,支持可选的语言检测。
认证
Authorization Bearer
在 Authorization 请求头中使用 API Key 作为 Bearer Token。
Request Body
filefile未提供 file_url 时必填上传的音频文件。支持 mp3、wav、m4a、flac、webm。
file_urlstring未提供 file 时必填音频文件 URL,可替代 file 上传。
modelstringrequired语音转文本模型 ID。
Example: "glm-asr-2512"
languagestring识别语言代码。
Example: "zh"
promptstring用于引导识别的提示文本。
response_formatenum<string>default:json响应格式。
Available options: json text verbose_json srt vtt
temperaturenumber采样温度,范围 0 到 1。
timestamp_granularities[]enum<string>[]时间戳粒度。需要 response_format=verbose_json。
Available options: word segment
extra_bodyobject供应商扩展字段,例如 hotwords、request_id、user_id。
*
file和file_url二者中仅需提供其一。
Response
textstring转录文本。
modelstring使用的模型 ID。
languagestring检测到的语言代码。verbose_json 格式返回。
durationnumber音频时长,单位秒。verbose_json 格式返回。
taskstring转录任务类型。verbose_json 格式返回。
segmentsobject[]带时间戳的片段。verbose_json 格式返回。
segments.idinteger片段 ID。
segments.startnumber片段开始时间,单位秒。
segments.endnumber片段结束时间,单位秒。
segments.textstring片段文本。
utterancesobject[]逐句详细信息。所选模型支持时返回。
此页面对您有帮助吗?
上一篇
删除图片
下一篇
提交视频生成请求