将批量上传的音频文件识别为文字,12小时内返回识别结果。适合录音质检、会议内容总结、音频内容分析等场景
基于Deep Peak2端到端建模,多采样率多场景声学建模,近场中文普通话识别准确率达98%
将大量录音批量上传,通过语音识别引擎精准、快速的转为文字,12小时内返回识别结果
识别返回的文字结果带有时间戳,展示VAD切分句子开始和结束时间,方便进行功能开发
支持普通话和略带口音的中文识别,支持英文识别
将会议、访谈的长时间录音批量识别为文字,通过静音识别自动将有语音部分进行切分,提升识别效率,便于进行内容记录、总结,提升音频内容记录效率