VibeVoice-ASR是一款统一的语音转文字模型,旨在一次性处理时长60分钟的长音频,生成包含说话者(Who)、时间(When)和内容(What)的结构化转录文本,支持自定义热词和50多种语言。

型号:VibeVoice-ASR-7B
演示:VibeVoice-ASR-演示
报告:VibeVoice-ASR-报告
微调:微调指南
vLLM:vLLM-asr

🔥 主要特点
🕒 60分钟单次处理:与传统的ASR模型将音频分割成短片段(往往会丢失全局上下文)不同,VibeVoice ASR可在64K标记长度内接受长达60分钟的连续音频输入。这确保了整个小时内说话人跟踪的一致性和语义连贯性。

👤 自定义热词:用户可以提供自定义热词(例如,特定名称、技术术语或背景信息)来指导识别过程,从而显著提高特定领域内容的准确性。

📝 丰富转录(谁,何时,何事):该模型联合执行自动语音识别(ASR)、对话分离和打时间戳,生成结构化输出,表明谁在何时说了什么。

🌍 多语言与语码转换支持:该系统支持超过50种语言,无需进行明确的语言设置,并能原生处理话语内和话语间的语码转换。

GitHub地址:https://github.com/microsoft/VibeVoice

声明:本站内容均收集于互联网,如不慎侵犯到您的版权利益,请附带相关证明文件来信本站将立即予以下架删除。