语音交互

通过语音与 AI 员工沟通——语音识别和语音合成。

概述

OpenVort 支持语音交互,让你可以发送语音消息与 AI 员工沟通,AI 也可以用语音回复。底层依赖 ASR(语音识别)和 TTS(语音合成)服务。

核心能力

ASR — 语音转文字

当你通过 IM 平台发送语音消息时,OpenVort 自动将语音转写为文字,然后交给 AI 员工处理。你不需要做任何额外操作——直接发语音就行。

TTS — 文字转语音

AI 员工可以将回复转换为语音消息发送。每个 IM 通道都配备了 send_voice 工具:

工具名 说明
wecom_send_voice 通过企微发送语音消息
dingtalk_send_voice 通过钉钉发送语音消息
feishu_send_voice 通过飞书发送语音消息

支持的服务商

服务商 ASR TTS 说明
阿里云 DashScope 支持 支持 当前默认服务商

后续会持续接入更多服务商。

配置方式

  1. 进入 Web 管理面板 → 语音服务商管理
  2. 添加服务商(选择类型、填入 API Key)
  3. 保存后即可使用

IM 平台语音支持

IM 平台 接收语音消息 自动 ASR 转写 AI 语音回复
企微 支持 支持 支持
钉钉 支持 支持 支持
飞书 支持 支持 支持
Web 面板 不支持

使用场景

  • 移动端语音指令 — 出门在外用手机语音给 AI 员工布置任务
  • 快速沟通 — 不方便打字时直接发语音
  • 多语言 — 支持多语言语音识别