音频 语音
FunAudioLLM克隆声音

阿里推出的声音克隆,语音生文字功能

广告也精彩
广告也精彩

1、简介

FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目,包含SenseVoice和CosyVoice两个模型SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言,特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成,能够控制音色和情感,支持中英日粤韩五种语言。funAudioLLM适用于多语言翻译、情绪语音对话等场景。相关模型和代码已在Modelscope和Huggingface平台开源。

2、FunAudioLLM的主要功能

  • SenseVoice模型:
    – 专注于多语言的高精度语音识别。
    – 支持超过50种语言,特别是在中文和粤语上识别效果优于现有模型。
    – 具备情感识别功能,能够辨识多种人机交互事件。
    – 提供轻量级和大型两个版本,适应不同应用场景。
  • CosyVoice模型
    – 专注于自然语音生成,支持多语言、音色和情感控制。
    – 能够根据少量原始音频快速生成模拟音色,包括韵律和情感细节。
    – 支持跨语种语音生成和细粒度的情感控制。

3、与ChaTTTS相比

  • SenseVoice有声音克隆,ChaTTTS没有声音克隆;
  • SenseVoice虽然有声音克隆,但是不能固定音色,每次都要重新训练;
  • ChaTTTS虽然没有声音克隆,但是可以根据音色种子号固定音色,每次不用重新训练

4、下面是B站up“玄离199”的演示视频

 

5、下面是B站up“Jack-Cui”的使用教学视频


CosyVoice

GitHub开源地址:https://github.com/FunAudioLLM/CosyVoice

魔搭社区体验地址:https://www.modelscope.cn/studios/iic/CosyVoice-300M

SenseVoice

GitHub开源地址:https://github.com/FunAudioLLM/SenseVoice

魔搭社区体验地址:https://www.modelscope.cn/models/iic/SenseVoiceSmall

相关导航

广告也精彩

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...