ob官方网站入口/XO
zxzx

摩尔线程开源音频了解大模型MooER:38小时练习5000小时数据
来源:ob官方网站入口/XO    发布时间:2024-10-29 09:54:28

  快科技8月23日音讯,摩尔线程官方宣告,音频了解大模型MooER(摩耳)现已正式开源,并发布在GitHub上:

  现在开源的内容有推理代码,以及5000小时数据练习的模型,后续还将开源练习代码,以及根据8万小时数据练习的模型。

  MooER是业界首个根据国产全功能GPU进行练习和推理的大型开源语音模型,依托摩尔线程的夸娥(KUAE)智算渠道,并得益于自研的立异算法和高效核算资源的结合,仅用38个小时,就完成了5000小时音频数据和伪标签的练习。

  MooER不只支撑中文和英文的语音辨认,还具有中译英的语音翻译才能,并在多个语音辨认范畴的测验会集,展示出了抢先或至少相等的优异体现。

  音频Embedding和文本的Prompt Embedding拼接后,再送进LLM进行对应的下流使命,如语音辨认(ASR)、语音翻译(AST)等。

  在模型练习阶段,交融了语音模态和文本模态的数据会按以下方式输入到LLM:

  练习过程中,Encoder一直固定参数,Adapter和LLM会参加练习和梯度更新。

  运用自研的夸娥智算渠道,摩尔线程运用DeepSpeed结构和Zero2战略,根据BF16精度进行练习和推理。

  为了提高练习功率,摩尔线程选用了LoRA技能,仅更新2%的LLM参数。详细的模型参数规划如下:

  该模型的练习数据MT5K(MT 5000h)由部分开源数据和内部数据构成,内部数据的语音辨认标签均是由第三方云服务得到的伪标签。

  语音辨认的伪标签通过一个文本翻译模型后,得到语音翻译的伪标签,且没有对这些伪标签数据做任何的人工挑选。

  比照成果为,开源模型MooER-5K在六个中文测验集上的CER(字错误率)抵达4.21%,在六个英文测验集的WER(词错误率)为17.98%,与其它开源模型比较,作用更优或简直相等。

  特别是在Covost2 zh2en中译英测验集上,MooER的BLEU分数抵达了25.2,明显优于其他开源模型,获得了可与工业水平相媲美的作用。

  根据内部8万小时数据练习的MooER-80k模型,在上述中文测验集上的CER抵达了3.50%,在英文测验集上的WER抵达了12.66%。

  与此同时,摩尔线程还得到一些风趣的定论,可认为数据资源和核算资源有限的开发者供给一些主张:

  选用无监督练习得到的Encoder有必要参加到练习过程中,不然模型很难收敛。

  归纳考虑模型作用、参数量以及练习和推理的功率,挑选Paraformer作为Encoder。

  测验运用240ms、180ms和120ms的粒度进行建模,并发现这一参数对音频与文本的交融作用具有极端严重影响,同时会影响模型的终究作用和练习的收敛速度。

  仅运用了140h~150h的英文数据来进行练习,能够在6个不同来历的英文的测验集上获得必定作用。

  在模型练习过程中选用LoRA技能对LLM参数进行更新,能够使练习更快收敛,而且终究获得更好的作用。

上一篇:美股收盘涨跌不一 英伟达再创历史新高

 关于我们

 OB官方网站

 资质荣誉

 联系我们

 网站地图