快科技8月23日音讯,摩尔线程官方宣告,音频了解大模型MooER(摩耳)现已正式开源,并发布在GitHub上:
现在开源的内容有推理代码,以及5000小时数据练习的模型,后续还将开源练习代码,以及根据8万小时数据练习的模型。
MooER是业界首个根据国产全功能GPU进行练习和推理的大型开源语音模型,依托摩尔线程的夸娥(KUAE)智算渠道,并得益于自研的立异算法和高效核算资源的结合,仅用38个小时,就完成了5000小时音频数据和伪标签的练习。
MooER不只支撑中文和英文的语音辨认,还具有中译英的语音翻译才能,并在多个语音辨认范畴的测验会集,展示出了抢先或至少相等的优异体现。
音频Embedding和文本的Prompt Embedding拼接后,再送进LLM进行对应的下流使命,如语音辨认(ASR)、语音翻译(AST)等。
在模型练习阶段,交融了语音模态和文本模态的数据会按以下方式输入到LLM:
练习过程中,Encoder一直固定参数,Adapter和LLM会参加练习和梯度更新。
运用自研的夸娥智算渠道,摩尔线程运用DeepSpeed结构和Zero2战略,根据BF16精度进行练习和推理。
为了提高练习功率,摩尔线程选用了LoRA技能,仅更新2%的LLM参数。详细的模型参数规划如下:
该模型的练习数据MT5K(MT 5000h)由部分开源数据和内部数据构成,内部数据的语音辨认标签均是由第三方云服务得到的伪标签。
语音辨认的伪标签通过一个文本翻译模型后,得到语音翻译的伪标签,且没有对这些伪标签数据做任何的人工挑选。
比照成果为,开源模型MooER-5K在六个中文测验集上的CER(字错误率)抵达4.21%,在六个英文测验集的WER(词错误率)为17.98%,与其它开源模型比较,作用更优或简直相等。
特别是在Covost2 zh2en中译英测验集上,MooER的BLEU分数抵达了25.2,明显优于其他开源模型,获得了可与工业水平相媲美的作用。
根据内部8万小时数据练习的MooER-80k模型,在上述中文测验集上的CER抵达了3.50%,在英文测验集上的WER抵达了12.66%。
与此同时,摩尔线程还得到一些风趣的定论,可认为数据资源和核算资源有限的开发者供给一些主张:
选用无监督练习得到的Encoder有必要参加到练习过程中,不然模型很难收敛。
归纳考虑模型作用、参数量以及练习和推理的功率,挑选Paraformer作为Encoder。
测验运用240ms、180ms和120ms的粒度进行建模,并发现这一参数对音频与文本的交融作用具有极端严重影响,同时会影响模型的终究作用和练习的收敛速度。
仅运用了140h~150h的英文数据来进行练习,能够在6个不同来历的英文的测验集上获得必定作用。
在模型练习过程中选用LoRA技能对LLM参数进行更新,能够使练习更快收敛,而且终究获得更好的作用。