摩尔线程开源音频了解大模型MooER：38小时练习5000小时数据_ob官方网站入口/XO

　　快科技8月23日音讯，摩尔线程官方宣告，音频了解大模型MooER（摩耳）现已正式开源，并发布在GitHub上：

　　现在开源的内容有推理代码，以及5000小时数据练习的模型，后续还将开源练习代码，以及根据8万小时数据练习的模型。

　　MooER是业界首个根据国产全功能GPU进行练习和推理的大型开源语音模型，依托摩尔线程的夸娥（KUAE）智算渠道，并得益于自研的立异算法和高效核算资源的结合，仅用38个小时，就完成了5000小时音频数据和伪标签的练习。

　　MooER不只支撑中文和英文的语音辨认，还具有中译英的语音翻译才能，并在多个语音辨认范畴的测验会集，展示出了抢先或至少相等的优异体现。

　　音频Embedding和文本的Prompt Embedding拼接后，再送进LLM进行对应的下流使命，如语音辨认（ASR）、语音翻译（AST）等。

　　在模型练习阶段，交融了语音模态和文本模态的数据会按以下方式输入到LLM：

　　练习过程中，Encoder一直固定参数，Adapter和LLM会参加练习和梯度更新。

　　运用自研的夸娥智算渠道，摩尔线程运用DeepSpeed结构和Zero2战略，根据BF16精度进行练习和推理。

　　为了提高练习功率，摩尔线程选用了LoRA技能，仅更新2%的LLM参数。详细的模型参数规划如下：

　　该模型的练习数据MT5K（MT 5000h）由部分开源数据和内部数据构成，内部数据的语音辨认标签均是由第三方云服务得到的伪标签。

　　语音辨认的伪标签通过一个文本翻译模型后，得到语音翻译的伪标签，且没有对这些伪标签数据做任何的人工挑选。

　　比照成果为，开源模型MooER-5K在六个中文测验集上的CER（字错误率）抵达4.21%，在六个英文测验集的WER（词错误率）为17.98%，与其它开源模型比较，作用更优或简直相等。

　　特别是在Covost2 zh2en中译英测验集上，MooER的BLEU分数抵达了25.2，明显优于其他开源模型，获得了可与工业水平相媲美的作用。

　　根据内部8万小时数据练习的MooER-80k模型，在上述中文测验集上的CER抵达了3.50%，在英文测验集上的WER抵达了12.66%。

　　与此同时，摩尔线程还得到一些风趣的定论，可认为数据资源和核算资源有限的开发者供给一些主张：

　　选用无监督练习得到的Encoder有必要参加到练习过程中，不然模型很难收敛。

　　归纳考虑模型作用、参数量以及练习和推理的功率，挑选Paraformer作为Encoder。

　　测验运用240ms、180ms和120ms的粒度进行建模，并发现这一参数对音频与文本的交融作用具有极端严重影响，同时会影响模型的终究作用和练习的收敛速度。

　　仅运用了140h~150h的英文数据来进行练习，能够在6个不同来历的英文的测验集上获得必定作用。

　　在模型练习过程中选用LoRA技能对LLM参数进行更新，能够使练习更快收敛，而且终究获得更好的作用。

摩尔线程开源音频了解大模型MooER：38小时练习5000小时数据
来源：ob官方网站入口/XO 发布时间：2024-10-29 09:54:28