• 首页 > 科技正文
  • 追一科技再推自然语言开源模型,RoFormerV2降低NLP应用门槛

  • 2022-05-09 12:27:03
  •   最近,追一科技发布了RoFormerV2模型,凭借追一独创的旋转位置编码技术(RoPE),全面超越了BERT、RoBERTa、Albert、Electra等当前的主流预训练模型。

      在权威的中文NLP测试榜单CLUE上,RoFormerV2以仅3亿的参数量,超过了若干10亿+参数量的模型进入榜单前5名(截止2022年3月21日),同时它也是榜上前5名中参数量最少的模型,基本实现了同一尺度下的模型最优解。

    图片1.jpg

      注:上图中第一名为人类水平,追一RoFormerV2 large参数量3亿,BERT参数量10亿,Mengzi参数量10亿,ShenZhou参数量100亿,SheenNonG参数量10亿

      革命性旋转位置编码技术(RoPE),广受业界认可

      RoFormerV2采用了追一独创的旋转位置编码(RoPE)技术,完全不同于主流的BERT、RoBERTa、Albert、Electra所使用的方法,这让RoFormerV2与这些模型在效果上拉开差距。

    图片2.jpg

    RoFormerV2与各模型的比较

      旋转位置编码(RoPE)技术是追一在2021年提出,利用向量之间的旋转角度来表示特征之间的相对关系,这一思路不同于此前所有的方法,知名的技术极客组织EleutherAI认为RoPE是“革命性”的,具有开创式意义。Google在今年提出的FLASH模型论文中则明确指出RoPE对模型的效果有明显的提升作用,并将其作为模型的默认方法。

    图片3.jpg

    EleutherAI关于RoPE的文章

    图片4.jpg

    Google FLASH论文中表明RoPE对效果有显著提升

      同时,RoPE还被用在了许多最新的模型当中,例如EleutherAI新发布的60亿和200亿参数的GPT模型中就用了RoPE位置编码。

      Google最近大火的5400亿参数的PaLM模型中也采用了追一的RoPE术,PaLM是一个支持多语种、多任务形式的超大型模型,它不仅可以理解人类语言,还可以理解机器代码。PaLM在上百个自然语言理解与自然语言生成任务上测试,并在大多数任务上取得了最优效果。这些最新方法都采用了RoPE的设计,进一步验证了它的优越性,使之有望成为预训练模型的标准方法。

    图片5.jpg

    PaLM的论文中表明RoPE的有效性

      这次的RoFormerV2除了使用了RoPE以外,在训练方式上还采用了多阶段预训练方式,在第一阶段中用大量的无监督语料进行训练;而在后续的阶段中则用了众多不同领域、不同任务形式的有标注数据进行监督式预训练。通过不同的阶段切换,让模型在大量数据上先对语言进行“广泛但粗浅地掌握”,再对语言进行“精确且深入地掌握”。模型将在第一阶段当中学习语法结构、词语搭配等基本的知识,而在第二阶段中则重点针对语义进行学习,例如同义句、反义句、常识、问答、成语等等内容。同时RoFormerV2还对模型结构进行了调整,精简了模型结构与计算复杂度,以提升模型的效率。

      大幅降低NLP应用门槛

      RoFormerV2不仅在效果上取得了优秀的成绩,更能极大降低应用的门槛。 在将技术落地变为实际应用的过程中,通常需要考虑的不仅仅是“技术所能达到的极限”,还包括“应用所需要的成本”。面对不同客户的不同资源限制,一个切实可落地的方案才更具有实际意义。而RoFormerV2使用的新的模型结构与训练方式,让它在同体量模型中获得最好效果的同时,超越了一些体量更大的模型。并且对比与同体量的模型,RoFormerV2可以获得最高30%的速度提升。

    图片5.jpg

      从应用的角度来说,RoFormerV2体型更轻量,速度更快的优势,就代表着更加低的成本投入与运营消耗,为用户带来的是可用性强、低成计算成本并且效果优秀的解决方案。

      目前RoFormerV2已被应用于追一科技的Adal对话分析平台中,作为底层的文本编码模型,支持包括信息抽取、文本检索、文本聚类、话术流程挖掘等应用功能。

      随着“大模型”时代的来临,许多用户希望用优秀的模型来解决实际问题,但这些“庞然大物”所需要的硬件配置、高额投入,让人望而却步。同时, 利用“大模型”进行NLP技术实验研究,所需要的算力与时间成本越来越高。不管是NLP技术研究还是应用实践,追一科技都一直致力于开放、开源生态的参与、建设,助力用户和开发者创新研究。

      RoFormerV2作为同体量效果最好的预训练模型,可以在有限的机器资源下进行训练与微调并获得超越体型更大的模型的效果,因此追一科技将其开源供开发者进行研究使用,为推动中文NLP发展继续贡献一份力量。

    猜你喜欢:

  • 818苏宁广发“英雄帖”,三年免佣,召百家航母级ISV加
  • 畅享SEA区块链游戏红利 玩游戏也能玩出“百万”人
  • 区块链+节点经济 BtLux“搏”出数字资产交易平台
  • 2020ChinaJoy:高通骁龙引领5G时代数字娱乐体验变革
  • 专访苏宁零售技术研究院院长王俊杰:5G将为智慧零售
  • 万物皆终端,终端皆“手机”:苏宁易购5G白皮书掀开智
  • 京东方艺云携手咿啦看书推Funbook儿童智能阅读器
  • 京东双十一电视品牌销售额TOP10发榜 乐视电视挤进
  • 全民直播带货!中国今年新增直播企业近6千家
  • 柔烘精洗,小天鹅本色系列洗烘套装让冬季衣物处理不
  • 云计算守护苏宁818方案揭秘:云资源调度、安全云双
  • “智能性”成为扫地机器人检验标准 谁在浑水摸鱼?
  • 大气污染防控形势严峻,TCL卧室新风空调多重防护保
  • 羊毛柔烘获世界制造业大会科技创新奖,小天鹅民族品
  • “数字藏家”开放二手市场交易 “动物都市”限定
  • 全芯出击!款款爆款!双十一超值锐龙笔记本推荐
  • 推荐阅读
    频道排行
    中国财经消费网   |    合作:gkjnet@qq.com
    Copyright © 2019-2021 CJ18.COM.CN All Rights Reserved 中国财经消费网 版权所有