当前位置:科技动态 > 【知识蒸馏】让LSTM重回巅峰!

【知识蒸馏】让LSTM重回巅峰!

  • 发布:2023-10-09 19:07

点击上方并选择每天给你发送酷炫内容!


by | AINLP

原创·作者|叶文杰

工作单位 | vivo深圳人工智能研究院NLP技术组

研究方向|自然语言处理

个人介绍|我是东南大学大二学生,2020年8月至2021年1月在vivo深圳AI研究院NLP技术组实习。实习期间主要从事模型压缩和蒸馏工作


1。开幕

去年底,各大榜单出现了一场风波。榜单上的路英雄为了在榜单上获得0.01分以上而不断焦躁不安,迫不及待地向外界展示自己的肌肉。

小兄弟怎么了?

我们打开了中文知名NLP评测网站CLUE,看到了……

为什么他们都是伯特和他的兄弟?

回想4年前,当世界被RNN、LSTM和CNN统治时,它们为何转眼就消失了? LSTM不禁感叹:年轻人不尊重武德!欺负我这样25岁的同志。

那么有没有办法让LSTM重新焕发活力呢?有!知识升华!

2。什么是知识蒸馏?

知识蒸馏的思想很简单,就是让一个教师模型指导学生模型,让学生模型学习教师模型的知识,而知识蒸馏的核心就是知识。

根据蒸馏所使用的知识,蒸馏可分为三种:

  • 基于响应的蒸馏:雪雪老师最后的输出足够我喝一瓶了。

  • 基于特征的蒸馏:中间层的知识不容忽视。毕竟,神经网络最擅长的是学习层次信息。

  • 基于关系的蒸馏:这些表面知识是完全不够的。我们需要更深入地挖掘层与层之间的关系以及样本之间的关系。

这个知识之所以有效,主要是因为隐含的特征(暗知识)无法在数据层面表达,而模型可以学习这些特征。 One-hot无法衡量类之间的差异,知识蒸馏在一定程度上起到了标签平滑的作用。例如,马、驴、树在标注上都是不同的,通过one-hot表示呈现的差异也是一致的。显然,马和驴之间的相似性比马和树之间的相似性更强,而我们的标签无法衡量这一点。相似,但是我们的教师模型可以学习这样的知识。

仔细看看历年来的BERT蒸馏方法:

  • DistilBERT:雪雪老师最后的输出够我喝一壶了

  • PKDBERT:我也想学中级

  • TinyBERT:embedding层的知识呢?我全都想要!

TinyBERT对待知识的态度

既然我们可以用蒸馏的方法来训练一个强大的小BERT,那么我们是否可以用同样的方法来蒸馏LSTM,让它获得第二春呢?

3。向蛮族学习,运用他们的技能打败蛮族

蒸馏的第一步是选择性能优异的教师模型。 NER 榜单上的 TOP1 被 RoBERTa 抢占,所以我们也选择 RoBERTa 作为我们的教师模型,它在验证集上得分为 81.55。同时,在同一训练集上训练双向LSTM,得分为68.56。两者之间的F1分数差距很大,所以直接尝试基于响应的蒸馏:

型号

NER F1(有效)

罗伯塔

81.55

LSTM(基线)

68.56

LSTM(蒸馏)

71.01

成绩有所提高,但与榜单上的78、79相比还有很长的路要走。这是怎么办?

我们能做什么?

有没有办法进一步提升模型的能力?想一想,所有类型的 BERT 都已经使用数十个 GPU 对几 T 数据进行了数百小时的训练。当然,我们的 LSTM 仅使用 10,000 个训练集。或许能打败他们。我们还需要使用数据增强!

4。数据增强

CLUE NER数据集来自清华大学开源数据集THUCTC,因此我们尝试使用THU-News数据集进行增强。随机抽取30万件物品进行测试。

这个0太纯粹了,以至于人们一度以为自己跑错了代码。然后他们连续运行了3次,得到的结果都是0!

我们很快就拿到了报告,发现了里面的不良案例(没有一个是不良案例)。我们发现结果非常简单。所有预测均为 O(非实体)。我赶紧找到增强数据集一看,看到了这个:

他?还是她?也许会有。

总会有花花秀,¥%...&&() ——我冲动地想问问她姐姐是谁打了她...

今天的悬念揭晓,有人兴奋有人惊讶,《精灵传说》正式和大家见面了,

帮助项目/ヘ儿プaiテム)等

信用是Zynga游戏在Facebook平台上的主要支付方式。

成为战士中的王者!

附于订单:

为了鼓励大家结交更多朋友,目前Android版本中的所有礼物均可无限次免费赠送,赶快行动吧!

《马里奥赛车wii》wii 任天堂有限公司

这是公众对文化价值观的认可所决定的。 2010年,玩家数量接近1亿,

THU-新闻新闻数据集-游戏部分

可以看出,大多数样本没有实体,这与我们的任务分布不一样(倾斜)。使用这种数据集来训练模型,训练后的模型会将所有标签视为O(非实体)。

5。那么如何从这些杂乱的数据集中提取出可以作为增强的数据集呢?

如果让人类清理数据集,数据增强需要几十上百倍的数据,而且用NER来标记数据有点困难。人工工作根本行不通!

既然我们是用知识蒸馏来训练模型,那我们是否可以请老师模型帮忙清洗数据呢?

我们做了一个大胆的尝试,不做任何数据集的清理,直接用教师模型对2000万个杂乱的数据集进行推理,然后只保留教师模型认为包含实体的数据:

包含至少一个实体

包含至少两个实体

连六番队队长朽木白也都被光头吸引了~!哈哈哈(大错特错~。

联合导演、主演吴亚桥担任《剑网3》“付费游戏免费玩”实力高校节目形象大使。

2008年12月《IT时报:2008年度最具商业价值网站》;

游戏委员会表示,游戏的审核时间较长,所以像苹果、谷歌系统旗下的游戏,

嘟嘟的目标是聚集100名玩家在三江源举办变身舞会,她希望大家都能帮助她实现愿望。

米兔数码科技《穿越火线online》全新版本《末日记录》正式上线!玩家不仅可以体验全新的“

但这一次overkill仍然将工作委托给了一家日本公司:soe(索尼娱乐在线)。

北美全球大赛亚军队伍tsg对阵韩国全球大赛冠军队伍shipit,使用Paladin、Warrior、

在最初阶段,微软发言人表示:“微软绝不允许他人修改其产品。

dice 抓住了《使命召唤》的这个弱点。

infi从来不给足球拉回红血单位的机会,

tesl台湾电竞联盟提供720p以上高清在线直播,与ITV Media合作i‘

阿里纳斯因射杀队友而被踢出比赛

看完上面的列表,你可能会说gbasp和ndsi也不能用《马里奥》游戏启动了,

来自世界各地的媒体都希望能够在 e3 的任天堂展位上抢先试用这款新游戏机,导致展位前排起了长队。今天,

有玩家表示:这真是要求与接受的结合体。游戏是任天堂的,但是按钮是索尼风格的……

一统乱世》将于明天正式上线,本次资料片更新将开放多部落联盟的“联盟系统”以及“

”争夺地图占领权。

最后,Todd 透露,“我们不知道会为《上古卷轴5》、

制作什么样的 DLC

意想不到的《西游iii》你猜不到的结局

并且你可以使用这个地图编辑器创建许多当前流行的地图,例如塔防,dota等经典地图《星际2》

教师模型辅助清洁后的数据

教师模型为我们选择的数据集更加干净,不包含无实体和无意义的句子。但作为交换,原来的2000万数据集只剩下110万左右。

使用过滤后的数据集训练模型,得到:

型号

数据集

蒸馏

NER F1

参数数量

Roberta-Large(教师模型)

火车

81.55

311.24M

LSTM(基线)

火车

68.56

9.66M (x32.21)

LSTM

火车

71.01

9.66M (x32.21)

LSTM

train+10w增强型

72.61

9.66M (x32.21)

LSTM

train+20w增强型

74.61

9.66M (x32.21)

LSTM

train+30w增强版

76.51

9.66M (x32.21)

LSTM

train+40w增强版

77.30

9.66M (x32.21)

LSTM

train+50w增强型

77.40

9.66M (x32.21)

LSTM

train+60w增强型

78.14

9.66M (x32.21)

LSTM

train+110w增强版

79.68

9.66M (x32.21)


线索最终结果

不同增强数据集的增强效果

可以看到,随着增强数据集数量的增加,学生模型的效果正在逐渐提升。使用110万个数据集,验证集的得分可以达到79.68。如果继续添加数据,效果应该会进一步提升。提交榜单,测试集得分可以达到78.299,CLUENER单独排名第二,LSTM从众多BERT中挤出来。

好极了!

6。总结

使用少量的训练集来训练教师模型,然后收集增强数据集来训练学生模型,可以极大地提高学生模型的能力。这样,在业务前期只需要使用少量的标注语料就可以达到比较可观的效果,并且在服务部署中使用小模型就可以完成GPU的释放。在实际测试中,学生LST GPU加速比达到3.72倍,CPU加速比达到15倍。

模型蒸馏是一个师生框架,允许非常灵活地选择教师模型和学生模型。例如,教师模型可以通过集成选择最佳效果,学生模型也可以随意尝试各种模型结构。比如 CNN、LSTM、Transformers。当然,其他模型压缩方法,例如剪枝和近秩分解,也可以与这样的框架相结合。至于数据增强,在实际业务中,我们不需要寻找额外的公共数据集。我们可以直接从实际业务中获取大量数据进行增强。这节省了我们过滤数据的时间,并且可以更好地改进它。模型效应。

这样的一套框架在分类、意图识别槽位提取、多模态等相应业务上都取得了不错的效果,甚至在增强数据集达到一定程度时超过了教师模型的效果。

7。参考文献

[1] 揭示 BERT 的黑暗秘密。 (EMNLP 2019)

[2] DistilBERT,BERT 的精炼版本:更小、更快、更便宜、更轻

[3] BERT 模型压缩的患者知识蒸馏

[4] TinyBERT:提炼 BERT 以实现自然语言理解


言归正传吧

因微信平台算法修改,公众号内容将不再按时间顺序展示。如果您想尽快看到我们的推送,强烈建议给我们star,给我们更多的“关注”。打星的具体步骤是:

(1)点击页面顶部深度学习自然语言处理”进入公众号主页。

(2)点击右上角的小点,在弹出的页面中点击“设为星星”即可。

感谢您的支持,谢谢

提交文章或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向很多:机器学习、深度学习、Python、情感分析、观点挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注

整理起来并不容易,但希望大家可以看看!

相关文章