当前位置：科技动态 > 【知识蒸馏】让LSTM重回巅峰！

【知识蒸馏】让LSTM重回巅峰！

发布：2023-10-09 19:07

点击上方并选择星每天给你发送酷炫内容！

by | AINLP

原创·作者|叶文杰

工作单位 | vivo深圳人工智能研究院NLP技术组

研究方向|自然语言处理

个人介绍|我是东南大学大二学生，2020年8月至2021年1月在vivo深圳AI研究院NLP技术组实习。实习期间主要从事模型压缩和蒸馏工作

1。开幕

去年底，各大榜单出现了一场风波。榜单上的路英雄为了在榜单上获得0.01分以上而不断焦躁不安，迫不及待地向外界展示自己的肌肉。

小兄弟怎么了？

我们打开了中文知名NLP评测网站CLUE，看到了……

为什么他们都是伯特和他的兄弟？

回想4年前，当世界被RNN、LSTM和CNN统治时，它们为何转眼就消失了？ LSTM不禁感叹：年轻人不尊重武德！欺负我这样25岁的同志。

那么有没有办法让LSTM重新焕发活力呢？有！知识升华！

2。什么是知识蒸馏？

知识蒸馏的思想很简单，就是让一个教师模型指导学生模型，让学生模型学习教师模型的知识，而知识蒸馏的核心就是知识。

根据蒸馏所使用的知识，蒸馏可分为三种：

基于响应的蒸馏：雪雪老师最后的输出足够我喝一瓶了。
基于特征的蒸馏：中间层的知识不容忽视。毕竟，神经网络最擅长的是学习层次信息。
基于关系的蒸馏：这些表面知识是完全不够的。我们需要更深入地挖掘层与层之间的关系以及样本之间的关系。

这个知识之所以有效，主要是因为隐含的特征（暗知识）无法在数据层面表达，而模型可以学习这些特征。 One-hot无法衡量类之间的差异，知识蒸馏在一定程度上起到了标签平滑的作用。例如，马、驴、树在标注上都是不同的，通过one-hot表示呈现的差异也是一致的。显然，马和驴之间的相似性比马和树之间的相似性更强，而我们的标签无法衡量这一点。相似，但是我们的教师模型可以学习这样的知识。

仔细看看历年来的BERT蒸馏方法：

DistilBERT：雪雪老师最后的输出够我喝一壶了
PKDBERT：我也想学中级
TinyBERT：embedding层的知识呢？我全都想要！

TinyBERT对待知识的态度

既然我们可以用蒸馏的方法来训练一个强大的小BERT，那么我们是否可以用同样的方法来蒸馏LSTM，让它获得第二春呢？

3。向蛮族学习，运用他们的技能打败蛮族

蒸馏的第一步是选择性能优异的教师模型。 NER 榜单上的 TOP1 被 RoBERTa 抢占，所以我们也选择 RoBERTa 作为我们的教师模型，它在验证集上得分为 81.55。同时，在同一训练集上训练双向LSTM，得分为68.56。两者之间的F1分数差距很大，所以直接尝试基于响应的蒸馏：

型号	NER F1（有效）
罗伯塔	81.55
LSTM（基线）	68.56
LSTM（蒸馏）	71.01

成绩有所提高，但与榜单上的78、79相比还有很长的路要走。这是怎么办？

我们能做什么？

有没有办法进一步提升模型的能力？想一想，所有类型的 BERT 都已经使用数十个 GPU 对几 T 数据进行了数百小时的训练。当然，我们的 LSTM 仅使用 10,000 个训练集。或许能打败他们。我们还需要使用数据增强！

4。数据增强

CLUE NER数据集来自清华大学开源数据集THUCTC，因此我们尝试使用THU-News数据集进行增强。随机抽取30万件物品进行测试。

这个0太纯粹了，以至于人们一度以为自己跑错了代码。然后他们连续运行了3次，得到的结果都是0！

我们很快就拿到了报告，发现了里面的不良案例（没有一个是不良案例）。我们发现结果非常简单。所有预测均为 O（非实体）。我赶紧找到增强数据集一看，看到了这个：

他？还是她？也许会有。

总会有花花秀，￥%...&&() ——我冲动地想问问她姐姐是谁打了她...

今天的悬念揭晓，有人兴奋有人惊讶，《精灵传说》正式和大家见面了，

帮助项目／ヘ儿プaiテム）等

信用是Zynga游戏在Facebook平台上的主要支付方式。

成为战士中的王者！

附于订单：

为了鼓励大家结交更多朋友，目前Android版本中的所有礼物均可无限次免费赠送，赶快行动吧！

《马里奥赛车wii》wii 任天堂有限公司

这是公众对文化价值观的认可所决定的。 2010年，玩家数量接近1亿，

THU-新闻新闻数据集-游戏部分

可以看出，大多数样本没有实体，这与我们的任务分布不一样（倾斜）。使用这种数据集来训练模型，训练后的模型会将所有标签视为O（非实体）。

5。那么如何从这些杂乱的数据集中提取出可以作为增强的数据集呢？

如果让人类清理数据集，数据增强需要几十上百倍的数据，而且用NER来标记数据有点困难。人工工作根本行不通！

既然我们是用知识蒸馏来训练模型，那我们是否可以请老师模型帮忙清洗数据呢？

我们做了一个大胆的尝试，不做任何数据集的清理，直接用教师模型对2000万个杂乱的数据集进行推理，然后只保留教师模型认为包含实体的数据：

包含至少一个实体	包含至少两个实体
连六番队队长朽木白也都被光头吸引了~！哈哈哈（大错特错~。	联合导演、主演吴亚桥担任《剑网3》“付费游戏免费玩”实力高校节目形象大使。
2008年12月《IT时报：2008年度最具商业价值网站》；	游戏委员会表示，游戏的审核时间较长，所以像苹果、谷歌系统旗下的游戏，
嘟嘟的目标是聚集100名玩家在三江源举办变身舞会，她希望大家都能帮助她实现愿望。	米兔数码科技《穿越火线online》全新版本《末日记录》正式上线！玩家不仅可以体验全新的“
但这一次overkill仍然将工作委托给了一家日本公司：soe（索尼娱乐在线）。	北美全球大赛亚军队伍tsg对阵韩国全球大赛冠军队伍shipit，使用Paladin、Warrior、
在最初阶段，微软发言人表示：“微软绝不允许他人修改其产品。	dice 抓住了《使命召唤》的这个弱点。
infi从来不给足球拉回红血单位的机会，	tesl台湾电竞联盟提供720p以上高清在线直播，与ITV Media合作i‘
阿里纳斯因射杀队友而被踢出比赛	看完上面的列表，你可能会说gbasp和ndsi也不能用《马里奥》游戏启动了，
来自世界各地的媒体都希望能够在 e3 的任天堂展位上抢先试用这款新游戏机，导致展位前排起了长队。今天，	有玩家表示：这真是要求与接受的结合体。游戏是任天堂的，但是按钮是索尼风格的…… 《
一统乱世》将于明天正式上线，本次资料片更新将开放多部落联盟的“联盟系统”以及“ ”争夺地图占领权。	最后，Todd 透露，“我们不知道会为《上古卷轴5》、制作什么样的 DLC
意想不到的《西游iii》你猜不到的结局	并且你可以使用这个地图编辑器创建许多当前流行的地图，例如塔防，dota等经典地图《星际2》

教师模型辅助清洁后的数据

教师模型为我们选择的数据集更加干净，不包含无实体和无意义的句子。但作为交换，原来的2000万数据集只剩下110万左右。

使用过滤后的数据集训练模型，得到：

型号	数据集	蒸馏	NER F1	参数数量
Roberta-Large（教师模型）	火车	无	81.55	311.24M
LSTM（基线）	火车	无	68.56	9.66M (x32.21)
LSTM	火车	是	71.01	9.66M (x32.21)
LSTM	train+10w增强型	是	72.61	9.66M (x32.21)
LSTM	train+20w增强型	是	74.61	9.66M (x32.21)
LSTM	train+30w增强版	是	76.51	9.66M (x32.21)
LSTM	train+40w增强版	是	77.30	9.66M (x32.21)
LSTM	train+50w增强型	是	77.40	9.66M (x32.21)
LSTM	train+60w增强型	是	78.14	9.66M (x32.21)
LSTM	train+110w增强版	是	79.68	9.66M (x32.21)

线索最终结果

不同增强数据集的增强效果

可以看到，随着增强数据集数量的增加，学生模型的效果正在逐渐提升。使用110万个数据集，验证集的得分可以达到79.68。如果继续添加数据，效果应该会进一步提升。提交榜单，测试集得分可以达到78.299，CLUENER单独排名第二，LSTM从众多BERT中挤出来。

好极了！

6。总结

使用少量的训练集来训练教师模型，然后收集增强数据集来训练学生模型，可以极大地提高学生模型的能力。这样，在业务前期只需要使用少量的标注语料就可以达到比较可观的效果，并且在服务部署中使用小模型就可以完成GPU的释放。在实际测试中，学生LST GPU加速比达到3.72倍，CPU加速比达到15倍。

模型蒸馏是一个师生框架，允许非常灵活地选择教师模型和学生模型。例如，教师模型可以通过集成选择最佳效果，学生模型也可以随意尝试各种模型结构。比如 CNN、LSTM、Transformers。当然，其他模型压缩方法，例如剪枝和近秩分解，也可以与这样的框架相结合。至于数据增强，在实际业务中，我们不需要寻找额外的公共数据集。我们可以直接从实际业务中获取大量数据进行增强。这节省了我们过滤数据的时间，并且可以更好地改进它。模型效应。

这样的一套框架在分类、意图识别槽位提取、多模态等相应业务上都取得了不错的效果，甚至在增强数据集达到一定程度时超过了教师模型的效果。

7。参考文献

[1] 揭示 BERT 的黑暗秘密。 (EMNLP 2019)

[2] DistilBERT，BERT 的精炼版本：更小、更快、更便宜、更轻

[3] BERT 模型压缩的患者知识蒸馏

[4] TinyBERT：提炼 BERT 以实现自然语言理解

言归正传吧

因微信平台算法修改，公众号内容将不再按时间顺序展示。如果您想尽快看到我们的推送，强烈建议给我们star，给我们更多的“关注”。打星的具体步骤是：

（1）点击页面顶部“深度学习自然语言处理”进入公众号主页。

（2）点击右上角的小点，在弹出的页面中点击“设为星星”即可。

感谢您的支持，谢谢。

提交文章或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向很多：机器学习、深度学习、Python、情感分析、观点挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注

整理起来并不容易，但希望大家可以看看！

基于axios的responseType类型的设
2023-10-11 23:50
stm32扩展板原理图（stm32开发板扩展模块
2023-10-11 23:30
打开多个微信盒子，头像大师如何设置一号二微信 –
2023-10-11 23:10
com.alibaba.fastjson.1.2
2023-10-11 22:50
获取sql语句中的日期部分或datetime的时
2023-10-11 22:30

【知识蒸馏】让LSTM重回巅峰！

相关文章

基于axios的responseType类型的设

stm32扩展板原理图（stm32开发板扩展模块

打开多个微信盒子，头像大师如何设置一号二微信 –

com.alibaba.fastjson.1.2

获取sql语句中的日期部分或datetime的时

最新资讯

有源232转485转换器怎么接线

keil5连接wifi会被监控吗

keil4无法编译（keil4为

keil软件现在属于哪个公司（k

keil5烧录程序到单片机（ke

电视看Disney+看奈飞性价比

你可以用以太坊做什么用？如何使用

小米手机怎么看奈飞，小米手机也能

FOMO跟那些快速赔钱的方法

京东赔付软件，天猫淘宝赔付采集工

热门推荐

什么是Pi节点？Pi节点的重要性

《成都配资——线下交易的新时代》

《快速搭建配资平台，实现投资轻松

【Zookeeper】（二）安装

[系统教程]怎么让Win11右键

[系统教程]Win10所有的浏览

java自带的MD5加密类的使

20180826记录javaF

关于java项目部署到tomc

Java逻辑运算符,,|,||