无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生成果

一个来自MIT博士生的惊人发现:只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模型规模的同时显著提高模型性能。无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生成果
效果主要体现在文本理解任务上,最高可达30%。这在3个模型(LLama2、GPT-J和Roberta)和8个不同数据集上都得到了验证(包含认知推理、世界知识等)。除了文本理解,它也适用于强化学习。这个操作只需在模型训练完成之后进行,不需要额外的参数和数据。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索
本网站由提供CDN加速/云存储服务