首次在智能手机上训练BERT和ResNet，能耗降35%

2022-07-24 15:27　出处：互联网　人气：　评论（）

希望推广员集币成狂扩初影院哪里有a网站

主页（http://www.kuwanit.com）：首次在智能手机上训练BERT和ResNet，能耗降35%

机器之心报道

例如，我们可以看到 L1 的激活是在第一个时间步 ( T1 ) 计算的。在 T2 和 T3 时刻，分别计算 L2 和 L3 的激活量。假设层 L2 和 L3 恰好是内存密集型但计算成本较低的运算，例如非线性 ( tanH、ReLU 等 ) ，那么重新实现就成为了最佳选择。我们可以删除激活 ( {T3, L2}， {T4, L3} ) 来释放内存，当后向传播过程中需要这些激活时，可以再重新实现它们 ( {T14, L3}， {T16, L2} ) 。

研究者在下表 2 中列出四种不同的硬件设备，分别为 ARM Cortex M0 MKR1000、ARM Cortex M4F nrf52840、A72 Raspberry Pi 4B + 和 Nvidia Jetson TX2。POET 是完全硬件感知的，依赖于细粒度的分析。

POET

该研究提出了 POET，这是一种用于深度神经网络的图形级编译器，它重写了大型模型的训练 DAG，以适应边缘设备的内存限制，同时保持高能效。

图 2 显示了一个八层神经网络的执行时间表。沿着 X 轴，每个单元对应神经网络的每一层（共 8 层 L8）。Y 轴表示一个 epoch 内的逻辑时间步长。图中占用的单元（用颜色填充）表示在相应的时间步执行的操作（前向 / 后向传播计算、重新实现或分页）。

转载请联系本公众号获得授权

因此，为了使用户在不牺牲隐私的情况下个性化他们的模型，联邦学习等基于设备的训练方法不需要将数据整合到云端，也能执行本地训练更新。这些方法已被部署在谷歌 Gboard 键盘上以个性化键盘建议，也被 iPhones 手机用来提升自动语音识别。同时，当前基于设备的训练方法不支持训练现代架构和大模型。在边缘设备上训练更大的模型不可行，主要是有限的设备内存无法存储反向传播激活。ResNet-50 的单次训练迭代所需的内存是推理的 200 多倍。

重新实现和分页是降低大型 SOTA ML 模型内存消耗的两种技术。在重新实现中，一旦不再需要激活张量就会被删除，最常见的是在前向传播期间。从而释放了宝贵的内存，可用于存储后续层的激活。当再次需要删除的张量时，该方法会根据谱系的规定从其他相关的激活中重新计算。而分页，也称为 offloading，是一种减少内存的补充技术。在分页中，不是立即需要的激活张量从主存储器调出到二级存储器，例如闪存或 SD 卡。当再次需要张量时，将其分页。

分享给小伙伴们：

本文标签：

IT新闻

互联网

笔记本

数码相机

平板电脑

智能手机

穿戴设备

智能家居

硬件资讯

首次在智能手机上训练BERT和ResNet，能耗降35%

更多文章

相关文章

发表评论愿您的每句评论，都能给大家的生活添色彩，带来共鸣，带来思索，带来快乐。