近期,微软和英伟达整出了一个Megatron-Turing NLG 530B,这是一个基于Transformers的模型,被称为 "世界上最强大的生成语言模型",GPT-4听了想打人。让我们乘上时光机回到2018年初,那时的ELMO模型只有94M,到如今也就短短3年多的时间,预训练语言模型的参数量一路“高飞猛进”,直接干到了现在的530B。
据研究人员估计,人类大脑平均包含860亿个神经元和100万亿个突触,而GPT-4预计有大约100万亿个参数,单从数目上来看,或许GPT-4更胜一筹尽管把功能发达的人脑和深度学习模型进行对比显得有些鄙陋,但我们值得思考,建立与人脑大小差不多的语言模型是否就是最好的方向呢?毕竟人脑经过了数百万年进化,而深度学习模型只有几十年的历史,倘若深度学习要达到人脑的计算规模,或许还需要很长一段时间。另一种说法是,当前的计算硬件方向已经偏离了真正的通用人工智能,更不用说基于当前计算硬件的人工智能算法了。二、深度学习真费钱
在庞大的文本数据集上训练一个5300亿参数的模型需要耗费相当多的GPU,而事实上微软和NVIDIA的确使用了数百台DGX A100多GPU服务器。一台服务器需要19.9万美元,加上网络设备、托管费用等,任何想要复现这个实验的人都必须花费近1亿美元,让人可望不可及呀。抛开高成本的实验复现,现在但凡实验室想转深度学习的,手里没几张V100、GTX3090,都没法和同行们竞争,舍不舍得花钱导师说了算。
记得研究生实验室坐拥几十张GPU卡,那时候跑个实验都可以4卡并行,现在想想简直是奢侈。
从工程上来说,在GPU上训练深度学习模型是一种需要蛮力的技术,因为每台DGX服务器可以消耗高达6.5千瓦的电力。同时,你的服务器壁橱至少需要同样高的冷却功率来对服务器进行降温,除非你家没钱交今年的暖气费了此外,随着公众对气候和社会责任问题的认识不断提高,训练深度学习带来的碳足迹也要考虑在内。有研究表明:在GPU上训练BERT大致相当于一次跨美国的飞行,当然了,你可以尝试在App上种树来降低碳足迹,可能唯一麻烦的点就是,需要偷好友能量加快进度了。四、然并卵
我们对Megatron-Turing NLG 530B和接下来的巨无霸模型感到兴奋吗?不。这些相对较小的指标提升值得增加成本、复杂性和碳足迹吗?不。建立和推广这些巨无霸的模型有助于机器深度理解人类语言吗?不。所以说,这一切的意义何在呢?单纯为了科学而科学?还是说走老式营销套路?或者说技术至上?可能每种都有一点,也可能都不是。相反,建立高质量的机器学习解决方案的实用和可操作的技术才应该是最有社会价值的事情。五、大道至“俭”
在评估模型时,我们应该选择能提供所需指标的最小模型,首先它的预测速度会更快,并且需要更少的“烧钱卡”进行训练和推理,这种节俭的做法是很有意义的。计算机视觉的开发者依然记得,17年SqueezeNet相比于之前的AlexNet,将模型大小减少了50倍,在准确率却达到或超过了AlexNet。同时,NLP社区也在进行模型体量缩减工作,研究知识蒸馏等迁移学习技术,这种深度学习技术对未来NLP社区的发展具有重要的意义。DistilBERT可能是其最广为人知的成就,与最初的BERT模型相比,它保留了97%的语言理解,同时体积小了40%,速度快了60%。最近来自Big Science项目的模型也令人印象深刻,从论文中的这张性能对比图可以看出,他们的T0模型在许多任务上都超过了GPT-3,同时体积小了16倍。六、未来路在何方
在过去的几年里,大型语言模型的规模每年都在增长10倍,这开始看起来像另一个摩尔定律,只是晶体管变成了神经元。或许,在目前实现通用人工智能的迷茫道路上,构建大型的语言模型看起来更像是一个正确的方向,毕竟只需要增加额外的成本,而不用构建新的方法。
但是从长远角度考虑,与其追逐万亿参数的模型,不如专注于构建所有开发人员都能用来解决现实世界问题的实用和高效的解决方案,这样岂不是更好?
https://huggingface.co/blog/large-language-models
进技术交流群请添加AINLP小助手微信(id: ainlper)
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。
阅读至此了,分享、点赞、在看三选一吧🙏