“大模型生成能力的极限在哪里?”这是我在悟道3.0计划中思考的核心问题。
之前,悟道通用语言模型GLM(Generalized Language Model,ACL 2022)统一了BERT的掩码语言模型和GPT的自回归语言模型,同时进行自然语言的判别和生成以及序列映射(Seq2Seq)任务。悟道文本到图像生成大模型CogView(NeurIPS 2021)是第一个中文全领域文本到图像的生成模型,取得了令人瞩目的效果。
在悟道3.0版本,GLM与CogView强强联合,推出中英双语模型CogView2,将图像生成、编辑的能力再上一个台阶。例如,下图为CogView2生成的“一个女人抱着哈士奇”的图像,不仅比CogView清晰度更高、模型规模更大而且生成速度更快数倍。
得益于GLM的灵活性,模型可以自然地执行图像补全的工作,如果将给定图像的中下部分的披萨挖掉,可以根据给定文本无缝生成图像,这项技术可能对将来的图像编辑产生巨大影响。
随着模型的增大和算法的优化,大模型的生成性能仍在稳步上升,未来可期。
相关推荐👇
[1]CogView: Mastering Text-to-Image Generation via Transformers.
https://arxiv.org/abs/2105.13290
[2]All nlp tasks are generation tasks: A general pretraining framework.
https://arxiv.org/pdf/2103.10360
阿基米德说过:“给我一个支点,就可以撬动地球”。对于 AI 研究者,Delta就是撬动大模型的支点,即使参数量千亿、万亿也不在话下。
参数高效适配预训练模型最近引起广泛关注:以极少量参数调整,在NLP任务上达到和全参数微调相当的效果。这一方法的本质,正是对一个增量(Delta)进行调整。
如何寻找大模型最优支点?近期,我们团队系统总结了大模型高效适配下游任务的研究,提出了统一的理论框架 Delta Tuning,探索通过最少参数更新来驱动大模型:
实践上,大大降低大模型计算与存储消耗,性能不减; 理论上,从优化和最优控制两个角度对Delta Tuning进行理论分析和阐释,有助于我们理解大模型背后的机理。
Delta Tuning方法表现并不与微调参数量强相关;
Delta Tuning随着模型增大越来越不依赖于结构设计;
Delta Tuning 方法在不同下游任务之间展现出很强的迁移性。
相关推荐👇
[1]Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models.
https://arxiv.org/abs/2203.06904
[2] OpenDelta,https://github.com/thunlp/OpenDelta
[3] AdapterHub,https://adapterhub.ml/
通过模拟人类认知思维,结合多模态+预训练大模型创造出真正与人类智能比肩的人工智能技术,是悟道文澜团队一直的关注方向。最近,团队的兴趣点主要集中在视频方向。
文澜视频-文本预训练模型的网络结构
打破BUTD在生成短视频描述方面的统治,在NIST TRECVID Video-to-Text Description Challenge 2021的两个子任务上均获第一;
基于预训练大模型的视频描述生成模型和物体定位模型,在CVPR2021 Activitynet 挑战赛的两个子任务获得第一,远超第二名 70%和50%。
另外,在多感官方面,文澜团队构建和发布了目前最大的一个视音问答数据集,为多模态预训练提供了新的任务场景。
在视频的主观情感认知能力方面,从351部影视剧中收集180K条高质量的多模态预训练数据,提出新模型更好的表示了视频中人类的情感。
在对话场景中,EVA2.0模型亦展现出极强的“高情商唠嗑”能力。
下一阶段,我们团队将聚焦于目前中文对话系统在对话安全性、上下文一致性、回复知识性和共情能力等方面的局限,为构建下一代中文开放域对话系统而努力。
[1] KQA Pro: A Dataset with Explicit Compositional Programs for Complex Question Answering over Knowledge Base, ACL 2022.
[2] Do Pre-trained Models Benefit Knowledge Graph Completion? A Reliable Evaluation and a Reasonable Approach, ACL findings 2022.
[3] KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation, TACL 2021.
相关推荐👇
[1]《A Roadmap for Big Model》https://dorc.baai.ac.cn/resources/paper/A_Roadmap_for_Big_Model.pdf
⚡️
前方闪电来袭?
50位研究者,闪电演讲
精彩令人目不暇接
左右滑动看更多闪电演讲
现场学术 Poster 演示
3月20日
面向大模型开发者
悟道之巅大赛结果公布&颁奖、悟道API使用教程、悟道竞赛案例分享等更多精彩环节,欢迎大家参加!