悟道开放日：人工智能大模型最近有哪些研究重点？

智源研究院智源研究院

2022年3月19-20日，由北京智源人工智能研究院主办的「2022悟道技术开放日」于北京智源大厦召开。第一天活动面向大模型研究者，有多位智源学者的悟道进展报告、50个闪电演讲、40个论文Poster展示、圆桌对话等环节。让我们一起来回顾今天的精彩瞬间。

首先给大家一个小预告：悟道3.0将在今年智源大会，和大家正式见面！

“大模型生成能力的极限在哪里？”这是我在悟道3.0计划中思考的核心问题。

之前，悟道通用语言模型GLM（Generalized Language Model，ACL 2022）统一了BERT的掩码语言模型和GPT的自回归语言模型，同时进行自然语言的判别和生成以及序列映射（Seq2Seq）任务。悟道文本到图像生成大模型CogView（NeurIPS 2021）是第一个中文全领域文本到图像的生成模型，取得了令人瞩目的效果。

在悟道3.0版本，GLM与CogView强强联合，推出中英双语模型CogView2，将图像生成、编辑的能力再上一个台阶。例如，下图为CogView2生成的“一个女人抱着哈士奇”的图像，不仅比CogView清晰度更高、模型规模更大而且生成速度更快数倍。

得益于GLM的灵活性，模型可以自然地执行图像补全的工作，如果将给定图像的中下部分的披萨挖掉，可以根据给定文本无缝生成图像，这项技术可能对将来的图像编辑产生巨大影响。

随着模型的增大和算法的优化，大模型的生成性能仍在稳步上升，未来可期。

相关推荐👇

[1]CogView: Mastering Text-to-Image Generation via Transformers.

https://arxiv.org/abs/2105.13290

[2]All nlp tasks are generation tasks: A general pretraining framework.

https://arxiv.org/pdf/2103.10360

阿基米德说过：“给我一个支点，就可以撬动地球”。对于 AI 研究者，Delta就是撬动大模型的支点，即使参数量千亿、万亿也不在话下。

参数高效适配预训练模型最近引起广泛关注：以极少量参数调整，在NLP任务上达到和全参数微调相当的效果。这一方法的本质，正是对一个增量(Delta)进行调整。

如何寻找大模型最优支点？近期，我们团队系统总结了大模型高效适配下游任务的研究，提出了统一的理论框架 Delta Tuning，探索通过最少参数更新来驱动大模型：

实践上，大大降低大模型计算与存储消耗，性能不减；理论上，从优化和最优控制两个角度对Delta Tuning进行理论分析和阐释，有助于我们理解大模型背后的机理。

Delta Tuning的分类框架

通过逾100个NLP任务的实验研究，我们发现了以下有趣结论：

Delta Tuning方法表现并不与微调参数量强相关；
Delta Tuning随着模型增大越来越不依赖于结构设计；
Delta Tuning 方法在不同下游任务之间展现出很强的迁移性。

参数高效微调工具OpenDelta 同步开源不需修改模型源代码即可自由实现各类Delta Tuning算法高效、快速大模型适配！

相关推荐👇

[1]Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models.

https://arxiv.org/abs/2203.06904

[2] OpenDelta，https://github.com/thunlp/OpenDelta

[3] AdapterHub，https://adapterhub.ml/

通过模拟人类认知思维，结合多模态+预训练大模型创造出真正与人类智能比肩的人工智能技术，是悟道文澜团队一直的关注方向。最近，团队的兴趣点主要集中在视频方向。

COTS模型，有效克服双塔模型缺乏模态交互缺点，实现符号、样本和任务三个级别的交互，以及全Transformer的双塔网络结构，轻松从图像-文本扩展到视频-文本预训练，在MSR-VTT数据集上取得最佳效果。在49万视频-描述数据对上应用COTS训练得到的inference模型现已开源。

文澜视频-文本预训练模型的网络结构

我们在视频领域的技术探索已经在国际挑战赛中斩获了多项第一。例如：

打破BUTD在生成短视频描述方面的统治，在NIST TRECVID Video-to-Text Description Challenge 2021的两个子任务上均获第一；

基于预训练大模型的视频描述生成模型和物体定位模型，在CVPR2021 Activitynet 挑战赛的两个子任务获得第一，远超第二名 70%和50%。

另外，在多感官方面，文澜团队构建和发布了目前最大的一个视音问答数据集，为多模态预训练提供了新的任务场景。

在视频的主观情感认知能力方面，从351部影视剧中收集180K条高质量的多模态预训练数据，提出新模型更好的表示了视频中人类的情感。

相关推荐👇

[1]COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval, CVPR 2022.

[2]文澜视频-文本inference模型：

https://github.com/rucmlcv/Wenlan-Video-Public.

[3]Learning to Answer Questions in Dynamic Audio-Visual Scenarios. CVPR 2022.

[4]MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition, ICASSP 2022.

开源中文对话模型的数量和效果，已远远落后于实际研究与应用的需求。这是我们系统性研究构建中文对话模型关键性技术的初衷：

创造目前容量最大、性能最好的开源对话模型，使之成为研究和应用的基座。

通过对预训练数据集的构建、模型架构的设计、预训练方式的选择，以及解码策略的组合等方面的探索，团队构建了60G高质量中文数据集和拥有28亿参数的EVA2.0模型。

我们的实验表明，在10000个单轮、多轮对话测试数据集上，EVA2.0在人工评价和自动评价两个方面都显著超越了现有的其它开源对话模型。

在对话场景中，EVA2.0模型亦展现出极强的“高情商唠嗑”能力。

下一阶段，我们团队将聚焦于目前中文对话系统在对话安全性、上下文一致性、回复知识性和共情能力等方面的局限，为构建下一代中文开放域对话系统而努力。

相关推荐👇

[1]EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training.

https://arxiv.org/abs/2203.09313

[2]EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training.
https://arxiv.org/abs/2108.01547

[3] On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark.
https://arxiv.org/abs/2110.08466

近年来，预训练模型在一些知识相关的任务上展现了惊人的效果，但有研究表明，大模型并未真正理解知识，也不具备足够强的知识提炼能力。

因此，现阶段知识图谱不可替代，知识增强的预训练模型和大模型驱动的知识补全算法仍有广泛的研究前景。

最近，我们团队研发了基于知识嵌入和预训练语言表示的统一框架KEPLER和知识图谱补全算法PKGC，可以结合大模型参数化知识与知识图谱结构化和长尾知识，充分挖掘知识图谱隐含的推理和补全能力，打破了传统方法的封闭世界假设。

PKGC模型框架

相关推荐👇

[1] KQA Pro: A Dataset with Explicit Compositional Programs for Complex Question Answering over Knowledge Base, ACL 2022.

[2] Do Pre-trained Models Benefit Knowledge Graph Completion? A Reliable Evaluation and a Reasonable Approach, ACL findings 2022.

[3] KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation, TACL 2021.

智源研究院大模型研究中心联合悟道核心团队和国内众多前沿研究学者共同制定并发布了大模型技术路径发展蓝图《A Roadmap for Big Model》。

以数据、知识、计算机系统作为基础设施，大模型将着力攻关8项关键性技术，包括自然语言处理、计算机视觉、多模态、认知推理等主流前沿，同时涉及人工智能可解释性、安全、治理与评测等领域，推动人工智能健康和可持续发展。

大模型相关学者将在对话系统、文本生成、机器翻译、蛋白质预测等方向持续深耕前沿技术，并面向工业界加速相关科研成果转化。

相关推荐👇

[1]《A Roadmap for Big Model》https://dorc.baai.ac.cn/resources/paper/A_Roadmap_for_Big_Model.pdf

现场交流讨论

⚡️

前方闪电来袭？

50位研究者，闪电演讲

精彩令人目不暇接

左右滑动看更多闪电演讲

🎁

珍贵礼物

关注公众号，回复“论文大礼包”

获取悟道开放日精华论文

🖼

更多精彩瞬间

现场学术 Poster 演示

3月20日

面向大模型开发者

悟道之巅大赛结果公布&颁奖、悟道API使用教程、悟道竞赛案例分享等更多精彩环节，欢迎大家参加！

👭

关注智源社区

AI信息、活动一网打尽

本次活动回放地址

https://event.baai.ac.cn/activities/310

继续滑动看下一个