人工智能已经成为改变科学范式和推动社会进步的颠覆性、渗透性技术。习近平总书记指出,要促进人工智能“同经济社会发展深度融合,推动我国新一代人工智能健康发展”。2025年1月11日,大连理工大学教师发展中心联合未来技术学院/人工智能学院面向全校师生开展人工智能系列培训活动,围绕大模型与生成式人工智能专题,邀请来自北京邮电大学邓皓戈、中科院计算所潘汀、香港科技大学高深远、香港大学吴成岳等知名研究机构的优秀青年学者,剖析ChatGPT和Sora等生成式大模型的机理,分享大模型与生成式人工智能的最新进展和发展趋势。本次活动旨在响应党和政府关于推动我国新一代人工智能健康发展的指示,同时促进相关专业教师与研究生的学术交流,开拓学术视野,助力我校交叉学科发展。
大连理工大学教师发展中心副主任翟鸣宇、未来技术学院/人工智能学院院党政领导班子成员及全体教师参加学习活动。此次培训活动由未来技术学院/人工智能副院长江贺主持,教师发展中心副主任翟鸣宇和学院执行院长卢湖川分别致辞。两位领导在致辞中重点强调了人工智能与交叉学科的深度融合,倡导推动产业与教学相结合,探索新型的人才培养模式。

来自北京邮电大学和智源青年学者的邓皓戈,从基础到深入,介绍了自回归生成模型如何扩展到更复杂的视觉任务。他详细拆解了当前热门的ChatGPT的应用、原理和数学概念,并演示了主流扩散模型的原理与生成效果,提出了生成模型面临的几大挑战:扩散模型是否能建模图像?如何提升生成质量和速度?如何证明scaling的性质?接着,他通过自回归生成模型进行对比,从因果自回归、掩码自回归等方向,以及像素、patch、图像等粒度角度,深入探讨了不同类型的tokenizer、自回归视觉生成网络及其前沿进展。在未来展望中,他重点关注自回归模型的潜力、模型容量与数据增量的关系,以及图像与视频生成的统一探索。
来自香港大学和英伟达青年学者的吴成岳,首先展示了多模态统一模型在视觉与语音交互、增强现实与虚拟现实、自动驾驶与机器人以及多媒体内容生成等领域的应用场景。接着,他介绍了多模态理解模型的基础知识、算法原理、训练数据和测试类型,并针对动态分辨率和模型架构问题,详细阐述了InternVL、Qwen2VL和NVLM等前沿工作。在多模态理解与生成统一的讨论中,他类比了Chameleon、Transfusion、Emu3等工业界领先模型设计,并深入讲解了Janus的算法思路、模型设计和数据构成,强调了编码器解构在统一模型中的重要性。未来展望中,他重点强调了混合模态内容生成的潜力以及在世界模型中统一模型的广泛应用前景。

来自中科院计算所和智源青年学者的潘汀围绕视觉预训练和判别式网络的主题,首先从分割一切模型(SAM)入手,详细探讨了其算法原理和面临的痛点问题。他重点分析了预训练目标、算法重构目标、分割数据增量以及分割架构模型等方面的挑战,并指出了当前算法的局限性。此外,潘汀还探讨了如何兼容CLIP的语义理解能力与SAM模型的物体识别能力,回顾了包括All-Seeing、Alpha-CLIP等项目和算法。他同时提出了TAP模型,提供了一种从分割一切到标记一切的新型解决方案。特别值得注意的是,所有训练和推理过程均在128张寒武纪的思元370-X8计算卡上完成,为国产算法和芯片的有机结合提供了宝贵的示范。在未来展望中,他强调了相关视觉组件在多模态大模型中的潜力与任务需求,并为后续的视觉预训练提出了切实可行的思路。
来自香港科技大学和上海人工智能实验室青年学者的高深远,首先展示了去年初大热的视觉模型Sora的部分实例,随后阐释了世界模型的定义、任务、结构和应用。他接着围绕自动驾驶领域,详细介绍了UniSim、Genie、Genie2、GAIA-1和Cosmos等系列算法的组成、模型细节及应用场景。高深远进一步介绍了当前广受关注的OpenDV数据集,涵盖了更长时长、更广泛的收集对象、道路环境和数据源。他逐一拆解了数据集的收集与清洗流程,并探讨了针对这一数据集的算法框架Vista的基本原理、各项指标、应用场景及局限性。在未来展望中,他详细分析了自动驾驶领域面临的挑战,并提出了潜在的优化策略。
活动总结
每场报告结束后,学者们与在场的师生们展开了热烈而富有深度的互动。现场气氛十分活跃,学生们纷纷提出尖锐问题,涵盖了多模态理解、生成模型、统一框架和世界模型等前沿话题。受邀的专家学者们耐心细致地解答了每一个问题,深入浅出地将复杂的理论与应用进行了阐述,帮助同学们更好地理解这些先进的科研成果和思想。此次交流环节不仅让同学们获得了宝贵的学术启发,也激发了他们对于这些创新领域的更深层次思考。

讲座为学员们提供了一个深入洞察科技前沿的独特平台,进一步唤起了大家对人工智能与跨学科研究融合的浓厚兴趣。学者们的精彩讲解不仅拓宽了大家的视野,也让同学们深刻感受到,科研的真正魅力在于不断突破认知的边界,勇于探索未知,敢于挑战传统思维的局限。在这一过程中,技术突破固然重要,但更为关键的是保持探索精神,推动跨领域的创新与协作。通过这场讲座,大家纷纷表示受益匪浅,许多人对未来的研究方向和科技创新充满了新的期待。
编辑:汪梓逸