【17live 学术讲座】多模态上下文驱动的视频生成技术分享
主讲嘉宾:刘权德博士,快手可灵AI(KLING AI)
时 间: 2025年7月22日(周二)下午 16:00–17:30
地 点: 17live 丽湖校区A2-517(1)大会议室
主 持 人: 杨鑫
主讲嘉宾简介:
刘权德,博士。现任快手科技可灵AI(KLING AI)高级研究员。2014年本科毕业于浙江大学竺可桢学院,2022年博士毕业于香港中文大学计算机科学与工程系,此前曾在腾讯光子实验室从事AIGC相关的研究。他的研究主要集中在视觉生成领域,包括图像和视频的生成与精确可控。曾在国际顶级会议和期刊(ICLR, CVPR, ICCV, Nature Communications, etc.)等上发表30余篇论文,并在国际联邦学习挑战赛FeTS中斩获冠军。其研究成果在Google Scholar上被引用超过3000次。曾获得微软学者奖学金提名,并被评选为全球前2%顶尖科学家。
报告简介(Abstract):
过去一年,以Diffusion Transformer为核心的新一代视频生成技术取得了显著进展,成为大模型领域的研究热点之一。随着数据和模型的不断提升,各类大模型如Sora、可灵(Kling)和Veo3等在模型性能上实现了质的飞跃,为内容创作带来了前所未有的可能。此外,视频生成技术也开始从传统的单模态文本驱动发展到多模态上下文驱动,在视频生成的灵活性、可控性和效果方面实现了进一步突破。本报告将从视频生成场景出发,探讨相关前沿任务和技术,并分享可灵大模型近期的一些研究成果。
用户登录
还没有账号?
立即注册