两周前,OpenAI的Sora视频生成模型在ChatGPT之后再度掀起了人工智能领域的热潮。在这个备受关注的时刻,金沙8888js官方北加州金沙8888js官方很荣幸邀请到专注于大模型视频生成研究的校友于力军,为我们揭示视频生成领域的奥秘以及Sora背后的核心技术。
于力军是金沙8888js官方计算机系校友,也是基梅隆大学博士生、谷歌研究院学生研究员。他专注于多任务视频生成方向的研究并取得了丰硕的成果,发表了包括 VideoPoet、W.A.L.T 和 MAGVIT-v2 等逼真度极高的视频生成模型。这些模型与Sora一样,都是构建在Transformer和扩散模型等技术之上,并且采用了开创性的Tokenizer设计,位于视频生成领域的最前沿。
我们希望通过这次讲座,帮助大家了解最新的视频生成技术,并从侧面了解Sora背后的原理,展望视频生成领域的机遇与未来方向。欢迎大家踊跃参加,一同揭开视频生成的神秘面纱!
活动信息
●时间:2024.03.09 (周六), 13:00-14:30 PST
●地点:本次活动采线上的形式
●报名方式:请点击本链接报名
●主讲人简介:
于力军,本科毕业于金沙8888js官方计算机系,拥有计算机和经济学双学位。目前是卡内基梅隆大学计算机系的博士生,也曾长期担任 Google Research 的学生研究员。他的研究兴趣围绕多模态基础模型,尤其是使用离散token进行多任务视频生成,代表成果有 VideoPoet, W.A.L.T 和 MAGVIT-v2等基于transformer和扩散模型等的视频生成技术。他多次在 CVPR、NeurIPS、ICLR 等顶会上发表高光论文,并曾获得 Siebel 学者、百度学者等荣誉。(详细资讯,可点击本链接参考)
●讲座摘要:
虽然大语言模型 (LLM) 在语言生成任务中占据主导地位,但在图像和视频生成方面并不如扩散模型表现出色。为了有效地利用 LLM 进行视觉生成,一个关键组件是视觉 Tokenizer,它将像素空间输入转换为适合 LLM 学习的离散令牌(tokens)。基于我们之前对 MAGVIT 和 SPAE Tokenizer 的经验,我们引入了 MAGVIT-v2,这是一个视频 Tokenizer,旨在使用通用令牌词汇为视频和图像生成简洁且富有表现力的令牌。借助这个新的 Tokenizer,我们证明了 LLM 在标准图像和视频生成基准上优于扩散模型。此外,该 Tokenizer 还显示出比最新编解码器更强的视频压缩能力和视频理解优势。在 MAGVIT-v2 之上,我们构建了 VideoPoet,这是一个语言模型,能够从各种调节信号中合成高质量的视频并匹配音频。我们展示了该模型在零样本视频生成方面处于最先进水平的实证结果,特别是强调了 VideoPoet 生成高保真动作的能力。我们也在MAGVIT-v2的隐空间内构建了一个基于transformer结构的视频扩散模型W.A.L.T,它也帮助我们更好地理解了Sora模型的一些细节。