1.2万人朝圣CVPR,华人学者夺最佳论文!Sora舵手火爆演讲成大型追星现场
新智元报道
新智元报道
【新智元导读】一年一度CVPR最佳论文放榜了!刚刚结束开幕演讲上,公布了2篇最佳论文、2篇最佳学生论文、荣誉提名等奖项。值得一提的是,今年北大上交摘得最佳论文提名桂冠,上科大夺得最佳学生论文。
2024年CVPR会议将在美国西雅图拉开帷幕,根据官方的公告,本届会议已经成为CVPR历史上规模最大、参与人数最多的一届,截止6月19日,现场参会人数已超过1.2万人。
此外,近年来的论文接收数量也水涨船高,共有11532篇提交论文,录用率为23.58%,比去年的9155篇论文多出了2000多篇。
由于开年Sora模型带起的视频生成的热潮,今年CVPR接收论文数量最多的领域就是「图像视频的合成与生成」,紧随其后的两个领域分别是「多视角和传感器的3D」以及「人体:面部、躯体、姿势、手势和移动」。
从会议现场的照片中,也能肉眼感受到CVPR的热烈程度。
揭秘Sora训练技巧
Sora研究团队的负责人Tim Brooks也在研讨会上发表了演讲,揭秘了Sora模型的一些训练技巧以及视频生成模型未来的新功能。
演讲中,Brooks表示自己看好Transformer架构的可扩展性,如果算力足够,我们有望借此实现世界模拟器。
此外他也分享了一些训练模型的心得,比如不要为了某个特定任务去调整模型架构,而是先考虑让数据适应任务。
比如,Sora在训练时的技巧就多与数据有关,包括使用不同比例的图像和视频,以及搭配字幕训练。
有推特网友表示,Brooks的演讲堪比追星现场,都差点挤不进去。
当然,最重磅的还是CVPR在今天凌晨的大会开幕演讲上。正式官宣了2024年最佳论文、最佳学生论文等大奖的得主。
该奖项每年都会表彰在计算机视觉、人工智能(AI)、机器学习(ML)、增强现实、虚拟现实和混合现实(AR/VR/MR)、深度学习等领域的顶尖研究。
今年,CVPR从超过11,500篇论文提交中,选出了以下10篇最佳论文——是2023年的两倍之多。
最佳论文
机构:谷歌研究院
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Generative_Image_Dynamics_CVPR_2024_paper.pdf
在这项工作中,作者提出了一种从单张静态图片中建模自然振荡动态效果的新方法。该方法能够从单张图片生成照片般真实的动画,并显著优于现有的基准方法。此外,他们还展示了在多个后续应用中的潜力,例如创建无缝循环或交互式图像动态效果。
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Liang_Rich_Human_Feedback_for_Text-to-Image_Generation_CVPR_2024_paper.pdf
在这项工作中,作者提出了第一个详尽的用于图像生成的人类反馈数据集。具体来说,他们设计并训练了一个多模态Transformer来预测这些详尽的人类反馈,并展示了一些改进图像生成的实例。
这篇论文的共同一作分别是华南农业大学校友Youwei Liang、清华校友Junfeng He、武大及港中文校友Gang Li。
荣誉提名
题目:EventPS: Real-Time Photometric Stereo Using an Event Camera
机构:北京大学,上海交通大学,东京大学,国立情报学研究所
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf
题目:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
机构:麻省理工学院,西门菲莎大学,多伦多大学
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf
最佳学生论文
题目:Mip-Splatting: Alias-free 3D Gaussian Splatting
机构:图宾根大学,图宾根AI中心,上海科技大学,捷克理工大学
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_Mip-Splatting_Alias-free_3D_Gaussian_Splatting_CVPR_2024_paper.pdf
在这项工作中,作者提出了一种通过3D平滑滤波器和2D Mip滤波器改进3D高斯泼溅(3DGS)的全新方法Mip-Splatting,用于在任何尺度上进行无锯齿渲染。该方法在分布外测试场景中显著优于当前最先进的方法,当测试采样率与训练采样率不同的时候,能够更好地适应分布外的相机姿态和缩放因子。
值得一提的是,论文的三位一作Zehao Yu、Anpei Chen(陈安沛)、Binbin Huang,都是上海科技大学在读或毕业生。
题目:BioCLIP: A Vision Foundation Model for the Tree of Life
机构:俄亥俄州立大学,微软研究院,加利福尼亚大学尔湾分校,伦斯勒理工学院
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Stevens_BioCLIP_A_Vision_Foundation_Model_for_the_Tree_of_Life_CVPR_2024_paper.pdf
在这项工作中,作者提出了TREEOFLIFE-10M和BIOCLIP,分别是一个大规模多样化的生物图像数据集和一个用于生命之树的基础模型。研究表明,BIOCLIP是一个强大的细粒度生物分类器,在零样本和少样本设置中有着出色的表现。
荣誉提名
题目:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency
机构:波恩大学
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf
题目:Image Processing GNN: Breaking Rigidity in Super-Resolution
机构:北京大学,华为诺亚方舟实验室
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf
题目:Objects as Volumes: A Stochastic Geometry View of Opaque Solids
机构:卡内基梅隆大学
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Miller_Objects_as_Volumes_A_Stochastic_Geometry_View_of_Opaque_Solids_CVPR_2024_paper.pdf
机构:俄勒冈州立大学
论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf
此外,CVPR的主办方电气和电子工程师学会计算机协会(IEEE Computer Society, CS),也正式宣布了模式分析和机器智能技术社区(TCPAMI)的奖项。
Longuet-Higgins奖
2024年获奖者:Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation(2014)
作者:Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik
论文地址:https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf
年轻研究员奖
Thomas Huang纪念奖
微信扫码关注该文公众号作者