随着深度学习技术的不断发展,大模型在各个领域中的应用越来越广泛。CVPR 2025(计算机视觉与模式识别会议)上,许多关于大模型微调领域的创新论文被接受,以下是一些亮点:
1. RLAIF-V:全开源范式对齐下的 Test-time Scaling
摘要:如何在多模态领域实现有效的 Test-time Scaling 依旧是一个有待深入探索的话题。RLAIF-V 技术通过开源范式实现多模态模型对齐,在 MiniCPM 小钢炮等开源模型上验证显示,其可信度超越 GPT-4V,并通过自反馈机制优化解码过程,首次实现多模态 Test-time Scaling 突破。
关键词:多模态,Test-time Scaling,开源,模型对齐,自反馈机制
主要贡献:
- 提出一种基于开源范式的多模态模型对齐方法;
- 首次实现多模态 Test-time Scaling 突破;
- 通过自反馈机制优化解码过程,提高模型性能。
2. RandAR:随机顺序自回归解锁视觉领域的“GPT时刻”
摘要:本文介绍了 CVPR 2025 的一篇论文 RandAR,提出了一种随机顺序自回归的视觉生成模型,能够实现零样本泛化到多种视觉任务,解锁了视觉领域的GPT时刻”。
关键词:视觉生成模型,随机顺序自回归,零样本泛化,GPT时刻
主要贡献:
- 提出一种随机顺序自回归的视觉生成模型;
- 实现零样本泛化到多种视觉任务;
- 为视觉自回归模型的发展提供新的方向。
3. NFCM:一块2080Ti搞定数据蒸馏,GPU占用仅2G
摘要:来自上交大EPIC实验室等机构的一项最新研究,提出了一种新的数据集蒸馏方法——NFCM。与之前SOTA相比,新方法的显存占用只有1/300,并且速度提升了20倍,相关论文获得了CVPR满分。
关键词:数据蒸馏,NFCM,显存占用,速度提升
主要贡献:
- 提出一种新的数据集蒸馏方法——NFCM;
- 显存占用仅为1/300,速度提升了20倍;
- 在多个基准数据集上取得显著的性能提升。
4. PyramidDrop:加速大型视觉-语言模型训练和推理
摘要:PyramidDrop通过减少视觉冗余来加速大型视觉-语言模型(LVLMs)的训练和推理过程,同时几乎不影响模型性能。
关键词:视觉冗余,LVLMs,训练和推理,PyramidDrop
主要贡献:
- 提出一种名为PyramidDrop的新方法,减少视觉冗余;
- 通过减少视觉冗余来加速LVLMs的训练和推理过程;
- 几乎不影响模型性能。
5. FoundationStereo:英伟达开源双目深度估计大模型
摘要:本文介绍了 FoundationStereo,一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。
关键词:立体深度估计,零样本泛化,FoundationStereo
主要贡献:
- 提出首个零样本泛化能力强大的立体匹配基础模型;
- 在Middlebury, ETH3D等多个排行榜位列第一。
6. Q-Eval-100K:当前最大AIGC评估数据集
摘要:上海交通大学-美团计算与智能联合实验室发布的论文提出了Q-Eval-100K数据集与Q-Eval-Score评估框架,致力于解决现有文本到视觉评估数据集存在的问题。
关键词:AIGC评估,Q-Eval-100K,文本到视觉评估
主要贡献:
- 提出Q-Eval-100K数据集与Q-Eval-Score评估框架;
- 数据集Q-Eval-100K是当前最大的AIGC评估数据集;
- 为AIGC图片视频生成类模型的评估提供了一种开源的较为准确客观的打分框架。
7. Reconstruction vs. Generation:解决扩散模型中的优化难题
摘要:本文提出了VA-VAE(视觉基础模型结合变分自动编码器),显著扩展了潜在扩散模型的重建生成边界,使高维潜在空间中的Diffusion Transformers (DiT) 能够更快地收敛。
关键词:扩散模型,VA-VAE,潜在扩散模型,优化难题
主要贡献:
- 提出VA-VAE,扩展潜在扩散模型的重建生成边界;
- 改进训练策略和架构设计,提高训练效率。
这些创新论文展示了大模型微调领域的研究进展和最新成果,为相关领域的研究者提供了有价值的参考。