图像解码器；多头混合专家网络；视觉模型美学对齐；医学视觉任务适应基准

2024年7月30日

分享这个页面

编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉，同时也能找到先进实用的开源工具。

01. MedVTAB：大规模医学视觉任务适应基准

A Large-scale Medical Visual Task Adaptation Benchmark

论文链接：https://arxiv.org/abs/2404.12876 (opens in new tab)

近年来，深度学习的显著进步极大地推动了计算机视觉领域的发展，尤其是视觉 Transformer（ViT）的引入。经过大规模数据集预训练后，这些模型在各种视觉任务上表现出了卓越的性能。通过引入专门的可学习层或标记，ViT 在特定下游任务中的适应性（称为视觉任务适应性）为任务特定模型的优化开辟了新的途径。这种适应性允许对预训练模型进行微调，以适应特定任务的细微差别，从而提升模型的性能和适用性。

尽管这些进步显著，但视觉任务适应性在医学领域的应用仍未得到充分探索，特别是在多种医学影像模态（如彩色图像、X 光片和 CT 扫描）中的应用。医学影像领域面临着独特的挑战，包括数据的异质性、对高精度的迫切需求以及模型在不同器官和疾病之间的泛化能力。此外，视觉任务适应性在系统和大规模方式下利用医学和非医学领域的现有知识的潜力尚未得到充分研究。

为填补这一空白，研究员们引入了一个综合性的医学视觉任务适应性基准数据集 Med-VTAB，希望促进视觉任务适应性技术在医学影像领域的探索和评估。Med-VTAB 涵盖了168万张医学图像，包括10个重要器官和5种在真实世界医学场景中具有挑战性的模态，使其成为最广泛的同类基准之一。该基准旨在探讨视觉任务适应性策略的有效性，并研究医学影像适应中的扩展规律。

A Large-scale Medical Visual Task Adaptation Benchmark - comparison chart — 图1：Med-VTAB 数据集概览作为大规模的医学影像适应性基准数据集概览

随后，研究员们考察了医学提示调优中可调参数数量与模型性能之间的关系，以及来自医学和非医学预训练权重的适应性的泛化能力。并且，研究员们还对患者 ID 分布变化影响适应模型性能进行了研究，这是医学应用中模型对新患者数据鲁棒性至关重要的一个方面。

除了这些探索之外，研究员们还提出了一种新的适应技术，即门控专家混合适配器（GMoE-Adapter）。它利用了来自医学和通用视觉预训练的见解，在医学视觉任务适应中实现了最先进的性能。GMoE-Adapter 展示了结合领域特定知识与来自多种来源的广泛、通用学习的混合适应策略的潜力。

A Large-scale Medical Visual Task Adaptation Benchmark - diagram — 图2：门控专家混合适配器（GMoE-Adapter）框架与标准适配器和 MoE-Adapter 方法的对比

通过 Med-VTAB 基准和对适应策略与扩展规律的研究，这项工作将为医学视觉任务适应研究设立新的标准。而通过强调定制适应技术的重要性和对新颖适应方法的探索，研究员们希望可以提高诊断准确性以及提升患者的治疗效果。

02. 对齐视觉模型与人类美学：算法与评估

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms

论文链接：https://arxiv.org/abs/2406.09397 (opens in new tab)

现有的大规模视觉-语言模型需要在网络级大规模的数据上进行预训练。但数据参差不齐，得到的模型往往面临价值对齐的问题。在文本-图像检索任务中，可能表现为美学质量过低，细粒度要求不符，带有有害偏见等问题。由于这类问题主观性较高，目前缺乏有效的方式进行评估和改进。

因此，研究员们选择了最为主观的任务之一——美学作为代表，来研究价值对齐的问题。根据美学的定义和研究，美学可以划分为主观的美学理解（象征性、文化性等）和客观的视觉吸引力（色彩、分辨率、饱和度等），其它对齐任务也类似。研究员们发现，人类对美学的理解由于存在于大量的文献和著作中，所以能够被大语言模型学习，进一步地，通过使用大语言模型为用户查询、扩展美学期望，从而能极大地提高美学效果。

研究员们公平地评估了各种提示词下的大语言模型和美学模型，证明了大语言模型带来美学理解的有效性和美学模型所包含图像先验的有效性和互补性。为了实现端到端的高效检索系统，研究员们提出一个基于排序的强化学习算法来微调视觉模型，并从大语言模型和美学模型中蒸馏知识。

在评估时，研究员们首先构建了一个美学偏好数据集 HPIR，由于美学的主观性，每条样本都要经过30次标注的投票，并给出置信度。利用 HPIR，研究员们还验证了 GPT-4V 作为美学评判器的可行性。最终的实验在 HPIR、GPT-4V 评判和人类评判三个机制下共同验证，经过美学对齐微调后的端到端检索模型可以和集成了大语言模型和美学模型的多阶段系统取得相似的成绩，这极大地简化了高质量检索系统的复杂度，减轻了维护代价和检索时延。

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms - diagram — 图3：从大语言模型和美学模型中用强化学习蒸馏美学理解和视觉先验

03. GLC：基于生成式特征编码的极低码率图像编解码器

论文链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Jia_Generative_Latent_Coding_for_Ultra-Low_Bitrate_Image_Compression_CVPR_2024_paper.pdf (opens in new tab)

目前主流的图像编解码器通常在像素空间直接对图像编码。然而，图像像素的失真度量指标并非总是与人类的视觉一致，尤其在图像编码失真较为严重的极低码率压缩场景中。因此，实现更符合人类视觉的图像编码是一项关键挑战。

微软亚洲研究院的研究员们发现，相比于原始像素，生成式 VQ-VAE 的特征具有更高的主观视觉一致性、更低的熵和更高的鲁棒性，所以更适合高主观质量的极低码率编码。基于这一观察，研究员们提出了可以在生成式 VQ-VAE 的特征空间进行编码的模型 GLC。

Generative Latent Coding for Ultra-Low Bitrate Image Compression - visual grid — 图4：GLC 与之前 SOTA 图像编码器的视觉质量对比

具体来说，GLC 首先使用 VQ-VAE 的编码器将图像编码为生成性特征，然后通过变换编码网络对这些特征进行编码，最后将解码的特征通过 VQ-VAE 的解码器重建为图像。在编码图像时，GLC 不需要使用 VQ 编码，而是设计了一个变换编码网络用于特征压缩。这种设计不仅提高了 GLC 的压缩率，还使其可以支持可变码率编码。

为了提高压缩性能，GLC 在变换编码的边信息编码中设计了一种基于矢量码本的先验模型。与传统的可分离先验相比，这种先验能够以更低的码率编码更强的语义信息。GLC 还在训练中使用了一个辅助网络，根据解码特征预测原图所对应的 VQ 索引，从而提高解码特征与原图的语义一致性。

实验结果表明，GLC 在多个测试基准中实现了最高的压缩性能。GLC 可以以平均每像素0.03比特的极低压缩率实现高质量的图像压缩。与基于像素空间压缩的 SOTA 编码器 MS-ILLM 相比，GLC 在相同的 FID 指标下节省了超过45%的比特。另外，通过利用其特征空间，GLC 可以在压缩图像的同时实现图像恢复、风格迁移等功能。

04. MH-MoE：多头混合专家网络

论文链接：https://arxiv.org/abs/2404.15045 (opens in new tab)

进一步提升如大型语言模型（LLMs）和大型多模态模型（LMMs）等大型容量模型（large capacity models）的性能，有一个可靠的方法就是通过增加参数数量来扩展它们。然而，这些模型的庞大尺寸显著降低了推理速度，进一步限制了它们的实用性。在此背景下，稀疏混合专家（SMoE）的方法被提出，它在减轻计算成本的同时促进了模型的可扩展性，但仍然面临专家激活率低、缺乏细粒度的分析能力等缺点。

因此，微软亚洲研究院的研究员们提出了一个名为多头混合专家网络（Multi-Head Mixture of Experts, MH-MoE）的高效变体结构来缓解上述问题。多头混合专家网络采用多头机制将每个输入的令牌分割成多个子令牌，这些子令牌随后会被分配给不同的专家网络并行处理，最终无缝地重新整合回原始令牌形式。

Multi-Head Mixture-of-Experts - inputs diagram — 图5：MH-MoE 在视觉和语言数据上的工作流

MH-MoE 有如下优点：

更高的专家激活效率。如图6所示，SMoE 有许多未被激活的专家（暗色），而 MH-MoE 则显著提高了这些专家的使用率，达90.71%。

Multi-Head Mixture-of-Experts - layers comparison — 图6：稀疏混合专家网络层（左）和多头混合专家网络层（右）

更精细的理解能力。如图7所示，子符号被 MH-MoE 分配给了更多不同的专家（亮区），使不同专家能够共同关注来自不同表征空间的信息，最终实现更好的细粒度理解能力。

Multi-Head Mixture-of-Experts - side-by-side images for RGB Input and Sub-tokens Assign — 图7：MH-MoE 对子符号的分配，亮区-分配给了不同专家，暗区-分配给了相同专家。

除此之外，MH-MoE 实现简单，可与其他稀疏混合专家网络优化方法解耦，易于集成到其他稀疏混合专家网络模型中以提高性能。

研究员们还在三个预训练任务及其下游任务上进行了广泛的实验，结果表明，该方法不仅显著提升了专家混合网络在上游预训练任务和下游任务中的表现，还在很大程度上缓解了专家激活率低的问题，使模型更加高效。