ACL上新 | 6篇精选论文带你看最新LLMs进展

2024年8月7日

分享这个页面

编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉，同时也能找到先进实用的开源工具。

下周，自然语言处理领域的国际顶级学术会议 ACL 2024 将在泰国曼谷举办。本届大会上，微软亚洲研究院共有14篇论文入选，这一期的“科研上新”栏目精选了其中的六篇为大家进行简要介绍。

01. 基于微调大语言模型的生成式推荐系统

Aligning Large Language Models for Controllable Recommendations

论文链接：https://arxiv.org/pdf/2403.05063 (opens in new tab)

GitHub 链接：https://github.com/microsoft/recai (opens in new tab)

在数字化时代，传统推荐系统虽便捷，却常显被动，难以满足用户日益增长的个性化、交互性需求。其可解释性的缺失与可控性的不足，也成为了用户体验升级的瓶颈。大语言模型（LLMs）以其卓越的语言理解、知识储备、推理和问题解决能力，有望成为下一代推荐系统的新引擎。

受此启发，微软亚洲研究院和深圳大学的研究团队合作，打造了以用户为中心的新一代推荐系统。它由大语言模型驱动，能更自然地理解用户需求的动态变化并提供更加精准的个性化服务。其中，针对领域知识和领域指令的大语言模型微调与对齐成为关键。研究团队为此设计了一个两阶段训练框架：监督学习（SL）阶段和强化学习（RL）阶段。

在监督学习阶段，研究团队设计了一系列针对性任务，如物品信息问答、物品推荐、类别控制等，用来增强大语言模型对新知识的导入，以及提高推荐相关的复杂指令的遵从能力。同时，传统推荐模型（例如 SASRec）还作为教师模型，帮助生成监督学习所用的标签，有效解决了训练数据稀疏的问题。在强化学习阶段，研究团队希望进一步提高模型的泛化能力，让大语言模型去响应开放性的用户指令，并通过精心设计的奖励机制，让模型不断朝着更优的方向迭代，使其能够更精准地服从用户指令意图，并减少输出的格式错误。

Aligning Large Language Models for Controllable Recommendations - diagram — *图1：方法概览*

实验表明，这种生成式推荐系统能够很好地响应多种用户的推荐请求，为交互式智能推荐系统打下基础。研究团队在生成式推荐方向上的研究工作也将持续在 GitHub 中开源分享。

02. 大语言模型驱动的数据科学代理的基准测试

论文链接：https://arxiv.org/pdf/2402.17168 (opens in new tab)

GitHub 链接：https://github.com/MetaCopilot/dseval (opens in new tab)

数据科学通过分析大量数据可以帮助个人和组织做出明智决策、预测趋势和改进流程。然而，数据科学的复杂性需要广泛的分析工具和专业知识，对专家也构成了挑战。近期，大语言模型及其驱动的代理在增强数据科学能力方面显示出巨大潜力，但由于 LLMs 的限制、不明确的上下文或缺乏故障恢复机制，其在实际应用中仍面临可靠性和准确性的问题（如忽略列、误解数据类型、未按指定格式输出结果或修改原始数据）。现有的评估方法在衡量数据科学代理的能力和局限性方面还有很大的进步空间。

Benchmarking Data Science Agents - diagram — 图2：数据科学代理的典型工作流程图

为此，微软亚洲研究院的研究员们提出了一个新型基准框架 DSEval，旨在全面评估 LLMs 驱动的数据科学代理。其通过引入新的注释过程和语言（DSEAL，DSEval Annotation Language），显著提高了基准的可扩展性和覆盖范围。该框架不仅覆盖了数据科学代理的整个生命周期，从接收查询、检索上下文、生成代码到执行代码并返回结果，还包括一个验证模块，可以持续监控生成的代码、执行的结果和运行时会话，并与参考代码片段进行比较，确保准确性。

此外，DSEAL 还被用于描述和配置问题集，确保与 DSEval 框架兼容，并易于理解和调试。问题集由系统自动生成并经专家修订，确保了其多样性和准确性，从而减少了人工的工作量，提高了基准测试的质量。

实验结果显示，DSEval 框架在评估数据科学代理方面表现优异。通过对不同代理方法的比较，实验还发现上下文提取方法对 LLMs 性能有显著影响。并且，通过多轮自我修复尝试，低能力模型（如GPT-3.5）在处理复杂任务时的表现优于高能力模型（如GPT-4），展示了自我修复方法的巨大潜力。

DSEval 目前已开源该框架和数据集，未来研究员们也将继续深入探索这一领域。

03. BitDistiller：通过自蒸馏释放低于4比特大模型的潜力

BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation

论文链接：https://arxiv.org/pdf/2402.10631 (opens in new tab)

GitHub 链接：https://github.com/DD-DuDa/BitDistiller (opens in new tab)

大语言模型在自然语言处理任务中随规模扩大表现出色，然而，模型的内存和计算需求激增使它们的部署变得越来越具挑战性。权重量化是目前解决该问题的常见模型压缩方法，能够提升推理部署的效率。但低于4比特的量化方法会显著降低模型权重的精度，进而影响模型性能，尤其是在较小的模型或需要复杂推理的任务中。

现有的量化方法，如后训练量化（PTQ），由于没有经过重训练，难以保持模型的准确性。相比之下，量化感知训练（QAT）通过优化低比特权重，虽能保持模型的准确性，但仍然面临挑战：如何在低比特量化过程中最大程度地保持权重的精度，以及如何在训练中高效地学习低比特表示。

为解决这些问题，微软亚洲研究院的研究员们提出了基于自我蒸馏的 QAT 框架，即 BitDistiller（见图4左）。BitDistiller 采用了定制的非对称量化和 Clipping 技术来提升量化效果。非对称量化对浮点数的正负数采用不同的缩放方式，并对整型数据添加零点，以确保非对称性；Clipping 技术则通过自动截取正负数的离群值来优化模型表现。此外，研究员们还提出了一种置信度感知的 Kullback-Leibler 散度（CAKLD）目标，通过自我蒸馏更好地拟合教师模型的分布，从而实现更快的收敛和更优的模型性能。

BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation - chart — 图4：BitDistiller 的框架图（左）和代码生成模型的量化 Scaling Law （右）

实验结果表明，BitDistiller 在3比特和2比特量化配置下，在通用语言理解和复杂推理基准测试中显著超越了现有的 PTQ 和 QAT 方法。特别是在复杂的代码生成任务中，BitDistiller 展现了显著优势（见图4右）。该方法不仅在资源受限的设备上实现了高效部署，而且只需较少的训练数据和资源，显示出了其在成本效益方面的优越性。

低比特量化已经成为高效部署大语言模型的标准方法。为了更好地支持低比特大语言模型在 GPU 和 CPU 上的部署，研究团队还开发了 BitBLAS（microsoft/BitBLAS）和 T-MAC（microsoft/T-MAC）系统，并对由 BitDistiller 蒸馏的2比特模型提供了端到端的推理支持，展示了其在降低成本和提升性能方面的显著优势和巨大潜力。

04. PIN：使用强化学习优化得到可解释提示词

论文链接：https://www.arxiv.org/pdf/2407.14733 (opens in new tab)

预训练的大语言模型在应用到具体下游任务（如文本分类）之前通常需要进行微调。提示词微调（hard prompt tuning）是一种有效的微调方法，其通过搜索合适的提示词，可以提升模型在特定任务上的表现，并且具有成本低、适用范围广，无需调整模型内部参数的优点。作为一个离散优化问题，目前针对提示词微调采取的主流方法是强化学习，其通过每步选择一个提示词来优化一系列提示词在特定任务上的性能。然而，现有方法生成的提示词通常是一些低频且语义不明的词汇，往往解释性较差。

为了改进这一问题，微软亚洲研究院的研究员们提出使用 Tsallis 熵来约束强化学习过程 PIN，从而在采样和价值函数估计阶段关注出现概率最高的候选提示词。这不仅加快了对提示词价值的评估，还避免了生成低频、语义模糊的词汇。PIN 算法是大语言模型微调领域的一项重要进展，有望提升模型在各种工业场景中的应用效果。

具体而言，研究们员在 RLPrompt 的基础上进行了两点改进：在采样阶段避免选择出现概率较低的提示词（见红框）以及在计算目标价值函数时避免优化低概率候选提示词的价值函数。这些改进通过 PIN 算法得以实现（见蓝框）。

Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL - Algorithm 1 prompts — 图5：PIN 算法框图

通过在文本分类、文本风格迁移、图片标注等提示词生成任务上的详细实验。PIN 算法不仅在这些任务上取得了更好的性能，而且优化效率更高，能以更少次数的语言模型调用优化得到更好的提示词组合。

Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL - table and three charts — 图6：（上）在文本分类任务上，PIN 生成的提示词性能优于其他基线方法；（下）在图片标注任务上，PIN 的强化学习过程效率更高并且性能更好。

05. 提高大语言模型在事件关系逻辑预测中的表现

Improving Large Language Models in Event Relation Logical Prediction

论文链接：https://arxiv.org/pdf/2310.09158 (opens in new tab)

大语言模型虽然在许多领域取得了突破性进展，但在处理复杂事件关系逻辑时仍存在困难，常表现为一致性不足或推理能力有限。当前的研究表明，现有 LLMs 在需要严谨推理的任务上表现不佳，逻辑一致性较差。

针对这些现象，来自微软亚洲研究院的研究员们提出了几种提升 LLMs 逻辑推理能力的策略（图7），包括：生成式方法，即通过引入连贯的逻辑约束指导 LLMs 的推理；检索式方法，即通过判断模型初始答案来检索相关逻辑约束并添加到模型指令中；微调式方法，即通过逻辑推理引擎来构建高阶事件关系逻辑预测数据集（LLM-ERL），并以此对模型进行微调。

Improving Large Language Models in Event Relation Logical Prediction - prompt diagram — 图7：通过使用生成、检索和微调方法，将逻辑约束纳入 LLMs 中。虚线框表示 LLMs 输出的答案，下划线文本表示逻辑约束。

然后，研究员们在多个数据集上进行了广泛的定量和定性分析并发现：首先，在需要有严谨逻辑推理的任务上直接使用 CoT 会受到 LLMs 固有问题的限制（如幻觉问题），但在推理过程中纳入逻辑约束是有益的。其次，检索式方法能显著减少 LLMs 回答中的不一致，其中较强的模型如 GPT-4 可以有效地自行进行检索，而较弱的模型则需要辅助筛选相关信息。最后，当检索迭代次数增加时，随着上下文信息的增多，LLMs 可能会出现「过度思考」现象，最终倾向于输出保守的、没有逻辑冲突的、但也没有任何语义的答案（比如，判断所有事件之间都没有任何关系）。研究员们还提出，在进行 few-shot in-context learning 时，告诉模型“是什么”（demonstrations）和“为什么”（logical constraints）都及其重要。

该研究深入探讨了大语言模型在事件预测、逻辑推理等问题上的不足，为未来设计有效的方法以及如何将大模型应用到实际任务中提供了新的思路和解决方法。

06. E5-Mistral：大语言模型增强的文本嵌入

Improving Text Embeddings with Large Language Models

论文链接：https://arxiv.org/pdf/2401.00368 (opens in new tab)

Github链接：https://github.com/microsoft/unilm/tree/master/e5 (opens in new tab)

文本嵌入模型将一段连续的文本映射成低维的稠密向量，是搜索引擎、推荐系统中召回模块的重要组件，对于最终的排序结果有着直接的影响。其还可以对语言模型进行检索增强（RAG），帮助语言模型在推理阶段访问最新的信息和私有知识库。然而，现有的文本嵌入工作所采用的基础模型泛化能力弱，且训练数据多样性不足，限制了嵌入模型的质量。

为解决上述问题，本篇论文从两个方面挖掘了大语言模型在文本嵌入方面的潜力。一方面，针对现有标注数据多样性不高的问题，研究员们设计了一种两阶段的提示策略，通过 GPT-4 等强大的语言模型合成数十万种嵌入任务的数据并覆盖93种语言，极大缓解了许多长尾任务缺乏训练数据的问题；另一方面，针对 BERT 等小编码器模型出现的泛化能力弱的问题，研究员们采用了 Mistral 等经过广泛预训练的解码器模型作为基座，实验表明，只需要不超过1k步梯度更新，就可以达到很好的泛化效果。同时，与主流的多阶段对比学习预训练相比，整个训练流程也会大大简化。

Improving Text Embeddings with Large Language Models - prompts — *图7：通过使用生成、检索和微调方法，将逻辑约束纳入 LLMs 中。虚线框表示 LLMs 输出的答案，下划线文本表示逻辑约束。*

在嵌入模型定制化方面，E5-Mistral 支持通过自然语言来描述当前的嵌入任务，可以在不更改模型参数的前提下，定制化嵌入模型的行为。实验结果表明，在包含56个数据集的 MTEB 评测基准上，E5-Mistral 显著优于现有的开源以及商业闭源的文本嵌入模型，并展现出一定的多语言和长文本泛化能力。

E5-Mistral 的开源模型已受到广泛关注，累计获得百万余次下载量。该研究团队将继续探索嵌入模型的扩展和应用。