【速览】四篇长文本生成论文速览

LLM的长文本生成是一个广泛需求但难度较高的研究方向。自从大型语言模型首次进入大众视野以来，大家便积极尝试利用这些模型创作长篇故事。然而，由于上下文长度的限制和灾难性遗忘问题，如何确保生成内容前后一致、逻辑连贯并避免冗余输出，仍是亟待解决的挑战。同时，相较于LLM在语言处理或问答领域的应用，如何客观评估生成文章的质量也是研究者必须面对的重要问题。虽然目前LLM在问答和长文本输入方面已有不少成果，但长文本输出的研究热度相对较低。本文选取了自2024年以来发表的4篇长文本输出相关论文，旨在探讨它们如何应对上述研究难题。

1. STORM：通过检索和多视角提问综合生成主题大纲
#

发表单位：斯坦福大学

论文地址：[ 2402.14207] Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models

项目地址： stanford-oval/storm: An LLM-powered knowledge curation system that researches a topic and generates a full-length report with citations.

录用情况：NAACL 2024

任务目标
#

动机：大型语言模型（LLMs）在写作方面表现出色，但如何利用它们撰写类似维基百科的长篇条目文章仍待探索。撰写此类文章需要在写作前的准备阶段进行彻底的研究和规划，而之前生成维基百科文章的工作通常跳过了这一阶段，假设参考文档或文章大纲已存在，这在一般情况下并不现实。
现有问题：收集参考文献和制定大纲需要先进的信息素养技能，这对经验丰富的作家来说也极具挑战性。此外，仅依靠LLMs的参数知识生成大纲或文章存在缺乏细节和幻觉的问题，尤其是在处理长尾主题时。本文的目标即是生成一个具有深度广度的文章大纲，进而生成高质量文章。

具体方法
#

论文通过提出一个名为STORM（Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking）的系统来解决这个问题。STORM系统的核心思想是通过模拟多视角的对话来研究主题，并基于这些对话创建文章大纲。STORM的工作流程可以分为以下几个关键步骤：

Step1. 主题驱动的视角构建
#

发现多样视角：STORM首先通过检索和分析类似主题的维基百科文章来发现不同的视角。它会检索与给定主题相关的维基百科文章，并提取这些文章的目录（TOC），然后基于这些目录来识别可以用于撰写全面文章的不同视角 $ P = {p_1,p_2,…,p_n}$。此外，作者在 $P$ 中添加了 $p_0$ 作为 “专注于广泛涵盖主题的基本事实的事实编写者”视角，以确保关于原始主题 $t$ 的基本信息也得到涵盖。
指定具体视角：在识别出多样视角后，STORM会为每个视角创建一个角色，这些角色将指导后续的问题提问过程。例如，对于“2022年冬奥会开幕式”这一主题，可能的视角包括活动策划者、参与者、观众等，每个视角都有其独特的关注点。

Step2. 模拟对话
#

初始化对话：对于每个视角，STORM会模拟一个维基百科写作者与主题专家之间的对话。对话从写作者基于主题和指定视角提出一个问题开始。
多轮对话：在每一轮对话中，写作者会根据主题、指定的视角以及之前的对话历史提出一个问题。然后，系统会将这个问题分解成多个搜索查询，并使用搜索引擎来查找相关的网络信息。搜索结果会经过基于规则（ Wikipedia:Reliable sources - Wikipedia）的筛选，以确保只使用可信的来源。最后，系统会综合这些可信的来源来生成专家的回答，并将这些回答添加到参考文献集合 $R$ 中。
结束对话：当写作者没有更多问题时，对话结束。这个过程会为每个视角生成一系列的问题和答案，形成多轮对话的记录。

Step3. 创建文章提纲
#

初步提纲生成：在实际写作开始前，STORM先创建一个大纲。即首先提示模型仅根据给定的主题 $t$ 生成草稿大纲 $O_D$。这个提纲是一个包含多级标题的列表，用于指导文章的撰写。
提纲细化：在完成所有视角的模拟对话后，STORM会进一步结合对话中的信息来细化和优化初步大纲 $O_D$，使其更加全面和有组织，改进后的大纲 $O$ 将被用于生成全文。

Step4. 撰写全文
#

基于提纲撰写：在完成提纲后，STORM会根据提纲和收集到的参考文献来撰写完整的维基百科文章。因为参考文献集合 $R$ 一次性塞不进大模型，系统会逐段撰写文章，每段内容都基于提纲中的相应标题和使用标题检索到的参考文献集合 $R$ 中的相关信息。
文章整合与优化：最后，把生成的各段内容拼接到一起，再直接输入到LLM中提示其删除重复信息，优化文章的连贯性和逻辑性，并根据维基百科的风格规范添加摘要部分，即完成了整体文章的生成。

评估方法
#

为了评估大纲覆盖率，作者引入了两个指标：标题软召回和标题实体召回。这些指标比较人类撰写的多级章节标题（视为真实值）与O.。考虑到这两组标题元素之间不需要完全匹配，作者使用来自标题的句子BERT嵌入（Reimers和Gurevych，2019年）计算标题软召回（Franti和Mariescu-Istodor，2023）。作者还计算标题实体召回，量化为人类撰写的文章标题中被O覆盖的命名实体百分比。作者提取FLAIR命名实体识别（NER）（Akbik等人，2019年）中的实体。

数据集
#

FreshWiki数据集：作者创建了一个名为FreshWiki的数据集，包含2022年2月至2023年9月期间创建或大量编辑的高质量维基百科文章。这些文章是最近编辑的，以避免与训练大型语言模型（LLMs）时使用的数据重叠，确保评估的公正性和有效性。数据集中的文章经过筛选，确保其质量达到B类或以上，并且排除了列表文章和没有子部分的文章。

评估指标
#

大纲质量评估：
- 标题软召回率（Heading Soft Recall）：通过计算生成提纲中的标题与人工撰写文章中的标题之间的相似度来衡量提纲的覆盖范围。具体来说，使用Sentence-BERT嵌入来计算标题之间的余弦相似度，然后根据软召回率的定义来评估生成提纲与人工撰写文章的匹配程度。这种方法不要求标题完全一致，而是考虑语义上的相似性。
- 标题实体召回率（Heading Entity Recall）：计算生成提纲中的标题所涵盖的命名实体在人工撰写文章标题中的比例。通过FLAIR命名实体识别（NER）工具来提取实体，从而评估生成提纲在涵盖文章关键实体方面的表现。
文章质量评估：
- 自动指标：采用ROUGE分数来评估生成文章与参考文章之间的相似度。ROUGE是一种常用的文本摘要评估指标，通过比较生成文本和参考文本中的重叠n-gram、词对和词序列来衡量文本的相似性。此外，还计算文章级别的实体召回率，以评估生成文章涵盖关键实体的情况。
- LLM/人工评价指标：根据Wikipedia标准，从以下五个方面对文章进行评价：
  - 兴趣水平（Interest Level）：评估文章是否引人入胜，能否吸引读者的注意力并激发思考。
  - 连贯性和组织性（Coherence and Organization）：判断文章是否结构清晰、逻辑连贯，段落之间是否有良好的过渡。
  - 相关性和聚焦性（Relevance and Focus）：检查文章是否紧扣主题，避免无关内容的干扰。
  - 覆盖范围（Coverage）：衡量文章对主题的各个方面是否有深入探讨，是否提供了全面的覆盖。
  - 可验证性（Verifiability）：确保文章中的每个陈述都有可靠的引用支持，避免原创研究和未经证实的主张。

基线方法
#

Direct Gen：直接提示LLM生成提纲，然后使用该提纲生成完整文章。
RAG（检索增强生成）：使用主题进行搜索，并结合搜索结果和主题来生成提纲或整篇文章。
Outline-driven RAG（oRAG）：与RAG在提纲创建上相同，但在生成文章时，进一步使用部分标题进行搜索，以获取更多信息来逐部分生成文章。

LLM评估
#

作者使用Prometheus进行自动评估，这是一个13B的开源评估LLM ，可以根据定制的1-5分量规对长篇文章进行评分，从兴趣水平、连贯性和组织、相关性和焦点以及覆盖范围的角度给文章打分。下表给出了作者的评分标准。虽然Prometheus评估最好与分数为5的标准文档一起使用，但添加标准文档会超出模型的上下文长度限制。由于Prometheus原论文表明没有参考答案的Prometheus评分也与人类偏好密切相关，因此作者省略了参考答案，并通过迭代删除最短部分的内容来缩短输入文章至2000字以内，以确保输入可以适应模型的上下文窗口。

人类评估
#

评估者：邀请了10位经验丰富的维基百科编辑者参与评估，他们至少在维基百科上进行了500次编辑，并且有超过1年的经验。
评估方式：从数据集中随机抽取20个主题，评估这些主题下由STORM和oRAG生成的文章。每位编辑者会根据上述五个方面对每对文章进行评分，使用1到7的评分标准，其中1表示非常差，7表示非常好。此外，编辑者还需提供开放性反馈和成对偏好。
评估结果：通过计算平均评分、成对比较结果以及p值来分析STORM与oRAG之间的差异。结果表明，STORM生成的文章在组织性、覆盖范围、趣味性等方面均优于oRAG，且在与人类撰写的文章相比时，也展现出一定的优势。不过，编辑者也指出了STORM生成文章在中立性和可验证性方面存在的问题，如存在互联网来源的偏见、过度推断等。

实验结果
#

实验结果：STORM在提纲覆盖范围和文章质量方面均优于基线方法。具体来说，STORM生成的文章在组织性、覆盖范围和引用质量等方面表现出色，且能显著提高文章的趣味性和相关性。
人类评估：经验丰富的维基百科编辑者认为STORM生成的文章在组织性和覆盖范围上优于基线方法，并且在与人类撰写的文章相比时，也展现出一定的优势。不过，编辑者也指出STORM生成的文章在中立性和可验证性方面仍存在挑战，如存在互联网来源的偏见、过度推断等问题。

评价
#

基本就是使用多智能体的思想进行文章生成，使用的也是斯坦福自己的DsPy框架（不愧是斯坦福啊），先大纲后分部分生成也是逻辑十分顺畅的思路。评估方法与思路也有借鉴意义，人工评估财大气粗（不愧是斯坦福啊），大纲正文分别评估的方式有理有据，是比较不错的开拓性工作（不愧是斯坦福啊）。