很多人已经开始慢慢依赖ChatGPT,把它当成了私人助理,很多问题都会咨询它的建议。但也担心这个助理随时可能会消失的无影无踪,尤其是最近遇到网站打不开,以及CEO Sam Altman被解雇、员工抗议董事会,最终以Altman回归结束等这样戏剧性的不可预测的事件。那如何找到替代者?

ChatGPT在2022年底发布后,在AI领域产生了巨大的变革,不论是在学术研究还是商业方面都有所体现。通过使用监督微调和从人类反馈中进行强化学习来调整大型语言模型(LLM),ChatGPT展示了模型能够在广泛的任务中回答人类问题并回答很到位。在这一成功之后,LLM的兴趣持续增长,包括在学术界和工业界频繁涌现许多新的LLM,其中许多初创公司专注于LLM。尽管闭源LLM(例如OpenAI的GPT,Anthropic的Claude)通常在性能上优于其开源对手,但后者的进展迅猛,声称在某些任务上实现了与ChatGPT相当甚至更好的表现。这不仅对研究产生了重要影响,也对业务产生了关键影响。在ChatGPT发布一周年之际,本文对这一成功进行了详尽的概述,调查了所有开源LLM声称与ChatGPT相当或更好的任务。如下图3所示。

1 引言

恰好一年前,OpenAI发布了ChatGPT,这一事件在AI社区和更广泛的世界引起了轰动。首次,一款基于应用的AI聊天机器人能够通常提供有帮助、安全且详细的答案,遵循指令,甚至能够承认并纠正其先前的错误。值得注意的是,它可以执行那些传统上由预训练然后经过定制微调的语言模型执行的自然语言任务,比如摘要或问答,似乎表现得非常出色。作为首个具有这种功能的聊天机器人,ChatGPT吸引了广大公众——在推出仅两个月内就达到了1亿用户,远远快于TikTok或YouTube等其他热门应用。它还吸引了巨额商业投资,因为它有潜力降低劳动成本,自动化工作流程,甚至为客户带来新的体验。然而,由于ChatGPT没有开源,其访问受到私人公司的控制,大部分技术细节仍然未知。尽管声称ChatGPT遵循InstructGPT(也称为GPT-3.5)介绍的过程,其精确的架构、预训练数据和微调数据都是未知的。这种闭源性质带来了一些关键问题。首先,在不知道内部细节(如预训练和微调过程)的情况下,很难正确评估其对社会的潜在风险,尤其是考虑到LLMs可以惯例地生成有毒、不道德和不真实的内容。其次,据报道ChatGPT的性能随时间变化,阻碍了可重复的结果。再者,ChatGPT经历了多次停机,在2023年11月仅发生了两次重大停机,期间ChatGPT网站和其API的访问完全被阻止。最后,采用ChatGPT的企业可能会担心调用API的巨大成本、服务中断、数据所有权和隐私问题,以及像最近关于CEO Sam Altman被解雇与员工反叛董事会等戏剧性事情,以及他最终的回归这样的不可预测的事件。

开源LLMs是一个有望解决或规避大多数上述问题的方向。因此,研究界一直在努力维护高性能的开源LLMs。截至目前,人们普遍认为,开源LLMs,如Llama-2或Falcon落后于其闭源对手,如OpenAI的GPT3.5(ChatGPT)和GPT-4(OpenAI,2023b),Anthropic的Claude2或Google的Bard3,其中GPT-4通常被认为在截至2023年底的时候是最强的。然而,差距越来越小,开源LLMs正在迅速赶超。实际上,正如下图1所示,对于某些任务,最好的开源LLMs已经超过了GPT-3.5-turbo。然而,这对于开源LLMs来说并非一帆风顺的挑战。LLMs的领域不断发展:闭源LLMs定期在更新的数据上进行重新训练,开源LLMs几乎每周发布一次,有大量的评估数据集和基准用于比较LLMs,使得找出最佳LLM尤其具有挑战性。

在这份调查中,目标是整合最近关于开源LLMs的论文,并提供在各个领域与ChatGPT匹敌或超越它的开源LLMs的概览。贡献有三个方面:

• 整合各种对开源LLMs的评估,提供对比较公正和全面的开源LLMs与ChatGPT的视角。

• 系统地回顾在各种任务中超越或赶超ChatGPT的开源LLMs(如下图2所示),并进行分析。

• 提供关于开源LLMs发展趋势、训练开源LLMs的良好实践以及开源LLMs可能面临的问题的见解。

这份调查旨在成为研究界和商业领域的关键资源,帮助他们了解开源LLMs当前的情况和未来的潜力。对于研究人员来说,它提供了开源LLMs当前进展和不断发展趋势的详细综合,突显了未来研究的有前途的方向。对于商业领域,这份调查提供了有价值的见解和指导,协助决策者评估采用开源LLMs的适用性和益处。 在接下来的文章中,将首先介绍背景先决条件,然后深入审查在各个领域击败ChatGPT的开源LLMs,接着讨论开源LLMs的见解和问题,最后总结。

2 背景

2.1 训练模式

「预训练」 所有LLMs都依赖于大规模的自监督预训练,使用互联网文本数据(Radford et al., 2018; Brown et al., 2020)。仅有解码器的LLMs遵循因果语言建模目标,通过该目标,模型学会在给定先前tokens序列的情况下预测下一个tokens。根据开源LLMs分享的预训练细节,文本数据的来源包括CommonCrawl5、C4、GitHub、Wikipedia、图书以及在线讨论交流,如Reddit或StackOverFlow。众所周知,扩大预训练语料库的规模可以提高模型的性能,并且与扩大模型规模相辅相成,这一现象被称为规模定律,并在(Hoffmann et al., 2022a)中进行了深入分析。现代LLMs预训练的语料库从数千亿到数万亿tokens不等。

「微调」 微调旨在通过使用可用监督来适应预训练的LLM到下游任务,通常形成的数据集比用于预训练的数据集小几个数量级。T5是最早将微调框架纳入文本到文本统一框架中的模型之一,其中自然语言说明描述了每个任务。后来,通过使用自然语言说明描述的几个任务联合训练,将微调扩展为指令调整。由于指令调整能够极大地改善LLMs的零样本性能,包括在新任务上(在训练期间未见过的任务),尤其是在较大的模型规模下,因此指令调整迅速走红。标准的指令调整与多任务监督微调可能仍然无法使模型遵循人类意图,并且可以通过人类反馈强化学习(RLHF)进行改进:人类标注者对经过微调模型的输出进行排名,然后使用这些排名进行强化学习微调。最近的研究表明,人类反馈可以用LLM的反馈来替代,这个过程被称为从AI反馈中学习的强化学习(RLAIF)。一系列工作侧重于在构建多样任务的指令调整数据集时质量而不是数量:Lima在仅使用1,000个样本对Llama-65B进行微调时的性能优于GPT-3,而Alpagasus通过从52k个样本中清理其指令微调数据集,使其减少到9k个样本,从而改进了Alpaca。

「持续预训练」 持续预训练是指在来自预训练LLM的模型的基础上进行另一轮预训练,通常使用比第一阶段少量的数据。这样的过程可能有助于在LLM中引出新的特性。例如,Lemur使用持续预训练来提高编码和推理能力,Llama-2-long用于扩展上下文窗口。

「推理」 存在几种用LLM进行序列生成的替代方法,这些方法通过自回归解码在输出中的随机性和多样性程度而有所不同。在采样过程中增加温度会使输出更加多样化,而将其设置为0则会回到贪婪解码,这在需要确定性输出的情景中可能是必要的。采样方法top-k和top-p在每个解码步骤约束要采样的tokens池。

2.2 任务领域和评估

由于要执行的评估多样且广泛,因此正确评估LLMs的能力仍然是一个活跃的研究领域。问答数据集是非常受欢迎的评估基准,但最近还出现了专为LLM评估定制的新基准。在接下来的部分中,将探讨LLMs在6个主要维度上的能力: 通用能力,Agent能力,逻辑推理(包括数学和编码能力),长上下文建模,特定应用,如问答或摘要,以及可信度。

3 开源LLMs vs ChatGPT

3.1 通用能力

基准

由于每周都有大量LLMs发布,每个都声称具有卓越性能,因此要识别真正的进展和领先模型变得具有挑战性。因此,全面评估这些模型在广泛的任务领域中的性能以了解其通用能力至关重要。本节涵盖了使用基于LLM的(例如GPT-4)和传统的(例如ROUGE和BLEU)评估指标的基准。

• 「MT-Bench」 旨在从八个角度测试多轮对话和遵循指令的能力,包括写作、角色扮演、提取、推理、数学、编码、知识I(STEM)和知识II(人文/社会科学)。更强大的LLMs被用作该基准的评估模型的评委。

• 「AlpacaEval」 是基于AlpacaFarm评估集的LLM自动评估器,用于测试模型遵循一般用户指令的能力。它通过使用更强大的LLMs(例如GPT-4和Claude)对候选模型与Davinci-003响应进行基准测试,生成候选模型的获胜率。

• 「Open LLM Leaderboad」 使用Language Model Evaluation Harness在七个关键基准上评估LLMs,包括AI2 Reasoning Challenge、HellaSwag、MMLU、TruthfulQA、Winogrande、GSM8K和DROP。该框架在零样本和少样本设置下评估LLMs在各种推理和一般知识领域的能力。

• 「BIG-bench」 是一个协作基准,旨在探讨LLMs并推断它们未来的能力。它包括200多个新颖的语言任务,涵盖了各种主题和语言,这些任务对现有模型来说并非完全可解。

• 「ChatEval」 是一个多Agent辩论框架,使多Agent裁判团队能够自主讨论和评估不同模型对开放式问题和传统自然语言生成任务的生成响应的质量。

• 「FairEval-Vicuna」 在Vicuna Benchmark的80个问题上使用多证据校准和平衡的位置校准。FairEval-Vicuna提供了更加公正的评估结果,在采用LLMs作为评估器的范 paradigm 内与人类判断密切相关。

LLMs的性能

Llama-2-70B是一款杰出的开源LLM,已在包含两万亿tokens的大规模数据集上进行了预训练。它在各种通用基准测试中展现出卓越的结果。当使用指导数据进行进一步的微调时,Llama-2-chat-70B变体在一般对话任务中展示出增强的能力。特别是,Llama-2-chat-70B在AlpacaEval中实现了92.66%的胜率,超过了GPT-3.5-turbo 10.95%。然而,GPT-4仍然是所有LLMs中表现最佳的,胜率为95.28%。

Zephyr-7B是另一款较小的模型,使用蒸馏的直接偏好优化,在AlpacaEval上取得了与70B LLMs相媲美的结果,胜率为90.6%。它甚至在MT-Bench上超过了Llama-2-chat-70B,得分为7.34,而Llama-2-chat-70B得分为6.86。此外,WizardLM-70B已经使用大量的指导数据进行了指导微调,涵盖了不同复杂性的任务。它在MT-Bench上以7.71的分数脱颖而出。然而,这仍然略低于GPT-3.5-turbo(7.94)和GPT-4(8.99)的分数。尽管Zephyr-7B在MT-Bench中表现出色,但在开源LLM Leaderboard上表现不佳,仅得到52.15%的分数。另一方面,GodziLLa2-70B是一款实验性模型,将来自Maya Philippines的各种专有LoRAs和Guanaco Llama 2 1K数据集与Llama-2-70B结合使用,实现了在开源LLM Leaderboard上更具竞争力的67.01%的得分。这一表现可与GPT-3.5-turbo相媲美,后者在该领域的得分为70.21%。然而,两者仍然明显落后于GPT-4,后者以85.36%的高得分领先。UltraLlama利用具有增强多样性和质量的微调数据。在其提出的基准测试中,它与GPT-3.5-turbo的性能相匹敌,并在世界和专业知识领域超过了它。

3.2 Agent能力

基准测试

随着模型规模的不断扩大,基于LLM的Agent引起了自然语言处理社区的极大关注。鉴于此,在各种基准测试中调查了开源LLMs的Agent能力。根据所需的技能,现有的基准测试主要可以分为四类。

• 使用工具:一些基准测试旨在评估LLMs的工具使用能力。

「API-Bank」 专门为工具增强的LLMs设计。「ToolBench」是一个包含各种实际任务的软件工具的工具操作基准测试。「APIBench」 包含来自HuggingFace、TorchHub和TensorHub的API。「ToolAlpaca」 通过多Agent模拟环境开发了一个多样且全面的工具使用数据集。巧合的是,使用ChatGPT构建的用于工具使用的指导微调数据集也被命名为「ToolBench」。此外,「MINT」 可以评估LLMs在使用工具解决需要多轮交互的任务时的熟练程度。

• 自我调试:有几个数据集可用于评估LLMs进行自我调试的能力,包括「InterCode-Bash」「InterCode-SQL」「MINT-MBPP」「MINT-HumanEval」以及「RoboCodeGen」

• 遵循自然语言反馈:MINT还可以用于衡量LLMs利用自然语言反馈的能力,通过使用GPT-4模拟人类用户。

• 探索环境:「ALFWorld」「InterCode-CTF」「WebArena」旨在评估基于LLMs的Agent是否能够从环境中收集信息并做出决策。

LLMs的性能

通过使用包含90B tokens的代码密集语料库对Llama-2进行预训练,并在包含30万个文本和代码样本的指导微调中,Lemur-70B-chat在探索环境或在编码任务中遵循自然语言反馈时超过了GPT-3.5-turbo的性能,如下表2所示。AgentTuning使用Llama-2在其构建的AgentInstruct数据集和通用领域指导的组合上进行指导微调,形成AgentLlama。值得注意的是,AgentLlama-70B在未见过的Agent任务上实现了与GPT-3.5-turbo相媲美的性能。通过在ToolBench上对Llama-2-7B进行微调,ToolLLaMA在工具使用评估中表现出与GPT-3.5-turbo相媲美的性能。Chen等人介绍了FireAct,可以对Llama-2-13B进行微调,以在HotpotQA上超越GPT-3.5-turbo。此外,从Llama-7B进行微调的Gorilla在编写API调用方面优于GPT-4。

3.3 逻辑推理能力

基准测试

逻辑推理是高层次能力和技能的基本能力,例如编程、定理证明以及算术推理。为此,在本节中,将介绍以下基准测试:

• 「GSM8K」 包含由人类问题作者创建的8.5K个高质量小学数学问题。这些问题需要2到8个步骤来解决,解决方案主要涉及使用基本算术运算执行一系列基本计算,以达到最终答案。

• 「MATH」 是一个包含12,500个具有挑战性的竞赛数学问题的数据集。MATH中的每个问题都有一个完整的分步解决方案,可用于教模型生成答案的推导和解释。

• 「TheoremQA」 是一个定理驱动的问答数据集,旨在评估AI模型将定理应用于解决具有挑战性的科学问题的能力。TheoremQA由领域专家策划,包含800个高质量问题,涵盖了数学、物理、电子工程与计算机科学以及金融领域的350个定理。

• 「HumanEval」 是一组164个手写编程问题。每个问题包括一个函数签名、文档字符串、主体和几个单元测试,平均每个问题有7.7个测试。

• 「MBPP」 (主要是基本编程问题)数据集包含由对Python具有基本知识的内部众包工人进行众包构建的974个短Python程序。每个问题都分配有一个解决指定问题的独立的Python函数,并包含三个测试用例,用于检查函数的语义正确性。

• 「APPs」 是一个用于代码生成的基准测试,衡量模型根据任意自然语言规范生成令人满意的Python代码的能力。该基准测试包括10,000个问题,从具有简单一行解决方案到具有实质性算法挑战的问题不等。

强化指导调整

与传统的基于知识蒸馏的指导调整不同,Luo等人采用了Evol-Instruct构建了任务特定的高质量指导调整数据集,其中种子指导发展成知识边界或任务复杂性深度扩展的指导。此外,Luo等人还结合了PPO算法,进一步提高了生成的指导和答案的质量。在获得扩展的指导池后,通过收集来自另一个LLM(例如GPT-3.5-turbo)的响应生成新的指导调整数据集。最终,由于Query深度和宽度的发展,经过精细调整的模型的性能甚至优于GPT-3.5-turbo。例如,WizardCoder在HumanEval上表现优异,相对于GPT3.5-turbo有19.1%的绝对改进。而WizardMath相对于GPT-3.5-turbo也取得了42.9%的绝对改进。

在更高质量数据上的预训练

Lemur已验证了在自然语言数据和代码之间更好的混合,并使LLMs在函数调用、自动编程和Agent方面具有更强的能力。具体而言,Lemur-70B在没有任务特定的精细调整的情况下,在HumanEval和GSM8K上相对于GPT-3.5-turbo取得了显著的改进。Phi采用了不同的方法,使用教科书作为主要的预训练语料库,这使得在更小的语言模型上观察到了强大的能力。

3.4 建模长上下文能力

基准测试

处理长序列仍然是LLMs的关键技术瓶颈之一,因为所有模型都受到有限的最大上下文窗口的限制,通常长度从2k到8k个tokens不等。对LLMs的长上下文能力进行基准测试涉及对一些自然具有长上下文的任务进行评估,例如提要或多文档QA。已经为LLMs的长上下文评估提出了以下基准测试:

「SCROLLS」 是一个由7个具有自然长输入的数据集组成的流行评估基准。任务涵盖提要、问答和自然语言推理。

「ZeroSCROLLS」 在SCROLLS的基础上构建(舍弃了ContractNLI,重用其他6个数据集,并添加了4个数据集),仅考虑零样本设置,评估LLMs的即插即用性。

「LongBench」 设定了一个包含21个数据集跨6个任务的双语英语/中文长上下文基准。

「L-Eval」 重复使用了16个现有数据集,并从头开始创建了4个数据集,形成一个多样化的、长上下文的基准,每个任务的平均长度超过4k个tokens。作者主张使用LLM评价(特别是GPT-4)而不是N-gram进行长上下文评估。

「BAMBOO」 创建了一个专注于长上下文LLM评估基准,重点是通过仅收集评估数据集中的最新数据来消除预训练数据的污染。

「M4LE」 引入了一个广泛的基准测试,将36个数据集分为5个理解能力:显式单跨度、语义单跨度、显式多跨度、语义多跨度和全局理解。

模型

在LongBench、L-Eval、BAMBOO和M4LE基准测试中,GPT-3.5-turbo或其16k版本在很大程度上优于所有开源LLMs,如Llama-2、LongChat或Vicuna;表明在长输入任务上提高开源LLMs的性能并非易事。Llama-2-long在Llama-2上使用400Btokens进行更长的预训练(从Llama-2的4k窗口增加到16k)。由此产生的Llama-2-long-chat-70B在ZeroSCROLLS上相对于GPT-3.5-turbo-16k的得分为37.7比36.7。解决长上下文任务的方法包括通过位置插值扩展上下文窗口,其中包括使用更长上下文窗口进行另一轮(短)微调;和检索增强,需要访问检索器以查找相关信息。Xu等人结合了这两种看似相反的技术,将Llama-2-70B推动到GPT-3.5-turbo-16k的平均水平上,在7个长上下文任务中(包括ZeroSCROLLS的4个数据集)上表现优于GPT-3.5-turbo-16k。

3.5 应用特定能力

这一部分将讨论LLMs在处理特定应用程序时所需的能力。

3.5.1 Query焦点摘要

「基准测试」

Query焦点或基于外表的摘要需要根据一个细粒度的问题或一个方面类别生成摘要。Query焦点数据集包括AQualMuse、QMSum和SQuALITY,而基于方面的数据集包括CovidET、NEWTS、WikiAsp等。

「模型」

(Yang等人,2023d)发现,与ChatGPT相比,对训练数据的标准微调在性能上仍然更好,对于CovidET、NEWTS、QMSum和SQuALITY的ROUGE-1平均提高了2个点。

3.5.2 开放式问答

「基准测试」

开放式问答有两个子类别:答案要么是短格式,要么是长格式。短格式数据集包括SQuAD 1.1、NewsQA、TriviaQA、SQuAD 2.0、NarrativeQA、Natural Question(NQ)、Quoref和DROP。长格式数据集包括ELI5和doc2dial。对于短格式和长格式数据集,评估指标是答案中的精确匹配(EM)和F1。

「模型」

InstructRetro在NQ、TriviaQA、SQuAD 2.0和DROP上相对于GPT-3取得了显著改进,同时与类似大小的专有GPT-instruct模型相比,在一系列短格式和长格式的开放式问答数据集上提高了7-10%。InstructRetro从预训练的GPT模型初始化,然后继续通过检索进行预训练,然后经过指导调整。

3.5.3 医学

「基准测试」

LLMs的一个理想能力是在医学相关任务上做出贡献,以使负担得起的、高质量的医疗更容易接触到更广泛的公众。

对于心理健康,IMHI基准测试是使用10个现有的心理健康分析数据集构建的,包括心理健康检测:DR、CLP、Dreaddit、孤独、SWMH和T-SID;心理健康原因检测:SAD、CAMS;心理风险因素检测:MultiWD、IRF。对于放射学,OpenI数据集和MIMIC-CXR数据集都包含具有发现和印象文本的放射学报告。

「模型」

对于心理健康,MentalLlama-chat-13B在IMHI训练集上对Llama-chat-13B模型进行微调。 MentalLlama-chat-13B模型在零样本提示下在IMHI的10项任务中,相对于ChatGPT的few-shot提示或零样本提示,在9项任务上表现优于ChatGPT。Liu等人提出对Llama检查点进行微调,以生成放射学报告发现的印象文本。所得的Radiology-Llama-2模型在MIMIC-CXR和OpenI数据集上相对于ChatGPT和GPT-4都取得了较大的优势。

3.5.4 生成结构化响应

在按照指令生成格式化响应是支持Agent能力或简化解析或翻译模型响应的手动工作的核心能力。

「基准测试」

Rotowire包含NBA比赛摘要及相应的比分表。Struc-Bench引入了两个数据集:Struc-Bench-Latex,其输出为Latex格式的表格,以及Struc-Bench-HTML,其输出为HTML格式的表格。

「模型」

Struc-Bench在结构化生成数据上对Llama-7B模型进行了微调。在上述所有基准测试中,经过微调的7B模型的性能均优于ChatGPT。

3.5.5 生成评论

「基准测试」

LLMs的一个有趣能力是为问题的响应提供反馈或评论。为了评估这种能力,可以使用人工标注员或GPT-4作为评估器来直接评估评论。原始问题可以来自上述其他能力的任何数据集。

「模型」

Shepherd是一个从Llama-7B初始化的7B模型,经过社区收集的评论数据和1,317个高质量人工标注数据的训练。Shepherd在各种不同的NLP数据集上生成评论:AlpacaFarm、FairEval、CosmosQA、OBQA、PIQA、TruthfulQA和CritiqueEval。通过使用GPT-4作为评估器,Shepherd在60%以上的情况下赢得或与ChatGPT相等。在人类评估员的评估中,Shepherd几乎与ChatGPT持平。

3.6 迈向可信赖的人工智能

为了确保LLMs在实际应用中能够得到人类的信任,一个重要的考虑因素是它们的可靠性。例如,对于错觉(Ye&Durrett,2022;Zhao等人,2023)和安全性(Zhiheng等人,2023b)的担忧可能降低用户对LLMs的信任,并导致在高影响应用中存在风险。

3.6.1 错觉

「基准测试」

已经有各种基准测试,以更好地评估LLMs中的错觉。具体而言,它们包括大规模数据集、自动化度量和评估模型。

• TruthfulQA是一个问答(QA)基准数据集,包含涵盖38个类别的问题。这些问题被设计成一些人由于误解而错误回答。

• FactualityPrompts是一个测量开放式生成中错觉的数据集。它包含事实和非事实提示,以研究提示对LLM继续的影响。

• HaluEval是一个包含生成的和人工标注的虚构样本的大型数据集。它涵盖了三个任务:问答、基于知识的对话和文本摘要。

• FACTOR提出了一种可伸缩的评估语言模型事实性的方法:它自动将一个事实语料库转化为一个忠实度评估基准。该框架用于创建两个基准:Wiki-FACTOR 和 News-FACTOR。

• KoLA构建了一个面向知识的语言模型评估基准(KoLA),其中包含三个关键因素:模仿人类认知以进行能力建模,使用维基百科进行数据收集,并为自动虚构评估设计对比指标。

• FActScore提出了一种新的评估方法,首先将语言模型的生成分解为一系列原子事实,然后计算由可靠知识源支持的原子事实的百分比。

• Vectara的错觉评估模型是一个小型语言模型,经过二进制分类器的微调,用于将摘要分类为与源文档一致(或不一致)。然后,它用于评估和基准测试各种LLMs生成的摘要的错觉。

• FacTool是一个用于检测由LLMs生成的文本的事实错误的任务和领域不可知框架。

除了新引入的错觉基准测试之外,以实际知识为基础的先前问答(QA)数据集也被广泛用于衡量忠实度,如HotpotQA、OpenBookQA、MedMC-QA和TriviaQA。除了数据集和自动化指标外,人工评估也被广泛采用作为忠实度的可靠度量。

「模型」

存在一些关于错觉的现有调查(Zhang等人,2023b;Rawte等人,2023),详细调查了潜在的方法。具体而言,超越当前GPT-3.5-turbo性能的方法可以在微调期间或仅在推理时进行。选择的性能指标显示在下表3中。

在微调期间,通过提高正确性和相关性的数据质量可以导致更少的错觉模型。Lee等人(2023a)策划了一个内容过滤、以STEM领域高质量数据为重点的调整数据集。一系列LLMs在这个经过过滤的数据集上进行微调并合并。结果产生的系列,名为Platypus,与GPT-3.5-turbo相比,在TruthfulQA上实现了相当大的改进(约20%)。

在推理期间,现有的技术包括特定的解码策略、外部知识增强和多Agent对话。对于解码,Dhuliawala等人(2023)介绍了Chain-of-Verification(CoVe),其中LLM起草验证问题并自我验证响应。CoVe在FactScore上相对于GPT-3.5-turbo实现了相当大的改进。

对于外部知识增强,各种框架包含不同的搜索和提示技术,以当前提高GPT-3.5-turbo性能。Li等人(2023c)设计了Chain-of-Knowledge(CoK),在回答之前从异构知识源中检索。Peng等人(2023)提出了LLM-AUGMENTER,该方法使用一组即插即用的模块增强LLMs,并通过由效用函数生成的反馈迭代地修订LLM提示,以改进模型响应。Knowledge Solver(KSL)试图通过利用它们自己的强大泛化能力,教会LLMs从外部知识库中搜索基本知识。CRITIC允许LLM验证和逐渐修正其自己的输出,方式类似于人类与工具的交互。Luo等人(2023b)介绍了Parametric Knowledge Guiding(PKG)框架,该框架配备了一个知识引导模块,以访问相关知识而不更改LLMs的参数。这些推理技术然后相对于使用GPT-3.5-turbo的简单提示策略改善了答案的准确性。目前,GPT-3.5-turbo还已经整合了一个检索插件(OpenAI,2023a),以访问外部知识以减少错觉。

对于多Agent对话,Cohen等人(2023)促进了生成声明的Examinee LLM与引入问题的另一个Examiner LLM之间的多轮交互。通过交叉审订过程,改善了各种QA任务的性能。Du等人(2023)要求多个语言模型实例提出和辩论他们各自的响应和推理过程,经过多轮的辩论达成共同的最终答案,从而改善了多个基准。

3.6.2 安全性

「基准测试」

在LLMs中,安全性问题主要可以分为三个方面(Zhiheng等人,2023a):社会偏见、模型鲁棒性和中毒问题。为了收集更好地评估上述方面的数据集,提出了几个基准测试:

• SafetyBench是一个数据集,包括11,435个涵盖7个不同安全问题类别的多元选择问题。

• Latent Jailbreak引入了一个基准测试,评估LLMs的安全性和鲁棒性,强调了需要采用平衡的方法。

• XSTEST是一个系统地识别夸张安全行为的测试套件,例如拒绝安全提示。

• RED-EVAL是一个基准测试,执行红队行动,使用基于Chain of Utterances(CoU)的提示对LLMs进行安全评估。

除了自动化基准测试,安全性的一个重要度量是人工评估(Dai等人,2023),其中众包工作者将响应tokens为安全或有害。一些研究还尝试从GPT-4中收集这些标签,因为研究表明它可以取代人类评估者来评估对齐能力(Chiang&Lee,2023)。

「模型」

基于当前的评估,GPT-3.5-turbo和GPT-4模型在安全性评估中仍然名列前茅。这主要归因于人工强化学习(RLHF)。RLHF首先在响应上收集人类偏好数据集,然后训练一个奖励模型来模仿人类偏好,最后使用RL来训练LLM以与人类偏好保持一致。在这个过程中,LLMs学会了展示所需的行为,排除了有害的响应,如不礼貌或有偏见的回答。然而,RLHF程序需要收集大量昂贵的人工标注,这阻碍了它在开源LLMs中的使用。为了推动LLMs的安全对齐的努力,Ji等人(2023)收集了一个人类偏好数据集,以将无害性和有用性从人类偏好分数中解开,从而为这两个度量提供独立的排名数据。实验证明,解开人类偏好可以增强安全对齐。Bai等人(2022b)试图通过来自AI反馈的RL(RLAIF)来提高安全性,其中偏好模型使用LLM生成的自我评论和修订进行训练。直接偏好优化(DPO)减少了学习奖励模型和直接使用简单的交叉熵损失从偏好中学习的需要,这在很大程度上可以减少RLHF的成本。结合和改进这些方法可能会在开源LLMs的安全性方面带来潜在的改进。

4 讨论

4.1 LLMs的发展趋势

自从Brown等人(2020)展示了冻结的GPT-3模型在各种任务上可以实现令人印象深刻的零样本和少样本性能以来,人们已经付出了大量努力推动LLMs的发展。一方面的研究集中在扩大模型参数的规模,包括Gopher,GLaM,LaMDA,MT-NLG和PaLM,最终达到了540B参数。尽管展现出卓越的能力,但这些模型的闭源性质限制了它们的广泛应用,因此越来越多的人开始对开源LLMs的发展产生兴趣。

与扩大模型规模不同,另一方面的研究探索了更好的策略或目标,以预训练较小模型,如Chinchilla和UL2。在预训练之外,人们还致力于研究LMs的指导调整,例如FLAN,T0和Flan-T5。

一年前,OpenAI的ChatGPT的出现极大地改变了NLP社区的研究重点。为了赶上OpenAI,Google和Anthropic分别推出了Bard和Claude。尽管它们在许多任务上显示出与ChatGPT相媲美的性能,但它们与最新的OpenAI模型GPT-4之间仍然存在性能差距。由于这些模型的成功主要归功于人类反馈的强化学习(RLHF),研究人员已经探讨了改进RLHF的各种方式。

为了促进开源LLMs的研究,Meta发布了Llama系列模型。自那以后,基于Llama的开源模型开始呈爆炸式增长。一个典型的研究方向是使用指导数据微调Llama,包括Alpaca,Vicuna,Lima和WizardLM。进行中的研究还探讨了提高Llama基于开源LLMs的Agent,逻辑推理和长上下文建模能力。此外,与基于Llama开发LLMs不同,还有许多努力致力于从头开始训练强大的LLMs,例如MPT,Falcon,XGen,Phi,Baichuan,Mistral,Grok和Yi。我们相信,开发更强大、更高效的开源LLMs,以使封闭源LLMs的能力得以民主化,应该是一个非常有前途的未来方向。

4.2 结果总结

就通用能力而言,Llama-2-chat-70B在一些基准测试中显示出对GPT-3.5-turbo的改进,但在大多数其他测试中仍然落后。Zephir-7B通过蒸馏直接偏好优化接近70B LLMs。WizardLM70B和GodziLLa-70B能够达到与GPT-3.5-turbo可比较的性能,展示了一个有希望的发展方向。

在一些领域,开源LLMs能够超越GPT-3.5-turbo。对于基于LLM的Agent,开源LLMs通过更广泛和任务特定的预训练和微调能够超越GPT-3.5-turbo。例如,Lemur-70B-chat在探索环境和在编码任务中遵循反馈方面表现更好。AgentTuning在看不见的Agent任务上有所改进。ToolLLama能更好地掌握工具使用。Gorilla在编写API调用方面优于GPT-4。对于逻辑推理,WizardCoder和WizardMath通过增强的指导调整提高了推理能力。Lemur和Phi通过在质量较高的数据上进行预训练实现了更强大的能力。对于建模长上下文,Llama-2-long通过使用更长的tokens和更大的上下文窗口进行预训练,可以在选定的基准测试中改进。Xu等人(2023b)通过将上下文窗口扩展与位置插值和检索增强相结合,提高了7个长上下文任务的性能。对于特定应用能力,InstructRetro通过检索和指导调整进行预训练,在开放式QA方面有所改进。通过特定任务的微调,MentaLlama-chat13B在心理健康分析数据集中优于GPT-3.5-turbo。RadiologyLlama2可以提高在放射学报告上的性能。Stru-Bench,一个经过微调的7B模型,可以改善结构化响应生成,与GPT-3.5-turbo相比,这是支持Agent任务的核心能力。Shepherd,只有7B参数,可以在生成模型反馈和评论方面达到与GPT-3.5-turbo相媲美或更好的性能。对于值得信赖的AI,可以通过使用质量更高的数据进行微调,上下文感知的解码技术,外部知识增强,例如Li等人(2023c);Yu等人(2023b);Peng等人(2023);Feng等人(2023),或多Agent对话来减少错觉。

也有一些领域,GPT-3.5-turbo和GPT-4仍然无法匹敌,如AI安全。由于GPT模型涉及大规模的RLHF,它们以表现更安全和更具道德行为而闻名,这对于商业LLMs而言可能是比开源LLMs更重要的考虑因素。然而,随着最近在民主化RLHF过程方面的努力,可以期待在安全性方面看到更多开源LLMs的性能提升。

4.3 最佳开源LLMs的配方

训练LLM涉及到复杂且资源密集的实践,包括数据收集和预处理、模型设计以及训练过程。尽管有越来越多的趋势是定期发布开源LLMs,但领先模型的详细实践往往遗憾地被保密。下面列出了社区广泛认可的一些最佳实践。

数据预处理

预训练涉及使用数万亿数据tokens,通常来自公开可访问的来源。从伦理角度来看,排除包含个人信息的任何数据是至关重要的。与预训练数据不同,微调数据在数量上较小,但在质量上较高。使用高质量数据进行微调的LLMs表现出了改进的性能,特别是在专业领域。

模型架构

尽管大多数LLMs使用仅解码器的Transformer架构,但模型中采用了不同的技术来优化效率。Llama-2实施了Ghost attention以改进多轮对话控制。Mistral采用滑动窗口注意力来处理扩展上下文长度。

训练

使用指导调整数据进行监督微调(SFT)的过程至关重要。为了获得高质量的结果,SFT标注数以数万计就足够了,正如Llama-2所使用的27,540个标注一样。这些数据的多样性和质量至关重要。在RLHF阶段,近端策略优化(PPO)通常是更好地使模型的行为与人类偏好和指导保持一致的首选算法,对于增强LLM的安全性起着关键作用。替代PPO的方法是直接偏好优化(DPO)。例如,Zephyr-7B采用蒸馏的DPO,在各种通用基准测试中显示出与70B-LLMs相媲美的结果,甚至在AlpacaEval上超过了GPT-3.5-turbo。

4.4 漏洞和潜在问题

预训练期间的数据污染

随着发布混淆其预训练语料库来源的基础模型,数据污染问题变得越来越明显。这种缺乏透明度可能导致对大型语言模型(LLMs)真正泛化能力的偏见。在忽略了将基准数据手动集成到训练集中的情况,且有人类专家或更大模型的标注,数据污染问题的根本原因在于基准数据的收集源已经包含在预训练语料库中。尽管这些模型并非有意使用监督数据进行预训练,它们仍然可以获得精确的知识。因此,解决检测LLMs预训练语料库的挑战,探索现有基准测试和广泛使用的预训练语料库之间的重叠,并评估对基准测试的过拟合问题变得至关重要。这些努力对于增强LLMs的忠实度和可靠性至关重要。展望未来,未来的方向可能包括建立披露预训练语料库详细信息的标准做法,并开发在整个模型开发生命周期中减轻数据污染的方法。

对齐的闭源发展

在社区中,使用一般偏好数据进行对齐的强化学习从人类反馈(RLHF)的应用引起了越来越多的关注。然而,由于缺乏高质量、公开可用的偏好数据集和预训练奖励模型,只有有限数量的开源LLMs已经通过RLHF进行了对齐。一些倡议试图为开源社区做出贡献。然而,仍然面临在复杂推理、编程和安全场景中缺乏多样性、高质量和可扩展的偏好数据的挑战。

在基本能力上的持续改进的困难

回顾本文中概述的基本能力的突破揭示了一些具有挑战性的情景:

  1. 已经投入了相当大的努力来探索在预训练期间改进数据混合,以提高构建更强大基础模型的平衡性和鲁棒性。然而,相关的探索成本通常使这种方法变得不切实际。
  2. 超越GPT-3.5-turbo或GPT-4的模型主要是基于从闭源模型进行知识蒸馏和额外专家标注。虽然高效,但在将这些方法扩展到教师模型时,对知识蒸馏效果的潜在问题可能会被掩盖。

此外,LLMs预计将充当Agent并提供合理的解释以支持决策,然而为了使LLMs适用于现实世界的场景,标注Agent样式的数据也是昂贵且耗时的。实质上,仅通过知识蒸馏或专家标注的优化无法实现对基本能力的持续改进,并可能接近上限。未来的研究方向可能涉及探索新的方法,如无监督或自监督学习范式,以在缓解相关挑战和成本的同时实现基本LLM能力的持续改进。

5 结论

在这份调查中,对在ChatGPT发布一周年之际超越或赶上ChatGPT在各种任务领域中表现优异的开源LLMs进行了系统回顾。此外,提供了关于开源LLMs的见解、分析和潜在问题。这份调查为开源LLMs提供了有前途的方向,并将激发该领域更多的研究和开发,有助于缩小它们与付费同行之间的差距。

参考文献

[1] ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up?

链接:https://arxiv.org/pdf/2311.1698

更多精彩内容,请关注公众号:AI生成未来

Logo

鸿蒙生态一站式服务平台。

更多推荐