Trace Id is missing
跳转至主内容
Azure

什么是大语言模型 (LLM)?

大致了解 LLM 的工作原理,并了解如何使用它们来构建 AI 支持的解决方案。

LLM 含义

大语言模型 (LLM) 是高级的 AI 系统,它们利用通过机器学习技术对其进行训练的数据来理解并生成自然语言或类似于人类的文本。LLM 可以自动生成基于文本的内容,这些内容可以应用于各行各业的大量用例,从而改进全球组织的效率和成本节省。 

要点

  • LLM 是可以理解和生成自然语言的高级 AI 系统。
  • LLM 依赖于深度学习体系结构和机器学习技术来处理和合并来自不同数据源的信息。
  • LLM 为不同的领域带来重大利益,例如语言生成和翻译。
  • 尽管 LLM 是开创性的进展,但仍面临着一些挑战,其中可能包括计算要求、道德问题和理解上下文方面的限制。
  • 尽管存在这些挑战,但组织已在使用生成式预训练转换器 (GPT) 系列和来自转换器的双向编码器表示形式 (BERT) 来执行内容创建、聊天机器人、翻译和情绪分析等任务。

LLM 的工作原理

LLM 简史

LLM 是现代的发展,但自然语言处理 (NLP) 的研究可以追溯到 1950 年,当时,Alan Turing 发起了 Turing 测试来衡量计算机之间的智能行为。在测试中,一名人类评判员使用一系列问题与计算机进行对话,并且必须判断出自己正在与之交谈的对象是计算机还是人类。
到了 20 世纪 80 年代和 90 年代,NLP 从逻辑试验转变为更加依赖于数据驱动的方法。由于能够根据句子中前面的单词来预测后面可能出现的单词,统计语言模型(如 n 元语法)为新时代的到来铺平了道路。到 21 世纪 10 年代初,更新的神经网络进一步扩展了这些语言模型的功能,支持其超越确定字词顺序的范畴,向着能够更深入理解字词表征和含义的方向进一步发展。
这些新的发展在 2018 年迎来了重大突破,当时八位 Google 的科学家撰写并发表了 Attention is All You Need,这是一项机器学习方面里程碑式的研究。最值得关注的是,该论文引入了转换器体系结构,这是一种创新性的神经网络框架,可以更准确、更大规模地管理和理解复杂的文本信息。转换器现在是当今一些功能最强大的 LLM 的基础,包括 GPT 系列和 BERT。

基本体系结构

当今的先进 LLM 使用深度学习体系结构(如转换器和其他深度神经网络框架)来处理来自不同数据源的信息。转换器在处理顺序数据(如文本)时特别有效,这支持它们可以理解和生成自然语言来完成语言生成和翻译等任务。 
转换器由两个主要组件组成:编码器和解码器。这些组件通常协同工作来处理和生成序列。编码器采用原始文本数据,并将该输入转换为可由模型分析的离散元素。然后,解码器通过一系列层处理该数据以生成最终输出,例如,该输出可能包含一个生成的句子。转换器还可以仅包括编码器或解码器,具体取决于模型或任务的类型。

训练过程

LLM 的训练过程包括三个主要阶段:数据收集、模型训练和微调。 
在数据收集阶段,模型会接触到来自各种源(包括 Internet 资源、书籍、文章和数据库)的大量文本数据。还会对数据进行清理、处理、标准化并将其存储在 NoSQL 数据库中,以便可将其用于在语言模式、语法、信息和上下文方面训练模型。 
在预训练阶段,模型开始对数据中的语言形成理解。这是通过执行大规模、非监督式任务实现的,模型将会在此过程中学习根据其上下文预测文本。一些技术包括自动回归建模(模型通过此方式学习预测序列中的下一个单词),以及掩码语言建模(模型通过此方式填充掩码词来理解上下文)。 
最后,在微调阶段,将会针对更小、更特定于任务的数据集对模型进行进一步训练。此过程可优化模型的知识,并增强其针对特定任务(如情绪分析或翻译)的性能,以便可以将其用于各种应用领域。

关键组件

转换器模型课将原始文本分解为更小的基本文本单位(称为标记)。标记可能由字词、组成字词的部分甚至单个字符组成,具体取决于用例。然后,这些标记将转换为密集的数字表示形式,用于捕获顺序、语义含义和上下文。然后,这些称为嵌入的表示形式会通过包括以下两个子层的层堆栈进行传递:自注意力和神经网络。
虽然两个层都有助于将文本转换为模型可以有效地处理的表单,但自注意力机制才是转换器体系结构的关键组件。自注意力机制允许模型聚焦于文本序列的不同部分,并动态衡量信息相对于序列中其他标记的价值,而不考虑其位置。借助此机制,LLM 还能够捕获书面语言的复杂依赖关系、关联和上下文细微差别。

优势和挑战

优点

LLM 带来了许多好处,促进了在工作和社会方面的重大进展。

改进了语言生成和翻译

由于 LLM 可以理解和捕获单词之间微妙的关系,因此它们擅长生成类似于人类的自然文本,从而改善了语言生成的效果。它们可以流畅且一致地生成富于创意且契合上下文的响应,并且可以使用各种体裁(包括小说)来生成相应。
由于可以结合上下文和发现含义的细微之处,因此,针对多语言数据进行训练的 LLM 还可以执行高度准确的翻译任务。通过基于一组特定语言对模型进行训练,可以帮助模型微调其处理惯用语、表达和其他复杂语言特征的能力,从而生成自然且流畅的翻译。

不同领域中的应用

LLM 是多功能工具,在许多领域(包括医疗保健、财经和客户服务)中具有广泛的应用。
 
在医疗保健领域,LLM 可以: 
  • 分析患者报告以判断可能的情况,并提供初步诊断。 
  • 生成患者记录和出院摘要,进而简化管理任务。 
  • 根据患者病史提出个性化治疗计划和医疗护理建议。  
  在财务领域,LLM 可以:
  • 识别财务数据中可能指向欺诈的异常活动。 
  • 通过分析市场趋势和财务报表来评估财务风险。 
  • 根据你独特的财务历史记录和目标提出个性化建议。  
  在客户服务方面,LLM 可以:
  • 通过对话式代理和聊天机器人提供自动化客户支持。 
  • 通过向客户提供全天候支持来扩展组织的服务范围。
  • 通过根据常见问题生成内容来帮助创建和更新文档。  

挑战

LLM 带来了重要的好处,但也带来了需要关注的挑战。

计算和能源要求

虽然 LLM 功能强大,但它们需要大量的计算资源、存储和能源消耗才能运行。在训练期间,转换器会随着输入序列的长度进行缩放,因此文本越长,所需的内存就越多。这些需求不仅成本高昂,而且还会向环境中排放大量的碳。
云计算平台可以通过提供灵活、可缩放的基础结构来支持 LLM 的大量计算负载,以便组织可以更轻松地开始开发自己的模型。不过,LLM 对环境的影响仍会带来挑战,并表明需要采用更节能的模型和技术。

道德问题(例如,偏见、错误信息)

大语言模型的优劣取决于其训练时使用的数据。如果训练数据中存在针对某些群体的歧视性偏见,则该模型会凸显出这些态度。识别和缓解这些偏见以确保模型保持公平是一项持续性任务,需要进行经常性且一致的人工监视。
LLM 还可以生成看似令人信服但实际上具有误导性的信息,从而导致错误信息、虚假新闻、网络钓鱼电子邮件和其他形式有害内容的传播。内容审核准则也可能因区域而异,这增加了把握这些准则的难度。因此,许多组织可能会发现,在将 LLM 引入其业务运营时,很难在用户中建立和保持信任。

理解上下文和细微差别方面的限制

尽管 LLM 擅长识别语言中的模式,但它们仍可能难以应对需要更细微理解的新的上下文或未知上下文。因此,使用敏感的专有数据训练的 LLM 可能会意外生成或泄露其训练数据中的机密信息。 
解决此问题可能会带来重大挑战,特别是由于 LLM 的内部工作通常缺乏透明度。这可能会导致缺乏整体问责机制,以及有关建立信任的问题。 

类型和用例

GPT 系列

GPT 系列最初由 OpenAI 于 2018 年开发,向 LLM 引入了数据收集、预训练和微调的基础概念。2019 年发布的 GPT-2 大幅提升了该模型的能力,并增强了其生成更契合上下文的语言的能力。GPT-3 则提升了模型处理复杂提示和任务的能力。最新的迭代 GPT-4 于 2023 年发布,可针对提示提供更加准确、更加体现细微差别的响应,同时还解决了该模型此前存在的一些问题(包括偏见)。 
目前,GPT 仍在不断拓展自然语言生成领域的可能性边界。该系列中的每个模型均基于上一个模型生成,从而推动 AI 支持的创新不断向前发展。 

BERT 及其变体

BERT 是由 Google 于 2018 年开发的开创性模型,它为使用 LLM 可能实现的任务设置了标准。与以单向方式(从左到右或从右到左)处理文本的 GPT 系列不同,BERT 采用了双向方法。双向模型可同时从两个方向处理每个单词的上下文,这可支持 BERT 除了进行下一句预测之外,还可执行掩码语言建模。研究人员还通过针对情绪分析等任务微调 BERT,为该领域的进一步发展做出了贡献,并因此设定了新的基准。  

其他值得关注的模型

由 Facebook AI 于 2019 年开发的稳健优化 BERT 方法 (RoBERTa) 是 BERT 模型的一个变体,它通过优化预训练过程,扩展了 BERT 的双向转换器体系结构。RoBERTa 使用更大的数据集进行训练,并且训练时间更长。它还仅侧重于掩码语言建模。通过此方式,RoBERTa 展示了其捕获上下文和细微差别的强大功能。 
由 Google Research 发明的文本到文本传输转换器 (T5) 是另一个值得一提的 LLM。与传统模型一样,T5 也是基于转换器体系结构构建的,并在预训练阶段使用编码器和解码器处理文本。与传统模型不同的是,T5 将输入和输出视为文本字符串,从而简化了体系结构和训练过程。T5 模型是一种可自适应的通用模型,可以处理各种各样的任务。

内容创建和汇总

LLM 可以使用各种样式和格式生成具有吸引力、信息丰富且契合上下文的内容。收到提示后,它们可以生成文章、报告、博客文章、电子邮件、营销文案,甚至代码片段。   
在生成摘要方面,大语言模型展现了独特的能力,能够将大量文本提炼为简洁且准确的概要。它们可以显示要点,同时仍保留原始内容的原始上下文和含义。研究人员已经通过使用 LLM 汇总研究论文、文章、演示文稿和会议笔记节省了时间,并提高了工作效率。

对话代理和聊天机器人

对话代理和聊天机器人依赖于 LLM 的高级自然语言处理功能,可生成类似于人类的交互。它们以流畅、自然和契合上下文的方式解读用户输入并给出响应。它们不仅可以回答问题,而且可以参与长而复杂的对话。 
通过添加聊天机器人和虚拟助手,企业现在可以为其客户提供全天候支持,进而扩展其服务可用性、缩短响应时间和提高整体客户满意度。

语言翻译和情绪分析

针对多语言数据集进行广泛训练的 LLM 可跨各种语言生成高度准确的翻译。与传统模型不同,LLM 可以捕获语言的细微之处和复杂性(如惯用表达),从而生成流畅且契合上下文的翻译。 
LLM 还可以执行情绪分析,以分析文本的基本情感语气。通过处理和解释语言的细微之处,LLM 可提供更精确、更深入的情绪评估。它们甚至可以察觉到更细微的情绪,如讽刺。 

个性化推荐

LLM 可以分析用户数据(包括用户历史记录和首选项)并生成个性化的定制建议,以反映用户的兴趣和需求,进而增强整体用户体验。 
此功能广泛用于电子商务、内容流式处理和社交媒体领域,在这些领域中,提供定制的建议可推动更有意义的交互。LLM 还可以用作一种教育工具,为学生提供个性化的学习体验。

后续发展

随着研究人员不断提高其理解能力、效率和可伸缩性,预计大语言模型在处理复杂语言任务方面会更加得心应手。随着 LLM 的采用日益扩大,越来越多的组织将会全面体验到简化的自动化流程、更强的个性化服务以及更好的决策过程。 
研究人员正在继续探索新的方法来解决偏见这一长期存在的问题。这些方法包括可在训练期间处理偏见问题的去偏算法、纳入可重新平衡数据集以体现公平性的综合数据、可更好地了解模型决策的可解释性工具,以及有助于更精准地识别和量化偏见的检测基准。 
处理文本、图像、音频和视频数据的多模式模型也变得越来越复杂。大语言模型 (LLM) 通过评估语法和语义来处理文本数据,而多模式模型则通过计算机视觉技术来分析视觉数据,并通过时序处理来分析音频数据。(表单顶部)多模式模型正在增强当今的技术,同时也在为未来的创新开辟道路。
资源

详细了解 Azure AI

一个人坐在计算机前面
资源

学生开发人员资源

利用可帮助职业快速起步的学习资料和计划。
一群人坐成一圈
资源

Azure 资源

访问所需的所有 Azure 资源,包括教程、白皮书和代码示例。
一个人对着电脑微笑
资源

Azure 学习中心

通过针对你的角色或特定技术定制的培训来发展你的 AI 技能。
常见问题解答

常见问题

  • LLM 代表大语言模型。
  • AI 是一个广泛的领域,涵盖的应用范围非常广泛,而不仅仅是语言。它包括所有旨在复制人类智能的技术。作为特定类型的 AI 模型,LLM 是更广泛的 AI 方案其中的一部分,侧重于处理和生成自然语言文本。
  • 自然语言处理 (NLP) 是指侧重于语言处理的综合性领域,而大语言模型 (LLM) 则是 NLP 领域中的一种特定高级模型,它们使用深度学习技术来处理语言任务。
  • 生成式预训练转换器 (GPT) 是指 OpenAI 开发的一系列特定的大语言模型 (LLM)。它们是一种 LLM,特别侧重于语言生成。