大语言模型

在自然语言处理(Natural Language Processing,NLP)中,有一项关键技术叫Transformer,这是一种神经网络模型,是如今AI高速发展的主要原因。
我们熟知的大模型(Large Language Models,LLM),列如GPT,DeepSeek底层都是采用的Transformer神经网络。

  • Generative:根据上文预测之后应该出现在哪个文本,从而形成连续的文本输出
  • Pre-trained:预训练,让大模型可以理解人类语言的语法、词性
  • Transformer:推理预测,深度学习的一种神经网络模型。多数的AIGC模型都依赖于此

文本向量化

将文本相近的变成坐标点,文本语义相近的就距离较近。

  • 将文本转成一组浮点数,放入一个数组,作为多为空间坐标(words–enbedding->vectors)
  • 通过训练调整向量坐标,使其在不同的方向具备含义,让其相近的语义的词在空间中更加接近
  • 两个向量的差,也就是一个向量到另外一个向量,可以表示两个点的不同点;比如man和woman

举例:
E(中国)和E(美国)的饮食有什么差别,向量逻辑就是中国向量和美国向量做差,会得到一个向量A;在找到美国的饮食向量,比如汉堡,向量A和它相加可能就会得到肉夹馍:E(中国) - E(美国) + E(汉堡) = E(肉夹馍)

注意力机制

就是通过不同的条件去缩小向量点的范围,要求的算力是比较高的。这些条件就组成了上下文,但是上下文是存在容量上限的,当上下文超出上限之后,大模型就可能丢失之前的记忆。

大模型应用开发

模型部署

  • 云部署:阿里云、gpt等,前期成本低,但是数据隐私喝网络依赖高,长期成本也高。
  • 本地部署:ollma自己部署,初始成本高,维护复炸,部署周期长。

调用大模型

以DeepSeek官方给出的demo:https://api-docs.deepseek.com/zh-cn/

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# Please install OpenAI SDK first: `pip3 install openai`
import os
from openai import OpenAI

# TODO 1.初始化OpenAI客户端,所有的大模型都遵循OpenAI规范。
client = OpenAI(
api_key=os.environ.get('DEEPSEEK_API_KEY'),
base_url="https://api.deepseek.com")

response = client.chat.completions.create(
model="deepseek-v4-pro",# TODO 2.确认模型
messages=[
{"role": "system", "content": "You are a helpful assistant"}, # TODO 3.给大模型设置角色
{"role": "user", "content": "Hello"}, # TODO 4.用户访问内容
],
stream=False,
reasoning_effort="high",
extra_body={"thinking": {"type": "enabled"}}
)
# TODO 5. 打印http请求大模型返回的结果
print(response.choices[0].message.content)

大模型应用

大模型应用是基于大模型的推理、分析、生成能力,结合传统编程能力,开发出的各种应用。

  • 传统程序擅长:确定性逻辑处理和精确控制与高可靠性
  • AI大模型擅长:模糊问题处理和复杂模式识别

两者结合汲取优势就是大模型应用。
大模型没有记忆能力,它能够拥有记忆都是传统代码生成的。

AI应用开发技术架构

  • 纯Prompt问答:利用大模型的推理能力,通过Prompt问答来完成业务。(对话机器人)
  • Agent+Function Calling(tools):AI拆解任务,通过业务端提供接口实现复杂业务;大模型是没有联网能力的,给他一个链接就只是一个链接;只能通过传统程序(Function calling)去获取链接内容。(智能客服)
  • RAG(Retrieval Augmented Generation):给大模型外挂一个知识库,让大模型基于知识库内容做推理和回答
  • Fine-tuning:针对特有的业务场景对基础大模型做数据训练和微调,以满足特定场景的需求

rag知识库步骤:文档加载->文档切分->文档编码->写入知识库->ai应用检索知识片段,组织prompt发送给基础大模型

AI核心概念

  • LLM:大模型,是所有AI技术的核心
  • Token:大模型处理数据的最基本单元
  • Context:大模型每次处理任务时接收到的信息总和
  • Context Window:大模型的Context最多能够存储的Token量
  • Prompt:用户或系统当前给大模型下达的具体指令或问题
  • Tool:大模型用来感知和影响外部环境的函数
  • MCP:统一了工具接入格式的标准协议
  • Agent:能够自主规划和调用工具、直至解决用户问题的程序
  • Agent Skill:给Agent看的说明文档