大模型理论

发表于2026-05-12|更新于2026-05-12|4.AI

|总字数:452|阅读时长:1分钟|浏览量:

大语言模型

在自然语言处理（Natural Language Processing，NLP）中，有一项关键技术叫Transformer，这是一种神经网络模型，是如今AI高速发展的主要原因。
我们熟知的大模型（Large Language Models，LLM），列如GPT，DeepSeek底层都是采用的Transformer神经网络。

Generative：根据上文预测之后应该出现在哪个文本，从而形成连续的文本输出
Pre-trained：预训练，让大模型可以理解人类语言的语法、词性
Transformer：推理预测，深度学习的一种神经网络模型。多数的AIGC模型都依赖于此

文本向量化

将文本相近的变成坐标点，文本语义相近的就距离较近。

将文本转成一组浮点数，放入一个数组，作为多为空间坐标（words–enbedding->vectors）
通过训练调整向量坐标，使其在不同的方向具备含义，让其相近的语义的词在空间中更加接近
两个向量的差，也就是一个向量到另外一个向量，可以表示两个点的不同点；比如man和woman

举例：
E(中国)和E(美国)的饮食有什么差别，向量逻辑就是中国向量和美国向量做差，会得到一个向量A；在找到美国的饮食向量，比如汉堡，向量A和它相加可能就会得到肉夹馍：E(中国) - E(美国) + E(汉堡) = E(肉夹馍)

注意力机制

就是通过不同的条件去缩小向量点的范围，要求的算力是比较高的。这些条件就组成了上下文，但是上下文是存在容量上限的，当上下文超出上限之后，大模型就可能丢失之前的记忆。

文章作者: coder-xuyong

文章链接: https://coder-xuyong.github.io/posts/15b3970a

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 coder-xuyong！

相关推荐

Spring AI 入门

Spring AI 入门前置知识参考：Spring AI 中文网用于快速接入大模型以下是 Spring AI、Spring Boot 与 JDK 的版本兼容性整理： Spring AI 版本 Spring Boot 版本 JDK 版本 1.0.x 3.1.x - 3.5.x Java 17 1.1.x 3.5.x Java 17 2.x 4.0.x 及以上 Java 21 大模型选型自研大模型，AI算法岗（985，211）云端大模型，阿里百炼本地 ollama 部署开源大模型 github 大模型评分调用大模型入门使用百炼大模型创建API-KEY导入maven： 12345678910111213141516171819202122232425262728293031<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId&...

Windows 工作常用操作

Windows 工作中遇到的问题 work condition标签（空格分隔）： Windows windows 端口占用12345678# 查找端口号，监听的程序idnetstat -aon|findstr "9011"# 通过程序id，找到程序tasklist|findstr "24548"# 通过程序id，杀死这个程序taskkill -pid 24548 -f# 查找这个端口的线程的数量netstat -ano | findstr 9002 | find /c /v "" windows 启动 jar包案例一： 1234567891011121314@echo offsetlocalREM 改变当前工作目录到 JAR 文件所在目录, /d 参数允许同时更改驱动器和目录cd /d D:\transferData\REM 指定Java应用程序和参数set "JAVA_PATH=D:\transferData\jdk1.8.0_351\jre\bin\java"set "JAR_FI...

maven 使用记录

maven依赖查找官网 https://mvnrepository.com/ dependencyManagementdependency 真正引入依赖，而 dependencyManagement 只是声明依赖版本等信息，并不实际引入。其中的<type>pom</type>和<scope>import</scope>引入的不是代码依赖，而是版本管理信息 <relativePath/>空标签等价于，它告诉 Maven：不要尝试从相对路径查找父 POM，直接去本地仓库和远程仓库寻找。这是一种显式声明“父 POM 必须从仓库获取” 的方式，可以避免 Maven 因在相对路径查找而浪费时间和产生误导

java 面向对象

面向对象五大基本原则:单一职责原则(Single-Responsibility Principle)、开放封闭原则(Open-Closedprinciple)、Liskov替换原则(Liskov-Substituion Principle)、依较倒置原则(Dependency-lnversionPrinciple)和接口隔离原则(Interface-Segregation Principle)。单一职责原则: 一个类最好只做一件事开放封闭原则: 对扩展开放、对修改封闭里氏替换原则: 子类必须能够替换其基类依赖倒置原则: 程序要依赖于抽象接口，而不是具体的实现接口隔离原则: 使用多个小的专门的接口，而不要使用一个大的总接口 Java继承继承的概念继承就是子类继承父类的特征和行为，使得子类对象（实例）具有父类的实例域和方法，或子类从父类继承方法，使得子类具有父类相同的行为。继承的特性子类拥有父类非 private 的属性、方法子类可以拥有自己的属性和方法，即子类可以对父类进行扩展。子类可以用自己的方式实现父类的方法。 Java 的继承是单继承，但是可以多重继承，单继承就...

简介详细api方法可以查看：官方API文档更多教程可以查看：官方教程文档语法与 C、C++接近，且丢弃了 C++中很少使用的特性。此外，java 还不使用指针，而是引用，并提供了自动分配和回收内存空间，使得我们不用为内存管理而担忧。运行环境，最好保证操作系统内存 1G 以上环境配置oracle jdk 下载：https://www.oracle.com/java/technologies/downloads/ 需要有 Oracle 账户现在压缩包，解压放置在E:\development下，在 “系统变量” 中设置 3 项属性，JAVA_HOME、PATH、CLASSPATH(大小写无所谓),若已存在则点击”编辑-新建”，不存在则点击”新建”。变量设置参数如下：变量名：JAVA_HOME 变量值：C:\Program Files (x86)\Java\jdk1.8.0_91 // 要根据自己的实际路径配置变量名：CLASSPATH 变量值：.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\too...

Java 编码和加密

Java 编码和加密Base64 编码Base64 原理Base64 内容传送编码是一种以任意 8 位字节序列组合的描述形式，这种形式不易被人直接识别。 Base64 是一种很常见的编码规范，其作用是将二进制序列转换为人类可读的 ASCII 字符序列，常用在需用通过文本协议（比如 HTTP 和 SMTP）来传输二进制数据的情况下。Base64 并不是加密解密算法，尽管我们有时也听到使用 Base64 来加密解密的说法，但这里所说的加密与解密实际是指编码（encode）和解码（decode）的过程，其变换是非常简单的，仅仅能够避免信息被直接识别。 Base64 算法主要是将给定的字符以字符编码(如 ASCII 码，UTF-8 码)对应的十进制数为基准，做编码操作：将给定的字符串以字符为单位，转换为对应的字符编码。将获得字符编码转换为二进制对二进制码做分组转换，每 3 个字节为一组，转换为每 4 个 6 位二进制位一组（不足 6 位时低位补 0）。这是一个分组变化的过程，3 个 8 位二进制码和 4 个 6 位二进制码的长度都是 24 位（3*8 = 4*6 = 24）。...

评论

数据加载中