大语言模型
在自然语言处理(Natural Language Processing,NLP)中,有一项关键技术叫Transformer,这是一种神经网络模型,是如今AI高速发展的主要原因。
我们熟知的大模型(Large Language Models,LLM),列如GPT,DeepSeek底层都是采用的Transformer神经网络。
- Generative:根据上文预测之后应该出现在哪个文本,从而形成连续的文本输出
- Pre-trained:预训练,让大模型可以理解人类语言的语法、词性
- Transformer:推理预测,深度学习的一种神经网络模型。多数的AIGC模型都依赖于此
文本向量化
将文本相近的变成坐标点,文本语义相近的就距离较近。
- 将文本转成一组浮点数,放入一个数组,作为多为空间坐标(words–enbedding->vectors)
- 通过训练调整向量坐标,使其在不同的方向具备含义,让其相近的语义的词在空间中更加接近
- 两个向量的差,也就是一个向量到另外一个向量,可以表示两个点的不同点;比如man和woman
举例:
E(中国)和E(美国)的饮食有什么差别,向量逻辑就是中国向量和美国向量做差,会得到一个向量A;在找到美国的饮食向量,比如汉堡,向量A和它相加可能就会得到肉夹馍:E(中国) - E(美国) + E(汉堡) = E(肉夹馍)
注意力机制
就是通过不同的条件去缩小向量点的范围,要求的算力是比较高的。这些条件就组成了上下文,但是上下文是存在容量上限的,当上下文超出上限之后,大模型就可能丢失之前的记忆。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 coder-xuyong!
评论





