AI大模型-attention（注意力机制）与self attention（自注意力机制）

Ne0inhk

24 Mar 2026 — 5 min read

一、Attention（注意力机制）

核心定义：Attention（注意力机制）是 AI 大模型处理信息时模仿人类 “选择性关注” 的核心技术 —— 简单说，模型在面对海量信息（比如一句话、一张图、一段音频）时，不会平均分配算力去处理每一个细节，而是像人一样，只把核心算力聚焦在关键信息上，对无关信息则 “视而不见”，以此提升理解和生成的精准度，同时降低计算成本。

结合实际运作逻辑解释：

人类的注意力是 “有偏向的”：比如你看一张照片时，会自动聚焦在人物的面部，而非背景的花草；读一句话时，会重点关注主语、宾语，而非无关的助词。Attention 机制就是把这种 “偏向性” 量化成可计算的规则：

模型会先给所有待处理的信息（比如一句话里的每个词、一张图里的每个像素）分配一个注意力权重（0~1 之间的数值）；
关键信息的权重接近 1（比如照片里的人脸、句子里的 “苹果”），无关信息的权重接近 0（比如照片里的背景、句子里的 “的”）；
模型最终只针对高权重的信息做深度计算，低权重信息仅做基础处理甚至忽略。

具体例子：在 “机器翻译” 场景中，把中文 “小明吃苹果” 翻译成英文时：

模型生成英文单词 “apple” 时，会给中文里的 “苹果” 分配 0.9 的高权重，给 “小明” 分配 0.1、“吃” 分配 0.2 的低权重；
生成 “Xiaoming” 时，会给中文里的 “小明” 分配 0.95 的高权重，给 “苹果”“吃” 分配极低权重；
这种 “按需聚焦” 的逻辑，确保了翻译结果不会偏离核心语义。

核心价值：解决了传统 AI 模型 “处理信息无差别、长文本 / 复杂信息理解能力差” 的问题，让模型能精准抓住信息的核心，而非被冗余细节干扰。

二、Self-Attention（自注意力机制）

核心定义：Self-Attention（自注意力机制）是 Attention 机制的一种具体实现形式，核心特点是 ——让同一组信息内部的每个元素，互相做注意力计算，也就是让信息 “自己和自己对话”，从而理解这组信息内部的上下文关联、逻辑关系。

结合实际运作逻辑解释：如果说普通 Attention 是 “跨两组信息找关联”（比如中文原文和英文译文），Self-Attention 则是 “在同一组信息里找关联”：

针对单一组信息（比如单独一句话、单独一张图），模型会让其中的每一个元素（比如每个词、每个图像区域），都去和这组信息里的所有其他元素计算注意力权重；
不管元素的位置远近（比如句子开头的词和结尾的词），都能精准计算出彼此的关联度；
最终每个元素都会融合 “全组信息的关联特征”，形成带全局上下文的新特征。

具体例子：处理中文句子 “小明喜欢吃苹果，他每天都买” 时：

针对 “他” 这个词，Self-Attention 会让它和句子里的 “小明”“喜欢”“苹果”“每天”“买” 等所有词算权重，最终给 “小明” 分配 0.9 的最高权重，给 “苹果” 分配 0.5 的权重，给 “喜欢”“每天” 分配 0.1 的权重；
针对 “买” 这个词，Self-Attention 会给 “苹果” 分配 0.8 的最高权重，给 “他” 分配 0.6 的权重，给 “小明” 分配 0.5 的权重；
通过这种内部关联计算，模型能精准识别 “他” 指代 “小明”、“买” 的对象是 “苹果”，彻底理解句子的逻辑，而非孤立看待每个词。

核心价值：解决了传统序列模型（比如 RNN/LSTM）“只能关注相邻信息、无法捕捉长距离关联” 的问题 —— 比如处理 1000 字的长文本时，Self-Attention 能让开头的词和结尾的词直接建立关联，让模型真正理解长文本的全局逻辑，这也是 GPT、Qwen 等大模型能处理长上下文的核心原因。

补充：两者的简单关联

Self-Attention 是 Attention 的 “子集”：Attention 是 “选择性聚焦” 的通用逻辑，而 Self-Attention 是其中最核心、最常用的一种，专门用于理解单一信息内部的关联；除此之外，还有其他类型的 Attention（比如 Encoder-Decoder Attention），用于跨两组信息找关联（如翻译、问答）。

总结

Attention：核心是 “选择性关注重点信息”，给不同信息分配权重，聚焦关键、忽略冗余；
Self-Attention：核心是 “同一组信息内部互相找关联”，让每个元素都能参考全局信息，理解内部逻辑；
两者都是大模型实现 “精准理解语义 / 图像” 的核心，其中 Self-Attention 是大语言模型的底层基础。

JAVA IO流：从基础原理到实战应用

JAVA IO流：从基础原理到实战应用 1.1 本章学习目标与重点 💡 掌握IO流的核心概念与分类，理解字节流与字符流的区别和适用场景。 💡 熟练使用字节流完成文件的读取与写入操作，解决文件拷贝等实际问题。 💡 掌握字符流的使用方法，处理文本文件的编码与解码问题。 💡 了解缓冲流、转换流、对象流等高级IO流的原理，提升IO操作效率。 ⚠️ 本章重点是字节流与字符流的核心用法和高级IO流的实战应用，这是JAVA文件操作的必备技能。 1.2 IO流核心概念与分类 1.2.1 什么是IO流 💡 IO流（Input/Output Stream）是JAVA中用于处理设备之间数据传输的技术，主要负责数据的读取（Input）和写入（Output）。常见的IO操作包括文件读写、网络通信数据传输等。IO流的核心思想是以流的方式处理数据，数据像水流一样从一个设备流向另一个设备，实现数据的传输与处理。 1.2.2 IO流的分类标准 JAVA中的IO流体系庞大，可按照不同标准进行分类，核心分类方式有以下三种： 1.

jdk 国内下载镜像站

以下是一些常用的JDK国内下载镜像： * 华为云镜像： * 地址：https://repo.huaweicloud.com/java/jdk/。 * 特点：提供多种版本的JDK下载，速度快，无需注册登录，镜像内容全面，能满足不同用户对不同JDK版本的需求。 * 清华大学TUNA镜像： * 地址：https://mirrors.tuna.tsinghua.edu.cn/Adoptium/。 * 特点：提供AdoptOpenJDK的镜像下载，对于需要使用OpenJDK相关版本进行开发的用户来说，是一个很好的选择，下载速度相比从国外源下载有较大提升。 * 阿里云开源镜像站： * 地址：https://mirrors.aliyun.com/openjdk/。 * 特点：提供多种开源软件的镜像下载，包括Java JDK，依托阿里云的技术和资源支持，稳定性和下载速度都有保障。 * 网易开源镜像站： * 地址：未明确给出特定JDK镜像地址，但通常在其开源镜像体系中有Java JDK相关镜像，可通过官网查找具体路径。 * 特点：提供多种开源软件

【Java 开发日记】为什么要有 time _wait 状态，服务端这个状态过多是什么原因？

目录为什么要有 TIME_WAIT 状态？原因一：可靠地终止TCP连接（确保最后的ACK能到达对方）原因二：让旧连接的重复报文段在网络中自然消失（防止影响新连接）服务端 TIME_WAIT 状态过多是什么原因？原因一：服务端使用了短连接，并且是它主动关闭连接原因二：客户端的非正常行为原因三：负载均衡器的健康检查总结面试回答为什么要有 TIME_WAIT 状态？ TIME_WAIT，俗称2MSL等待状态，是TCP连接主动关闭一方（通常是客户端，但也可能是服务端）在发送最后一次ACK确认报文后，会进入的一个状态。它需要等待2倍的最大报文段生存时间后，才会最终进入CLOSED状态，释放连接资源。设计TIME_WAIT状态主要有两个核心原因，它们是确保TCP协议可靠性的基石：原因一：可靠地终止TCP连接（确保最后的ACK能到达对方）这是最主要的原因。让我们回顾一下TCP四次挥手的正常流程： 1. 主动关闭方（假设为A）

Java 时间类（上）：JDK7 及以前时间类 Date、SimpleDateFormat、Calendar 最全总结

🏠个人主页：黎雁 🎬作者简介：C/C++/JAVA后端开发学习者 ❄️个人专栏：C语言、数据结构（C语言）、EasyX、JAVA、游戏、规划、程序人生 ✨ 从来绝巘须孤往，万里同尘即玉京文章目录 * Java 时间类（上）：JDK7 及以前时间类 Date、SimpleDateFormat、Calendar 最全总结 🕒 * 📝 文章摘要 * 一、时间相关基础知识点 ⏱ * 1. 时间标准 * 2. 时间单位与换算 * 二、Date 时间类 📅 * 1. 概述 * 2. 构造方法 * 3. 成员方法 * 4. 代码示例 * 三、SimpleDateFormat 格式化与解析 ✍️ * 1. 作用