一、核心概念:编码、码点与字节流的三角关系
这是文本处理的基础,所有操作都围绕这三个概念展开。
1.1 Unicode 码点:字符的'唯一身份证'
Unicode 是一套字符集,核心作用是给世界上所有字符(英文、中文、Emoji 等)分配唯一的数字编号,这个编号就是码点(Code Point),格式为 U+XXXX(如 a 对应 U+0061,中 对应 U+4E2D)。
核心特征
- 码点是逻辑上的固定单位:一个码点对应一个字符,是内存中操作字符的最小单元。
- 数值范围:U+0000 ~ U+10FFFF,不同码点的物理存储长度可变(16 位或 32 位),但对开发者透明。

