Transformer实战(9)——Transformer分词算法详解

Transformer实战(9)——Transformer分词算法详解

Transformer实战(9)——Transformer分词算法详解

0. 前言

在自然语言处理领域,高效准确的分词算法是构建强大语言模型的基础。随着 Transformer 架构的广泛应用,子词分词算法已成为处理多语言文本和稀有词汇的关键技术。本文将从理论到实践,全面解析现代自然语言处理 (Natural Language Processing, NLP) 中最主流的三种分词方法:BPEWordPieceSentencePiece,探讨这些算法的核心原理和适用场景,并介绍使用 tokenizers 库训练分词器的完整流程。

1. 子词分词算法

BERT 语言模型一节中,我们使用 BertWordPieceTokenizer 分词器 (tokenizer) 训练了 BERT 模型。在本节中,我们将详细讨论分词过程。分词是将文本输入拆分为词元 (token),并为每个词元分配一个标识符,然后将其输入到神经网络架构中的过程。最直观的方法是根据空格将序列拆分成较小的块,但这种方法并不适用于所有语言,例如中文、韩语等,并且可能导致词汇表过大的问题。绝大部分 Transformer 模型都采用子词分词,不仅有助于降低维度,还能够对训练中未

Read more

算法王冠上的明珠——动态规划之斐波那契数列问题(第二篇)

算法王冠上的明珠——动态规划之斐波那契数列问题(第二篇)

目录 1. LeetCode746. 使用最小花费爬楼梯 2. LeetCode91. 解码方法 今天我们继续来聊一聊动态规划的斐波那契数列类型的题目 1. LeetCode746. 使用最小花费爬楼梯 这个题目的话也是比较简单的。就是要求我们计算在可以一次走一步或者两步的情况下,到达结尾时的最小消耗。 所以在这道题里面它的状态表示就是走到当前位置的值的最小消耗。 所以在这道题里面它的状态转移方程就是dp[i]=min(dp[i-1],dp[i-2])+c[i]。 它的初始化就是第0个位子设置为c[0],第一个位置设置为c[1]。(怎么设置是因为我们是不知道开始的那个位置的大小,而且因为我们的状态转移方程需要依靠前两个位置的值,所以我们在这里就直接初始化前两个)。 填表顺序就是从前往后就好。 返回值就是dp表第sz-1个位置的值和第sz-2个位置的值的最小值。 class Solution { public: int minCostClimbingStairs(vector<int>& c) { int sz=c.size(); vector<

By Ne0inhk
一序平衡,括号归真:单括号匹配算法的优雅美学

一序平衡,括号归真:单括号匹配算法的优雅美学

一序平衡,括号归真:单括号匹配算法的优雅美学 * 一、问题本源:何为合法的单括号序列? * 🔹 核心判定准则 * 举个直观例子 * 二、思维演进:从朴素思路到极致优化 * 1. 原始思路:双计数器法(直观但冗余) * 2. 优雅优化:单计数器法(平衡值思想) * 三、图形化拆解:算法执行全过程 * 案例1:合法序列 `( () () )` * 案例2:非法序列 `( ) )` * 四、算法原理深度讲解 * 五、C++ 关键代码实现与讲解 * 代码核心亮点 * 六、算法思维的启示 * 七、结语 算法与数据结构片头 在算法的星河里,单括号匹配问题如一颗温润的贝珠,以极简的形态承载着最纯粹的算法思维。它剥离了复杂的类型干扰,只保留一对小括号 () 的序列判断,却能让我们窥见「平衡思想」与「代码优化」的本质——这是编译器语法校验、表达式合法性判断的底层基石,

By Ne0inhk
C语言指针与数组的深度应用与内存解析

C语言指针与数组的深度应用与内存解析

C语言指针与数组的深度应用与内存解析 💡 学习目标:掌握指针与数组的等价性原理,熟练运用指针操作数组元素,理解二者在内存中的存储本质,解决实际开发中数组遍历、数据拷贝的高效实现问题。 💡 学习重点:指针与数组名的区别、指针算术运算操作数组、二维数组的指针访问方式、内存视角下的数组与指针关系。 48.1 指针与数组的核心关联:本质与等价性 在C语言中,指针和数组的关系密不可分。很多初学者会混淆数组名和指针的概念,实际上二者既有联系又有本质区别。 48.1.1 数组名的“隐式转换”特性 当数组名出现在表达式中时,它会隐式转换为指向数组首元素的指针。我们可以通过一个简单的例子来验证这个特性: #include<stdio.h>intmain(){int arr[5]={10,20,30,40,50};// 输出数组首元素地址printf("数组名arr的地址:%p\n", arr)

By Ne0inhk
数据结构—顺序表超经典算法

数据结构—顺序表超经典算法

数据结构—顺序表链表经常用到的算法 * 所有题目链接 * 顺序表算法题(双指针法) * 移除元素 * 删除有序数组中的重复项 * 合并两个有序数组 * 链表算法题(快慢指针,三指针法,创建新链表法) * 移除链表元素 * 反转链表 * 链表的中间节点 * 合并两个有序链表 * 链表分割 * 链表的回文结构 * 相交链表 * 环形链表(快慢指针) * 环形链表I * 环形链表II * 代码仓库 所有题目链接 移除元素 删除有序数组中的重复项 合并两个有序数组 移除链表元素 反转链表 链表的中间节点 合并两个有序链表 链表分割 链表的回文结构 相交链表 环形链表I 环形链表II 顺序表算法题(双指针法) 移除元素 题目链接↓ 移除元素 题目讲解↓ 思路:双指针法,创建两个变量dst,src如果src指向的数据是val,src++如果src指向的数据不是val,赋值(

By Ne0inhk