tokenizer添加token的详细demo

tokenizer添加token的详细demo

文章目录


前言

我们在Hugging Face不同模型对应的tokenizer映射字典,不存在某些专有词汇,我们需要新增对应的token,以便我们使用对应模型处理不存在专业词汇。为此,本篇文章针对此问题,记录如何为tokenizer添加对应词汇,便于模型转换。


一、tokenizer添加token

我选择llava对应小羊驼模型的tokenizer,我将其读取为tokenizer,在保存原有tokenizer,随后使用tokenizer.add_tokens添加token,也将其保存,并加载添加后的tokenizer,其详细代码如下:

import transformers tokenizer = transformers.AutoTokenizer.from_pretrained( '/home/llava_v1.5_lora/vicuna-13b-v1.5', cache_dir=None, model_max_length=4096, padding_side="right", use_fast=False, ) # 加载语言模型的tokenizer vocab=["你好", "我完成加载","ok"] if __name__ == '__main__': vicuna_dict = tokenizer.get_vocab() token_vocab = [tokenizer.tokenize(voc) for voc in vocab] tokenizer.save_pretrained("llava_vicuna_token_ori") # 保存原有的tokenizer new_tokens = ["你好", "我完成加载"] # 添加新 token tokenizer.add_tokens(new_tokens) # 确保 tokenizer 重新构建词汇表 tokenizer.save_pretrained("llava_vicuna_token") # 保存更新后的tokenizer tokenizer_ll = transformers.AutoTokenizer.from_pretrained('llava_vicuna_token', cache_dir=None, model_max_length=4096, padding_side="right", use_fast=False) # 加载语言模型的tokenizer vicuna_dict_ll = tokenizer_ll.get_vocab() token_vocab_ll = [tokenizer_ll.tokenize(voc) for voc in vocab] 

二、结果比较

最终我们发现添加token后文件夹多了一个added_tokens.json文件,该文件夹就是我们添加内容。
added_tokens.json内容如下:

{ "你好": 32000, "我完成加载": 32001 } 

文件结果如下:

www.zeeklog.com - tokenizer添加token的详细demo

三、added_tokens.json文件修改
既然文件差异是多了一个字典added_tokens.json文件,那么我想直接把一些字典添加到该文件夹中,是否有效?答案是:肯定的。

1、手动添加token

那么added_tokens.json文件内容如下:

{ "你好": 32000, "我完成加载": 32001, "太棒了": 32002 } 

2、代码验证添加token

使用代码查看如下:

new_tokens = ["你好", "我完成加载","太棒了"] tokenizer_ll = transformers.AutoTokenizer.from_pretrained('llava_vicuna_token', cache_dir=None, model_max_length=4096, padding_side="right", use_fast=False) # 加载语言模型的tokenizer tokens=[tokenizer_ll.tokenize(t) for t in new_tokens] print(tokens) ids = [tokenizer_ll.convert_tokens_to_ids(t) for t in tokens] print("tokens Ids:\n", ids) 

3、结果显示

显示结果如下:

www.zeeklog.com - tokenizer添加token的详细demo

Read more

最新电子电气架构(EEA)调研-3

而新一代的强实时性、高确定性,以及满足CAP定理的同步分布式协同技术(SDCT),可以实现替代TSN、DDS的应用,且此技术已经在无人车辆得到验证,同时其低成本学习曲线、无复杂二次开发工作,将开发人员的劳动强度、学习曲线极大降低,使开发人员更多的去完成算法、执行器功能完善。 五、各大车厂的EEA 我们调研策略是从公开信息中获得各大车厂的EEA信息,并在如下中进行展示。 我们集中了华为、特斯拉、大众、蔚来、小鹏、理想、东风(岚图)等有代表领先性的车辆电子电气架构厂商。        1、华为 图12 华为的CCA电子电气架构              (1)华为“计算+通信”CC架构的三个平台                         1)MDC智能驾驶平台;                         2)CDC智能座舱平台                         3)VDC整车控制平台。        联接指的是华为智能网联解决方案,解决车内、车外网络高速连接问题,云服务则是基于云计算提供的服务,如在线车主服务、娱乐和OTA等。 华

By Ne0inhk
Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践 文章目录 * Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践 * Apache IoTDB 核心特性与价值 * Apache IoTDB 监控面板完整部署方案 * 安装步骤 * 步骤一:IoTDB开启监控指标采集 * 步骤二:安装、配置Prometheus * 步骤三:安装grafana并配置数据源 * 步骤四:导入IoTDB Grafana看板 * TimechoDB(基于 Apache IoTDB)增强特性 * 总结与应用场景建议 Apache IoTDB 核心特性与价值 Apache IoTDB 专为物联网场景打造的高性能轻量级时序数据库,以 “设备 - 测点” 原生数据模型贴合物理设备与传感器关系,通过高压缩算法、百万级并发写入能力和毫秒级查询响应优化海量时序数据存储成本与处理效率,同时支持边缘轻量部署、

By Ne0inhk
SQL Server 2019安装教程(超详细图文)

SQL Server 2019安装教程(超详细图文)

SQL Server 介绍) SQL Server 是由 微软(Microsoft) 开发的一款 关系型数据库管理系统(RDBMS),支持结构化查询语言(SQL)进行数据存储、管理和分析。自1989年首次发布以来,SQL Server 已成为企业级数据管理的核心解决方案,广泛应用于金融、电商、ERP、CRM 等业务系统。它提供高可用性、安全性、事务处理(ACID)和商业智能(BI)支持,并支持 Windows 和 Linux 跨平台部署。 一、获取 SQL Server 2019 安装包 1. 官方下载方式 前往微软官网注册账号后,即可下载 SQL Server Developer 版本(

By Ne0inhk