跳到主要内容
大模型面试高频题整理 | 极客日志
Python SaaS Nuct AI
大模型面试高频题整理 这份内容把大模型面试里最常见的知识点按主题整理了一遍,覆盖基础架构、微调方法、RAG 与 LangChain、分布式训练、推理优化和输出合规化。重点讲清了 Transformer、BERT、GPT、T5、LLaMA 等模型差异,prefix LM、causal LM、encoder-decoder 的取舍,以及 LoRA、P-tuning、SFT、Continue PreTrain、ZeRO、Flash Attention、Paged Attention 这些常见方案的用途和边界。整体更适合拿来做面试复习提纲,而不是当作标准答案死记。
基础篇
1、目前主流的开源模型体系有哪些?
常见的开源模型体系里,Transformer 仍然是主干。围绕它衍生出来的 BERT、GPT、T5、LLaMA 这类模型,基本把今天大模型的常见路线都覆盖了。除此之外,Hugging Face Transformers、TensorFlow Model Garden 这类库更偏工具层,前者在开源生态里用得更广,后者则更像官方模型仓库。
2、prefix LM 和 causal LM 区别是什么?
prefix LM 会给输入前面加一段可学习的前缀,让模型先'看见'任务提示再生成结果,适合带条件生成。causal LM 则是标准的自回归方式,只能基于左侧上下文预测下一个 token,天然适合续写和对话。
前者更像'先定调,再回答',后者更像'边写边想'。
3、涌现能力是啥原因?
涌现通常不是某一个神秘机制突然打开了,而是模型规模、数据覆盖面和优化目标一起把某些能力推到了可观察阈值以上。小模型里这些模式也许已经存在,只是还不够稳定,不够强。
4、大模型 LLM 的架构介绍?
今天的大模型基本都离不开 Transformer。它的核心是自注意力和前馈网络,前者负责建模 token 之间的依赖关系,后者负责做非线性变换。堆叠多层之后,模型就能在较长上下文里提取语义。
如果只说架构,LLM 大体会落在编码器、解码器、或编码器-解码器三种形态上。GPT 这类偏解码器,BERT 偏编码器,T5 走的是 encoder-decoder。实际工程里,更多人关心的是它是不是适合生成、推理成本高不高、长上下文能不能撑住。
5、目前比较受欢迎的开源大模型有哪些?
常见的有 GPT 系列、BERT 系列、T5 系列,以及后来更主流的 LLaMA、ChatGLM、Qwen 这类开源或开放权重模型。面试里如果只背早期名字,往往显得信息停在几年前。
6、目前大模型模型结构都有哪些?
主流还是三类:Transformer 编码器、Transformer 解码器、Transformer 编码器-解码器。具体到模型上,BERT 属于编码器,GPT 属于解码器,T5 属于编码器-解码器。
7、prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点?
prefix LM 适合在任务提示明确的场景下做条件生成,改动小,接预训练权重也比较顺手;缺点是前缀长度有限,提示不够时表达能力会被卡住。
causal LM 的优势是通用,生成任务很好接;问题也很直接,它看不到未来 token,做某些需要双向上下文理解的任务时不如编码器模型自然。
encoder-decoder 更适合输入输出都很明确的任务,比如翻译、摘要、结构化转换。它的代价是模型更重,训练和推理都更费资源。
8、模型幻觉是什么?业内解决方案是什么?
幻觉就是模型把不确定的内容说得很像真的,甚至编造细节。这个问题通常没法靠单一手段解决,比较现实的做法是把模型能力和外部知识源结合起来:检索增强、事实校验、约束解码、提高训练数据质量,都是常见路子。
9、大模型的 Tokenizer 的实现方法及原理?
常见实现还是子词切分,BPE、SentencePiece、Unigram 这些方案都很常见。思路没那么玄:先把文本切成稳定的小单元,再映射成 token id。这样既能覆盖生僻词,也不会把词表做得太夸张。
10、ChatGLM3 的词表实现方法?
ChatGLM3 也用了基于子词的词表设计,核心目标和别的模型类似:兼顾中文、英文和符号混排时的稳定切分。实际工程里,词表设计不是炫技点,更多是在准确率、词表大小和推理效率之间找平衡。
11、GPT3、LLAMA、ChatGLM 的 Layer Normalization 的区别是什么?各自的优缺点是什么?
GPT-3 和 ChatGLM 更接近 Post-LN,LLaMA 走的是 Pre-LN。Pre-LN 一般更稳,尤其在深层网络里更容易训练;Post-LN 有时在某些设置下效果不错,但训练稳定性更依赖细节。
12、大模型常用的激活函数有哪些?
ReLU、GeLU、Swish 都很常见。现在 Transformer 系列里,GeLU 用得尤其多,原因很简单:它在实践里更顺手,训练和效果都比较均衡。
13、多查询注意力与群查询注意力是否了解?区别是什么?
Multi-Query Attention 会让多个查询共享较少的 key/value,重点是省显存和提升推理速度。Grouped-Query Attention 则介于传统多头注意力和 MQA 之间,按组共享 KV,兼顾效果和效率。
如果要落到工程选择上,MQA 更省,但表达能力会压缩得更明显;GQA 往往是更折中的方案。
14、多模态大模型是否有接触?落地案例?
多模态模型就是把文本、图像、语音等不同输入放在一个系统里处理。比较典型的方向是图像描述、视觉问答、图文生成。DALL·E、GPT 系列、Multimodal Transformer 都属于经常被拿来举例的方向。
进阶篇
1、llama 输入句子长度理论上可以无限长吗?
不能。理论上位置编码和上下文建模方式会先把它限制住,工程上又会被显存和吞吐进一步卡死。真实系统里,能支持多长,最终还是看模型设计和部署预算。
就是模型生成时反复说同一段内容,或者在局部上不停重复词句。看起来像'会说话',实际上是输出分布出了问题。
常见原因是训练数据里重复太多,或者解码策略太保守。长上下文里注意力退化、模型对局部高概率 token 过度依赖,也会把这个问题放大。
可以从数据、模型和生成策略三层下手。数据上减少重复,模型上增强长序列建模能力,推理时再配合采样、惩罚重复 token 的策略,通常比单独改一处更有效。
5、什么情况用 Bert 模型,什么情况用 LLaMA、ChatGLM 类大模型?
BERT 更适合理解类任务,比如分类、抽取、匹配。LLaMA、ChatGLM 这类模型更适合生成、对话和需要顺带推理的场景。别把'模型越大越好'当成默认答案,很多时候任务本身就不需要那么重的模型。
大概率是需要的,但不一定非得从零训练。更常见的做法是通用底座加领域数据微调,再配合检索系统补知识。行业模型的价值,通常不是'更大',而是'更贴近业务语料'。
一条路是直接上长上下文模型;另一条更务实,做分块、摘要、检索和记忆机制。纯靠硬拉长度,成本很快就上来了,效果却不一定线性变好。
8、如果想要在某个模型基础上做全参数微调,究竟需要多少显存?
这个没有固定值,模型规模、batch size、优化器状态、精度都会影响结果。经验上,全参数微调比 LoRA 之类的参数高效方法吃显存得多,尤其是大模型,通常要多卡甚至配合 ZeRO、混合精度一起上。
多半是过拟合、数据质量差,或者微调把模型原来的泛化能力冲掉了。这个现象很常见,尤其是在数据量不大但训练强度又很高的时候。
先明确任务,再整理指令-响应对。数据要清洗、去重、统一格式,必要时再做增强。这里最怕的是指令看着很多,实际内容却杂乱,模型最后学到的是噪声。
11、领域模型 Continue PreTrain 数据选取?
优先选领域内高质量、覆盖面足够的数据,比如文档、论文、报告、知识库、论坛内容。不要只追求数量,脏数据会把领域知识稀释掉。
12、领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力?
比较常用的是混合训练、控制学习率和训练轮数,或者回炉一部分通用数据。说白了,就是别让模型只盯着领域语料,把原来的语言能力一点点冲没了。
13、领域模型 Continue PreTrain,如何让模型在预训练过程中就学习到更多的知识?
可以通过更好的数据组织、知识注入和任务设计来做。单纯堆文本也行,但效率一般;如果能把结构化知识、领域术语和相关任务一起喂进去,模型学得更扎实。
14、进行 SFT 操作的时候,基座模型选用 Chat 还是 Base?
如果你的目标就是做指令遵循、对话输出,Chat 模型通常更省事;如果想保留更强的可塑性,Base 往往更合适。我的经验是,别先争论概念,先看你手头数据更像哪一类。
没有统一答案,取决于模型和训练框架。原则上就是格式稳定、字段清晰、能被训练脚本直接消费。很多微调失败不是模型不行,而是数据格式前后不一致。
评测集要尽量贴近真实场景,同时保持代表性和难度分布。别拿训练集附近的样本去充数,那样测出来的结果通常很好看,但没什么用。
有些领域很有必要,比如术语密集、专有名词多、缩写多的时候。只是扩词表不是越多越好,词加进去之后模型要重新学,成本也会跟着涨。
先定目标,再定数据和架构,然后做预训练、评估、微调和部署。真正难的通常不是'写训练代码',而是数据、算力、调参和评测体系能不能对上。
中文数据质量比想象中更重要,分词、标点、繁简混用、口语表达都得认真处理。中文模型不只是'把英文语料换成中文语料',语言习惯差异会直接反映到效果上。
它能让模型更像一个'会按要求办事'的系统,而不是只会续写文本。对大多数应用来说,这一步几乎是必经的。
通用语言能力主要来自预训练,领域知识和任务适配更多靠微调。实际项目里,两者不是二选一,而是分工不同。
22、想让模型学习某领域或行业知识,是应该预训练还是应该微调?
一般先看目标。如果只是补充领域知识,继续预训练更自然;如果还要适配任务输出格式和对话风格,微调更直接。很多项目最后会两者都做。
数据要保留上下文顺序,训练目标要和对话生成一致。这里的关键不是'多轮'这个词本身,而是模型要真的学会在历史上下文里保持一致。
24、微调后的模型出现能力劣化,灾难性遗忘是怎么回事?
就是新任务学得太狠,把旧知识覆盖了。它不是抽象名词,实质上就是参数更新把通用能力挤掉了。
看模型大小和微调方式。全参微调最吃显存,LoRA、Prefix Tuning 这些方法会轻很多。真要估算,还是得把模型参数量、batch size、序列长度、优化器状态一起算进去。
26、大模型 LLM 进行 SFT 操作的时候在学习什么?
它主要在学任务格式、指令遵循、领域表达和输出风格。对话模型的话,还会顺带学上下文一致性。
预训练是学通用语言规律,数据量大但监督弱;SFT 是学具体任务怎么回答,监督更强,但范围更窄。
28、样本量规模增大,训练出现 OOM 报错,怎么解决?
先减 batch,再看是不是要开梯度累积、混合精度、ZeRO 或者并行训练。很多时候不是模型太大,是训练配置太激进。
29、大模型 LLM 进行 SFT 如何对样本进行优化?
优先清洗和去重,再做样本筛选、重采样和难例增强。数据不够时想办法提高有效样本密度,比盲目扩量更靠谱。
先定初始参数,再训练、评估、记录,再根据结果调整。这个流程看着普通,但做得细不细,直接决定你是不是在'凭感觉调参'。
31、为什么需要进行参数微调?参数微调的原因有哪些?
核心原因就两个:省资源,适配任务。全量训练太贵,很多场景也没必要把整个底座都改掉。
32、模型参数微调的方式有那些?你最常用哪些方法?
常见有冻结部分层、参数高效微调、低秩分解、前缀/提示微调等。工程上最常见的还是 LoRA 一类方法,原因很朴素:便宜、稳、好试。
33、prompt tuning 和 prefix tuning 在微调上的区别是什么?
Prompt Tuning 更像在输入侧加可学习提示;Prefix Tuning 则是给模型内部注意力层加连续前缀表示。两者目标接近,但作用位置不一样。
34、LLaMA-adapter 如何实现稳定训练?
思路是把适配器插到原模型里,只让少量参数动起来,再配合较小学习率和正则化,避免把底座扰乱太多。稳定训练的关键往往不是花哨技巧,而是别一上来就把更新幅度拉太大。
LoRA 通过低秩分解只学习一小部分增量参数,底座权重通常冻结。实践里比较重要的是选对插入位置、rank 和学习率;参数太小学不动,太大又失去参数高效的意义。
省显存、省训练成本、回滚方便,这是它最实际的三个优点。很多团队选 LoRA,不是因为它最优雅,而是因为它最容易落地。
AdaLoRA 的核心是动态分配不同层的低秩预算,把参数容量更合理地放到重要位置。简单说,就是别让所有层吃一样多的资源。
38、LoRA 权重合入 chatglm 模型的方法?
训练时只更新 LoRA 分支,推理前再把增量权重合回主模型。这样部署更方便,也能减少运行时额外开销。
39、P-tuning 讲一下?与 P-tuning v2 区别在哪里?优点与缺点?
P-tuning 是通过可学习的软提示来引导模型完成任务,P-tuning v2 则把这种思路做得更深入,覆盖更广的层。前者轻量,但表达能力有限;后者更强,但训练和调参成本也会高一些。
同前面一样,预训练学通用能力,SFT 学任务对齐。面试里如果被重复问到,别急着背概念,直接说清数据和目标差异就够了。
数据收集、清洗、建模、预训练、评估、再微调,这条链条基本跑不掉。真正费时间的是数据和评测,不是代码骨架。
这里的区别核心在于优化对象不同:一个偏数据目标,一个偏提示目标。面试里如果追问细节,最好结合上下文里的具体定义讲,不要只喊缩写。
43、是否接触过 embedding 模型的微调方法?
Embedding 微调通常是让向量空间更贴近领域语义。常见做法包括在领域数据上继续训练、调整相似度目标、或者把领域知识编码进表示空间。
44、有哪些省内存的大语言模型训练/微调/推理方法?
常见的有模型剪枝、量化、知识蒸馏、模型并行、数据并行、梯度累积,以及 ZeRO 这类优化。实际工程里,通常不是只靠一个方法,而是几招一起上。
45、大模型 (LLMs) 评测有那些方法?如何衡量大模型的效果?
自动指标、任务指标和人工评测都要看。单看 BLEU、ROUGE 这种分数不够,尤其是对话和生成任务,人工评测和真实用户反馈往往更接近实际效果。
46、如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?
最直接的办法是减少训练成本,比如缩数据、提并行度、加速训练流程,或者考虑更轻量的对齐方法。RLHF 这条链路本来就不轻,想快只能在流程上做取舍。
公开数据集、领域数据、合成数据、用户数据和商业数据都可能用到。关键不是'哪里有',而是拿到之后能不能合法、干净、可用。
量化是为了让模型更小、更快、更省内存。底层逻辑是用更低精度表示权重和激活,换取更低的存储和计算开销。
可以手工加词,也可以根据语料统计自动扩词。工具上常见的是 SentencePiece、Hugging Face Transformers 这些生态组件,做子词切分和词表管理都比较顺手。
这类框架主要负责把模型、检索、工具调用、数据处理和部署串起来。常见能力包括模型加载、上下文管理、向量检索、接口编排和服务化。
最常见的还是资源、稳定性、数据质量和部署问题。遇到这类问题时,通常不是靠'再训练一次'解决,而是先把链路拆开看,找到真正的瓶颈。
优化索引、改检索策略、做重排序、加强查询理解,都是常规手段。检索做不好时,先别急着怪模型,很多问题出在分块、召回和过滤上。
了解。常见方向包括剪枝、蒸馏、权重共享和低秩分解。它们的目标都差不多:让模型在更小的上下文或更低的资源下维持可用效果。
通常是先把长文本切成窗口,再给每个窗口建索引,检索时根据查询找到最相关的窗口片段。这个方法朴素,但够稳,很多场景比直接把整篇文档塞进上下文更实用。
LangChain、LlamaIndex、Hugging Face 的相关组件都经常被拿来做 RAG。不同框架差别不在'能不能做',更多在编排方式、生态和上手成本。
56、大模型应用框架 LangChain 和 LlamaIndex 各自的优势有那些?
LangChain 更偏应用编排,组件多,链路灵活;LlamaIndex 更偏数据接入和索引构建,做知识库类应用时会更顺手。选哪个,通常取决于你更重工具编排还是更重检索接入。
57、使用外部知识数据库时需要对文档进行分块,如何科学的设置文档块的大小?
没有统一答案,得看查询粒度、上下文窗口和检索目标。块太大,召回不准;块太小,语义又容易碎。最稳的办法还是结合业务做实验。
58、LLMs 受到上下文长度的限制,如果检索到的文档带有太多噪声,该如何解决这样的问题?
先过滤、再摘要、再重排序,必要时做上下文修剪。不是所有检索结果都该原封不动塞给模型,很多时候少一点噪声,答案反而更稳。
59、RAG(检索增强生成) 对于大模型来说,有什么好处?
RAG 的价值很直接:补知识、降幻觉、增强时效性,还能减少模型死记硬背的压力。它不是万能药,但在知识密集型场景里,往往比单纯堆模型参数更划算。
LangChain 应用开发
什么是 LangChain? LangChain 是一个把大模型、工具调用、检索和工作流编排在一起的开源框架。它的定位很清楚:不是替模型做思考,而是帮应用把模型用起来。
1、LangChain 包含哪些核心概念? Components 是可复用模块;Chains 是把多个步骤串起来的流程;Prompt Templates 负责提示词组织;Output Parsers 负责解析结果;Indexes and Retrievers 负责检索;Agents and Toolkits 负责工具调用。
2、什么是 LangChain Agent? Agent 本质上是能根据输入自己决定下一步做什么的执行体。它不会只按固定流程走,而是会在工具之间做选择。
3、如何使用 LangChain? 先把需要的组件接进来,再把流程串成 chain,接着处理 prompt、输出解析和部署。实际开发里,最花时间的往往不是把框架跑起来,而是把提示词和链路调顺。
4、LangChain 支持哪些功能? 外部 API 调用、数据库访问、文本生成、检索问答、多步决策,这些都在它的常见能力范围里。
5、什么是 LangChain model? 就是被 LangChain 调用的底层语言模型。它可以是 GPT,也可以是其他兼容接口的模型。
6、LangChain 包含哪些特点? 模块化、可扩展、灵活,外加一个现实层面的优点:它让很多'原本要自己拼装'的东西,能更快搭出原型。
7、LangChain 如何使用? 和前面类似:接组件、组链路、配 prompt、做输出解析,再上线验证。框架层的东西不难,难的是后面那半段。
8、LangChain 存在哪些问题及方法方案? 常见问题包括 token 消耗高、概念多、行为不够一致、文档不够顺手、数据结构不统一。解决方式也比较现实:少绕弯、少嵌套、少冗余,能标准化的地方尽量标准化。
9、LangChain 替代方案? 可以看 Hugging Face Transformers、OpenAI API,或者直接用更轻的自研编排层。LangChain 不是唯一解,尤其在链路简单时,自己写反而更省心。
10、LangChain 中 Components and Chains 是什么? Components 是单个功能模块,Chains 是这些模块按顺序连接起来的工作流。
11、LangChain 中 Prompt Templates and Values 是什么? Prompt Templates 是提示词模板,Values 是填进去的实际变量值。
12、LangChain 中 Example Selectors 是什么? 它是从示例池里挑出最合适示例的工具。用途主要是给模型提供更贴近当前任务的上下文。
13、LangChain 中 Output Parsers 是什么? Output Parsers 负责把模型输出转成结构化结果,方便后续程序消费。
14、LangChain 中 Indexes and Retrievers 是什么? Indexes 用来建索引,Retrievers 用来检索相关内容。做知识库问答时,这俩基本是核心组件。
15、LangChain 中 Chat Message History 是什么? 它负责保留对话历史,让多轮聊天不至于每一轮都像从零开始。
16、LangChain 中 Agents and Toolkits 是什么? Agents 负责决策,Toolkits 提供可用工具。一个偏'想怎么做',一个偏'能做什么'。
17、LangChain 如何调用 LLMs 生成回复? 核心就是把 prompt 发给模型,再把模型返回的结果解析出来。流程不复杂,但 prompt 的组织方式会直接影响输出质量。
18、LangChain 如何修改提示模板? 改模板文本,或者改模板里使用的变量。这个看着简单,但实际调优经常就是在这里磨时间。
19、LangChain 如何链接多个组件处理一个特定的下游任务? 把多个组件按顺序串成 chain,前一个输出作为后一个输入。链路越长,越要小心中间结果是否会被放大或污染。
20、LangChain 如何 Embedding&vector store? 先把文本转成向量,再存进向量库,检索时按相似度召回。这个套路在 RAG 里几乎是标配。
分布式训练 常见框架有 PyTorch、TensorFlow、Horovod、Ray、Accelerate 和 DeepSpeed。不同团队的选择通常不是看谁最'全',而是看谁最贴合现有训练栈。
Horovod、Ray、DeepSpeed、FairScale 都比较常见。真上到大模型训练时,DeepSpeed 和 Megatron 相关方案会更常被提到。
数据并行是复制模型分数据;张量并行是切模型里的张量;流水线并行是按层切模型。三者的核心差别就是切的对象不同,代价也不同。
4、推理优化技术 Flash Attention 的作用是什么?
Flash Attention 的重点是把注意力计算做得更省显存、更高效,尤其适合长序列场景。它不是换算法逻辑,而是把实现方式做得更接近硬件友好。
5、推理优化技术 Paged Attention 的作用是什么?
Paged Attention 主要解决 KV cache 的内存管理问题。长上下文推理里,内存碎片和占用往往比想象中更麻烦,这类方法就是拿来处理这些工程细节的。
6、CPU-offload,ZeRO-offload 了解?
CPU-offload 是把一部分计算或状态挪到 CPU;ZeRO-offload 则是 DeepSpeed 体系里的进一步优化,把参数、梯度和优化器状态做更细粒度的卸载和分散存储。
Stage 1 分优化器状态,Stage 2 再分梯度,Stage 3 连参数本身也分。阶段越往后,省显存越多,系统复杂度也越高。
优点是快、省显存。问题是数值稳定性会更敏感,尤其在梯度范围很大或很小的时候,需要更小心地处理 loss scaling 之类的问题。
它把 Megatron-LM 的模型并行和 DeepSpeed 的训练优化结合起来,用于更大规模的模型训练。说白了,就是把'模型怎么切'和'训练怎么省'一起解决。
Megatron-LM 是 NVIDIA 做的大模型并行训练方案,重点在张量并行和流水线并行。它的价值不在抽象概念,而在能把超大模型真正训起来。
DeepSpeed 是面向大规模训练的优化库,提供数据并行、模型并行、流水线并行和 ZeRO 等能力。它更像一个训练加速工具箱。
推理优化 主要是模型参数、KV cache、激活缓存和框架本身的分配策略在占空间。很多时候显存'看起来不释放',不一定是真泄漏,也可能是缓存机制保留了内存。
2、大模型在 GPU 和 CPU 上推理速度如何?
通常 GPU 明显更快,原因就是并行能力强。CPU 也能跑,但适合小模型、低并发或者资源受限的场景。
3、推理速度上,int8 和 fp16 比起来怎么样?
INT8 更省内存,理论上吞吐会更高,但是否真快还得看硬件和实现。FP16 通常更稳,精度损失更小。实际选型时,别只看精度位数,硬件支持和算子实现更关键。
有,但它的'推理'更多是模式归纳、上下文关联和中间步骤生成,不等于人类意义上的严格逻辑证明。这个区别最好在面试里说清楚。
常见的有 temperature、top-k、top-p、max length。参数没有固定最优值,得按任务调。想要稳定就把采样压低一点,想要创意就放开一点。
6、有哪些省内存的大语言模型训练/微调/推理方法?
模型并行、张量切片、混合精度、优化器状态分割、梯度累积都常见。和前面重复的问题不必死背答案,关键是把'减少什么占用'讲明白。
靠模型本身不够,通常要加内容过滤、提示约束、后处理和必要的对齐训练。应用层再补上资源管理、动态部署和缓存,整体才会更稳。
相关免费在线工具 RSA密钥对生成器 生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
Mermaid 预览与可视化编辑 基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
随机西班牙地址生成器 随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online
curl 转代码 解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
Base64 字符串编码/解码 将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
Base64 文件转换器 将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online