
非科班转行数据分析:Python 自学路径与实战经验
分享了一名非科班毕业生从制造业转行至 IT 数据分析领域的亲身经历。文章详细阐述了转行动机、自学准备阶段的学习资料与方法、面试技巧及入职后的适应情况。内容涵盖 Python 基础、Pandas 数据处理、SQL 查询及 Linux 命令等关键技术点的梳理,并提供了具体的学习路线图。作者强调了系统学习、寻找导师及保持终身学习的重要性,为想要转行的技术人员提供了…
博客作者
生而为人
344
已发布文章
8.8K
博客获赞
329K
博客浏览
第 16 页

分享了一名非科班毕业生从制造业转行至 IT 数据分析领域的亲身经历。文章详细阐述了转行动机、自学准备阶段的学习资料与方法、面试技巧及入职后的适应情况。内容涵盖 Python 基础、Pandas 数据处理、SQL 查询及 Linux 命令等关键技术点的梳理,并提供了具体的学习路线图。作者强调了系统学习、寻找导师及保持终身学习的重要性,为想要转行的技术人员提供了…

Python 内置数据结构主要包括列表、元组、字典和集合。列表有序可变,支持索引和动态增删;元组有序不可变,适合存储固定配置;字典键值对存储,查找高效;集合无序不重复,常用于去重和数学运算。选择合适的数据结构能提升代码性能与可维护性。各结构的创建、常用操作、代码示例及对比选型建议。

50 道 Python 面试题,涵盖单例模式、变量交换、列表去重、CPython 内存机制、迭代器与生成器、正则匹配、闭包陷阱、函数重载、标准库模块、魔术方法、装饰器、鸭子类型、作用域、多线程与多进程、版本差异、猴子补丁、MRO 继承、逆波兰表达式、性能剖析、随机数、线程池、异常处理、文件读取、模块与包、编码规范、命名元组、递归深度及重复元素查找等核心知识点…

基于 Python openpyxl 库实现 Excel 数据自动汇总与填充。通过遍历表格行,根据漏洞名称及误报/整改证明状态筛选 IP 地址,将结果写入指定单元格。解决了手动核对大量安全漏洞数据的低效问题,提升了办公自动化水平。

Playwright 基础教程涵盖元素拖拽操作、元素坐标获取、网页源码抓取及元素文本提取等核心功能。通过演示 drag_and_drop 方法实现跨元素交互,利用 bounding_box 计算元素位置中心点。对比 selenium 说明 page.content() 获取源码方式,并详细解析 locator 提供的多种文本提取方法如 inner_text、…

PyCharm 是一款功能强大的 Python 集成开发环境,提供调试、语法高亮、项目管理等工具。 PyCharm 的安装步骤、版本选择、环境配置方法,以及虚拟环境管理、调试功能、版本控制和常用快捷键的使用技巧,旨在帮助开发者快速上手并提升编码效率。

推荐系统的定义、核心特性及应用领域,重点解析了基于内容与协同过滤等传统算法,以及 Wide&Deep、DeepFM 等深度学习模型。文章阐述了工业级推荐系统的多阶段架构,涵盖召回、排序与重排环节,并探讨了大语言模型在语义理解、生成式推荐及 RAG 应用中的最新进展与挑战,旨在全面梳理推荐系统的关键技术与架构设计思路。

AI 产品经理需具备基础技术理解力以跨越技术鸿沟,核心在于识别需求与定义功能。文章涵盖基础算法(搜索、排序、图论)及机器学习方法(监督、非监督、强化学习)。重点解析自然语言处理、计算机视觉及预测分析在智能客服、视频平台及智能制造中的落地应用。阐明算法与模型的区别,提供系统性学习路径包括在线课程、书籍阅读及项目实践。结合短视频推荐系统与工业预测性维护案例,阐述…

2024 年 AI 大模型面试涵盖基础知识、训练流程、应用场景及前沿挑战。主流模型包括 GPT、BERT、RoBERTa 等,基于 Transformer 架构。训练分为预训练和微调两个阶段,涉及大量文本数据。典型应用有文本创作、翻译、问答等。当前面临计算资源消耗大、数据偏见、可解释性差等挑战。常见面试题,补充了 Transformer 原理、微调技术如 L…

探讨了企业级 RAG 应用的五大技术发展趋势。首先,模块化工作流通过可编排的算子解决复杂查询与自我反思需求;其次,多模态协同扩展了数据处理范围至图像视频等;第三,多索引融合结合知识图谱提升推理与可解释性;第四,Agentic RAG 引入智能体规划能力处理复杂任务;最后,个性化体验通过长期记忆优化用户交互。这些趋势共同推动 RAG 从原型走向成熟生产环境。

大模型在技术变革、产业化落地及数智化研究三方面展现深远影响。技术上,大模型突破传统机器学习限制,实现多模态处理与复杂问题解决,推动人机交互与营销客服革新。产业上,通用场景广泛验证,专业模型加速行业融合,通过 MaaS 服务与创新商业模式赋能制造业、金融及医疗等领域,同时需解决幻觉与知识实时维护问题。研究上,大数据与大模型结合推进宏观研究数字化转型,AI 经济…

文本嵌入模型在搜索和检索增强生成(RAG)中至关重要。基于 Arctic Embed 项目,详细阐述了从零训练嵌入模型的全流程。核心策略包括两轮训练法:大规模预训练结合批内负样本,以及微调阶段引入困难负样本挖掘。文章深入分析了数据过滤、合成数据生成、池化层选择([CLS] vs 平均池化)及序列长度对性能的影响。实验表明,数据采样质量与困难负样本策略比单纯扩…

ChatGLM3 大模型的本地化部署、应用开发与微调技术。涵盖 PyTorch 环境搭建、Gradio 界面开发、LangChain 知识库构建、Prompt 工程优化、QLoRA 低资源微调方法及财务场景实战案例。旨在帮助开发者掌握从理论到实践的全流程技能,实现大模型在企业级场景的安全可控落地。

LoRA 微调技术允许在不改变大语言模型主体结构的情况下,通过训练少量低秩参数来适配特定任务。 LoRA 的原理、环境搭建、数据集准备(Alpaca 格式)、训练参数调优(Rank、Alpha、Learning Rate 等)、模型验证及合并方法。文章涵盖了从理论到实践的全流程,包括显存优化策略、常见错误排查及代码示例,旨在帮助开发者以较低成本实现垂直领域的…

Python 编程语言的基础知识,涵盖安装配置、开发工具选择、基本语法、数据类型、控制流、函数定义、面向对象编程、异常处理及文件操作等内容。文章提供了实用的代码示例,帮助初学者快速搭建开发环境并掌握核心概念,同时给出了后续学习方向建议,包括虚拟环境管理、常用第三方库及 Web 框架等进阶内容,旨在为 Python 学习者提供一份完整的入门指南。

Stable Diffusion WebUI 的使用方法,涵盖硬件配置要求、环境部署方案、性能优化技巧(CUDNN、PyTorch、Xformers)、界面参数设置、提示词工程(Prompt、Embedding、LoRA)以及进阶功能(Hires.fix、局部重绘、ControlNet)。文章还补充了常见问题排查与优化建议,旨在帮助用户快速上手并高效利用 A…

详细讲解了使用 Python 实现棋盘游戏暴力求解算法的过程。通过构建状态树和回溯机制,程序能够枚举所有可能的走法并找到完成游戏的解法。内容涵盖基本操作定义、主函数逻辑、代码实现细节以及算法复杂度分析,帮助读者理解回溯算法在组合搜索问题中的应用。

深入解析了大型语言模型(LLM)中 Token 的核心概念、映射机制及分词技术。内容涵盖 Token 的定义与长度估算、数值表示与嵌入、对模型上下文窗口及训练数据的影响,以及字节对编码(BPE)等主流分词方法。同时探讨了 Token 在应用中的状态监控、长度限制应对策略(如截断、重组、滑动窗口),并分析了大小写敏感、数字分块不一致等设计局限性。文章最后展望了…

总结了作者在国内 20 家大厂大模型岗位的面试经历,涵盖淘天、字节、蚂蚁、商汤、美团、腾讯等公司。内容包含各公司面试流程、技术考察点(如 OCR、多模态、Transformer 原理、Python 编码实现)及 Offer 结果。文章还整理了面试中的常见问题类型、避坑指南及备考建议,重点强调了基础理论、工程落地能力及 HR 沟通技巧的重要性,旨在为求职者提供…

30 个 Python 常用操作技巧,涵盖列表推导、枚举、多值返回、链式比较、字符串处理、字典合并、集合运算及标准库使用等内容。每个技巧均提供代码示例、适用场景及注意事项,旨在帮助开发者提高代码效率和可读性。内容经过清洗,移除了无关推广信息,专注于技术细节的讲解与修正。