
Python 爬虫副业方向与接单平台指南
探讨 Python 爬虫作为副业的可行性,分析其竞争小、有门槛、可复用的特点。介绍了爬虫、Excel 自动化及 Web 开发三大方向,列举了程序员客栈、码市、开源众包、猪八戒及 Upwork、Freelancer 等国内外接单平台。同时补充了基础技术栈建议、合规注意事项及入门路径,为希望利用技术变现的开发者提供参考。
博客作者
底层技术爱好者
341
已发布文章
10K
博客获赞
710K
博客浏览
第 16 页

探讨 Python 爬虫作为副业的可行性,分析其竞争小、有门槛、可复用的特点。介绍了爬虫、Excel 自动化及 Web 开发三大方向,列举了程序员客栈、码市、开源众包、猪八戒及 Upwork、Freelancer 等国内外接单平台。同时补充了基础技术栈建议、合规注意事项及入门路径,为希望利用技术变现的开发者提供参考。

Coze 是字节推出的一站式 AI Bot 开发平台,支持快速搭建基于大模型的问答机器人。 AI Agent 的核心构成(LLM、规划、记忆、工具),对比 Copilot 与 Agent 的差异。重点介绍 Coze 的提示词、插件系统、工作流及知识库(RAG)功能。通过构建产品问答机器人的实操案例,演示如何收集知识、创建数据库、设计工作流节点及调试发布,帮助…

Azure AI Search 最新推出的查询重写(QR)和语义重排器(SR)功能,详细解析了这两个功能如何通过小型语言模型生成查询变体以及利用交叉编码器模型优化结果排序。文章深入阐述了查询重写、召回率及交叉编码器的核心概念,对比了向量查询与交叉编码器在编码方式、效率及应用场景上的差异,并提出了混合搜索配置与渐进式部署的实施建议。这些更新显著提升了 RAG…

Android 平台下电话功能的开发实现,涵盖拨打电话、监听通话状态、拦截呼出电话及自动挂断来电四大场景。内容包含 Intent 跳转机制、TelephonyManager 监听器使用、BroadcastReceiver 拦截逻辑以及 TelecomManager 挂断接口。同时强调了不同 Android 版本对权限的要求,特别是 Android 6.0+…

OpenCV 通用内部函数(Universal Intrinsics)的使用方法,旨在通过 SIMD 技术提升 C++ 代码运行速度。内容涵盖理论概念、寄存器结构、加载存储操作、算术与逻辑运算、归约与掩码操作,并通过一维及二维卷积的标量与矢量实现对比演示了性能优化效果。文章详细展示了如何定义可变与恒定大小寄存器、执行元素级运算以及处理边界情况,同时提供了关于…

RAG 技术通过检索外部知识库增强大模型生成能力。核心流程包括文本分块、向量化存储、语义检索及上下文生成。广泛应用于客服、医疗咨询及智能写作场景。该技术有效缓解大模型幻觉问题,提升回答准确性与时效性,但面临检索精度与延迟挑战。技术实现涉及向量数据库选型、嵌入模型选择及 Prompt 工程优化。

华人团队研发的 DeWave 系统利用大模型实现了非侵入式脑电波到文本的转换。该系统基于 NeurIPS 收录的研究,采用离散码本概念将连续脑电信号转化为离散 token,结合 Transformer 编码器和 BART 模型进行训练。在 ZuCo 数据集测试中,DeWave 在有切分情况下 BLEU-N 成绩提升 3-18%,无切分情况下表现提升最高达 1…

基于对《Attention Is All You Need》共同作者 Jakob Uszkoreit 的访谈,探讨了 Transformer 架构的诞生背景、谷歌在早期大模型研发中的策略选择以及 ChatGPT 成功背后的技术与市场因素。Uszkoreit 指出,虽然团队对注意力机制抱有高期望,但并未预料到其会迅速成为生成式 AI 的核心驱动力。文章还分析了…

BERT 进阶技术涵盖微调策略、OOV 处理、领域适应及知识蒸馏。文章介绍了 RoBERTa、ALBERT 等变体,探讨其在文本摘要、翻译及对话任务中的应用。针对长文本截断、计算资源消耗等挑战提供缓解方案。最后通过 Hugging Face Transformers 库演示了安装、加载、编码、预测及微调的完整流程,并展望了多语言理解与跨模态学习的未来方向。

系统梳理了主流大模型的评估指标与框架,深入分析了 MMLU、GSM-8K、MATH、GPQA 等核心基准测试的细节。文章指出了当前评估中存在的配置不统一(如 shot 数、CoT 使用)、Base 与 Instruction 模型混淆、数据污染以及评估工具差异等问题。通过对 LLaMA-3、GPT-4、Qwen、Yi 等知名模型的指标对比分析,揭示了部分厂商…

提示词工程是通过优化输入指令提升大语言模型输出质量的关键技术。涵盖 LLM 超参配置原理,详细解析 System Message、User Prompt 等核心组件,介绍少样本学习、思维链(CoT)、分隔符使用等进阶技巧,并结合 Agent 创建与 Function Call 场景提供最佳实践。最后总结优质提示词设计原则,并辅以 Python 调用示例,帮助…

利用 Python、Ollama、ChromaDB 和 Streamlit 构建本地检索增强生成(RAG)系统的完整流程。通过 OCR 处理 PDF 文档,结合多模态数据处理技术,在无需 GPU 的笔记本电脑上实现私有知识库问答。内容涵盖环境搭建、数据预处理、向量数据库存储、后端逻辑及前端交互界面开发,强调数据隐私安全与本地化部署优势。

介绍使用 Swift 和 SwiftUI 构建 iOS 客户端连接本地 Ollama 服务的方案。内容包括数据模型定义、流式 API 调用实现、会话管理及界面设计。通过开源项目演示如何在移动端安全访问私有化部署的大语言模型,满足敏感数据处理需求。

AI 知识库基于 RAG 流程,利用 FastAPI 异步框架结合 OpenAI 等大模型实现。涵盖文档分块、LLM 引擎调用(流式/阻塞)、向量生成及检索应答。通过 DocumentChunk 处理 docx 文件,LLMEngine 管理模型交互,DocumentVector 构建 QA 对并生成嵌入向量。检索阶段计算问题与答案向量距离,匹配最相似片段后…

介绍 Python img2pdf 库的使用,支持 JPG/PNG/GIF/BMP 等格式转换为 PDF。涵盖安装、基础转换、页面尺寸调整、元数据设置及错误处理。无需额外软件即可实现批量自动化处理,适用于文档归档、打印分享等场景。

Python 列表的核心操作方法,包括元素的添加(append、insert)、删除(remove、pop、del、clear)、查找(index、count)以及排序(sort、reverse)。重点讲解了列表生成式的语法优势及三种典型应用场景,对比了其与常规循环的性能差异。此外,文章深入探讨了嵌套列表的构建方式、访问技巧及浅拷贝陷阱,并通过双色球随机选号…

Python 集合(Set)是一种无序且元素唯一的容器类型,底层基于哈希存储。集合的创建方式、遍历方法、丰富的运算操作(交集、并集、差集等)以及常用方法。同时讲解了不可变集合 frozenset 的特性与应用场景,强调了集合在去重和成员判断性能上的优势,适合需要高效处理数据唯一性和关系运算的场景。

详细梳理了大模型(LLM)的学习路径,涵盖基础理论、科学家角色和工程师角色三大板块。内容从机器学习数学基础、Python 编程、神经网络和 NLP 入手,深入讲解了 Transformer 架构、指令数据集构建、预训练、监督微调、偏好对齐及评估方法。同时探讨了量化技术、新趋势如 MoE 和多模态模型。在工程实践方面,重点介绍了模型运行、向量存储构建、RAG…

详细讲解了 Stable Diffusion 文生图中生成高分辨率图片的方法。主要介绍了普通模型与 SDXL 模型的分辨率限制,解释了直接修改宽高导致畸变的原因。重点阐述了 Hires. fix 功能的原理与操作流程,包括 Upscaler 放大算法的选择(如 ESRGAN、Latent 等)、Denoising strength 重绘幅度的影响、以及 Hi…

检索增强生成(RAG)通过结合知识库检索与大模型回答,有效提升了信息准确性并降低微调成本。深入剖析了 RAG 落地过程中面临的十大挑战,涵盖数据准备、检索优化、生成质量、意图识别及多模态支持等关键环节。针对文本切分不当、向量检索局限、Prompt 设计复杂、一致性维护、领域知识理解、问答对供给、拒答平衡、多模态处理及评估体系等问题,提供了相应的技术分析与解决…