AIGC(生成式AI)试用 47 -- AI与软件开发过程2

一切从 AIGC(生成式AI)试用 46 -- AI与软件开发过程1 开始,修正偏差。

个人理解:
- 从框架到细节,还是从细节到框架? -- 先有框架再有细节的好,LLM能适应框架下的细节补充
- 更细节的Agent,更有针对性的Agent,解决更细节问题的Agent -- LLM提供了另一种形式的开发工具
- 想要,架构,细节,实现。。。。。。往复迭代,更多的接口,更多小而美的功能软件
- 回复有错吗?当然,错误和偏差大量存在。
  如何纠偏、调优?这些专业知识 和 经验,还需要创造

  • 先解决3问题
  1. 确认软件开发过程各阶段所需完成的任务活动,以选择不同LLM
    问题定义与可行性研究 → 需求分析 → 软件设计 → 编码与实现 → 测试 → 部署与交付 → 运行与维护 → 退役
     (文字分析/逻辑判定/文档/会议)    |  (代码生成/调试/评审/测试/报告)|    (专业技术库/业务知识库)                             |
  2. 规避前期问题
    - 需求未明确前,避免代码生成,包括样例
    - 强化交互过程中LLM对所提问题的质疑+反馈+测试验证
    - 规范软件开发过程阶段活动执行,细化需求
    - 迭代实现,回溯对比验证

确认各LLM的特点,以选择更有效的LLM完成任务。是否合适,边用边看边调整 -- 只用不花钱的官网(GPT, Gemini)
- 豆包:日常协调
- 文心一言:资料查询
- DeepSeek:代码实现
- 通义千问:文档处理

提问: 豆包,文心一言,deepseek,千问 各自的特点是什么,更适合做的任务是什么,以表格形式输出
豆包
模型名称研发主体核心特点最适合任务主要局限
豆包字节跳动响应极快、中文自然、多模态强(图文 / 语音 / 视频)、与抖音 / 剪映 / 飞书生态打通、免费额度充足日常问答、生活服务、短视频脚本、新媒体文案、会议纪要、快速办公、语音交互超复杂推理、深度科研能力一般
文心一言百度中文语义 / 文化理解强、与百度搜索深度融合、知识问答稳定、公文 / 法律 / 古文生成优秀知识查询、资料整理、公文写作、法律 / 医疗咨询、学术文献梳理、热点解读创意表达、多模态体验偏弱
DeepSeek深度求索代码 / 数学 / 逻辑推理顶尖、长上下文高效、开源透明、性价比极高、支持本地部署代码生成 / 调试、算法设计、数学证明、科研推理、长文档分析、开发者工具多模态弱、交互体验偏简洁、闲聊能力一般
通义千问阿里云中文写作 / 翻译顶尖、长文本稳定、企业级服务成熟、与夸克搜索 / 阿里生态协同专业文案、报告撰写、多语言翻译、企业办公、长文档处理、API 集成开发个人端功能较保守、复杂任务响应偏慢
文心一言
模型名称核心特点适合任务
豆包多模态交互(文本/图像/视频/音频)、深度思考模式、AI编程辅助、Seedream 4.0图像生成、视频动态化、语音转写摘要、免费无限云盘、万字报告生成智能对话、编程辅助、图像/视频创作、会议记录、音乐生成、云盘存储、研究报告撰写、社交媒体文案、短视频脚本、跨格式文件分析
文心一言知识增强/检索增强/对话增强、多版本模型(3.5/4.0/工具版/Turbo)、文本生成、文学创作、商业文案、图表制作、多语言翻译、文档分析、社区功能问答系统、文本生成、文学创作、商业文案、图表制作、多语言翻译、文档分析、网页分析、智慧绘画、会议纪要、学术研究辅助
DeepSeek混合专家架构(MoE)、动态注意力机制、长文本处理(万字级)、低资源部署、领域自适应、多任务统一框架、安全可控机制金融风控、医疗诊断、智能制造、法律文书分析、代码生成、反欺诈系统、设备故障预测、长文档解析、专业术语生成、数据可视化、学术报告撰写
千问多模态能力、百万字长文档处理、低成本API0.2/百万Token)、生态整合(淘宝/钉钉等)、超长上下文(1000Tokens)、图像识别、文件上传、联网搜索办公文档处理、长报告分析、PPT生成、代码生成、图像识别、表格处理、生活场景应用、学术文献解析、商务邮件撰写、跨平台数据整合、个性化学习支持
DeepSeek
模型名称核心特点更适合做的任务一句话总结
豆包综合能力均衡,实用性强。由字节跳动推出,在推理整合和特定领域知识(如国际中文教育)方面表现突出。新上线的深入研究功能,能快速生成结构化的报告和方案。信息整理与方案策划:如制定旅行攻略、进行复杂购物决策分析、解读最新政策、输出研究报告。
教育辅助:在知识问答和综合任务处理上表现良好。
全能型助手,擅长把复杂信息整理得井井有条。
文心一言多模态与逻辑推理能力强。由百度开发,在图像理解、复杂逻辑推理(如数学计算)和多轮对话方面表现优异。对中文和中国文化的理解深刻,专业术语解释准确。专业性内容创作:撰写商业计划书、学术论文框架搭建、技术文档翻译。
视觉分析:识别和理解图像中的复杂信息。
逻辑推演:解决需要严谨推理的数学或逻辑问题。
多模态专家,擅长理解图像和进行深度逻辑思考。
DeepSeek技术向与开发友好。在代码生成、编程和数学计算方面表现卓越,支持多种编程语言,被广泛应用于开发者的日常工作中。编程开发:代码生成与补全、调试、跨文件上下文感知。
数据分析:SQL生成、数据洞察、自动化报表。
智能运维与自动化任务:处理日志异常检测、构建自动化工作流。
技术大牛,写代码和分析数据是它的强项。
通义千问生态整合与深度分析能力强。由阿里巴巴推出,新版本已进化为超级AI智能体,打通了阿里生态(如淘宝、支付宝、高德),能一站式完成复杂的生活与工作任务。同时,其文档分析能力兼具完整性和深度。生活服务与办公办事:一句话点外卖、订机票、查攻略、完成政务查询。
深度文档分析:处理长篇文本,进行深入分析和主题把握。
跨应用任务执行:需要调用多个工具和APP才能完成的复杂指令。
超级智能体,帮你把事情办成而不只是问答
通义千问
模型名称开发公司/机构主要特点更适合的任务场景
豆包(Doubao字节跳动集成于字节生态(如抖音、今日头条)
强调日常助手功能(日程、学习、娱乐)
界面友好,面向C端用户
日常生活助手、学生学习辅导、轻量级内容创作、信息查询、娱乐互动
文心一言百度中文理解与生成能力强
与百度搜索、文库、地图等深度整合
支持多模态(图文、文档等)
中文内容生成(公文、营销文案)、企业知识管理、搜索引擎增强、教育问答
DeepSeek深度求索(DeepSeek专注代码与数学推理
- DeepSeek'-Coder 系列在编程领域表现突出
支持长上下文(128K+
编程辅助、算法开发、技术文档生成、数学建模、科研计算、代码审查
通义千问(Qwen阿里云(通义实验室)开源生态完善(QwenQwen'-AudioQwen'-VL等)
多语言支持好
企业级部署能力强
支持超长上下文(最高百万token
企业智能客服、多语言翻译、复杂文档分析、AI Agent开发、科研与工程应用
  • 开始系统实现过程,实现自己最熟悉的IT开发过程
    - 目标:构建一套软件测试管理系统

开始提问
- DeepSeek
- 遵从软件开发过程:问题定义与可行性研究 → 需求分析 → 软件设计 → 编码与实现 → 测试 → 部署与交付 → 运行与维护 → 退役

→ 提问及回复约束
提问0请以中文输出以下内容,并遵循:
1. 在没有明确要求输出代码前请不要输出任何代码
2. 在回复问题时请列举存疑内容并进行反问、寻求答案,直至存在任何疑问全部解决
→ 问题定义与可行性研究(略)
→ 需求分析
提问1构建一套软件测试管理系统,请先给出你的理解和建议,形成完成的系统需求定义
提问2系统需求补充以下内容,重新生成系统需求定义
1. 系统需要记录、统计各角色、各阶段、各活动的工时及分布
2. 是否已有现有流程或工具? -- 当前使用excel进行缺陷管理,同时需要接入jira,并计划接入其他管理系统

    是否需要支持移动端测试管理? -- 系统需要支持移动端访问

    是否涉及自动化测试集成?-- 需要提供devlop中的自动化测试系统接口

    测试类型是否有特殊要求? -- 需要支持单元测试、功能测试、集成测试、系统测试、性能测试、安全测试、兼容性测试等多种类型的测试分类及管理

    组织规模与并发量 -- 当前仅需支持200人在线同时访问,

    部署方式 -- 目前有联想服务器可供部署(忽略服务器选项)

    是否有特定的安全合规要求? -- 需满足标准的软件开发流程,提供自定义选项,无其他特别要求

提问3

系统需求补充以下内容,重新生成系统需求定义
    自动化测试系统具体类型? -- 仅提供自动化系统接口,获取测试执行结果

    Jira集成的深度需求? -- 仅提供由jira导入测试产出物(测试需求、环境、用例、缺陷、结果)导入功能

    工时管理细化程度? -- 提供与项目相关的所有工时记录,包括计划、培训、会议,提供计划与实际的对比

    移动端访问的具体场景? -- 提供web访问页面,app会有独立项目进行开发,不在此次考虑范围

    历史数据迁移范围? -- 提供excel数据导入功能

→ 软件设计
提问1需求已定义,请按以下进行软件设计
- python开发语言(python3.12及以上),django框架
- VUE界面开发,保持界面美观
- 系统支持sqlite和mysql数据库
请提供系统架构图及业务流程图

1. 系统架构图(C4模型分层风格)

2. 核心业务流程图(测试管理全流程)

3. 集成接口时序图(Jira导入与自动化测试结果接收)

4. 数据库ER简图(核心表关系)
 

提问2请提供美化后的类似visio的架构图和流程图

1 系统架构图(更新,突出用例管理模块内部结构)

2 测试用例管理业务流程图(详细展示设计、评审、版本、执行)

提问3添加新需求:测试用例管理部分(测试用例设计、评审、版本管理、执行管理),并重新生成需求和系统设计
→ 编码与实现 → 测试 (略)
提问1按当前需求分析和设计
1. 生成完整的系统结构目录和代码包
2. 完成系统自测
3. 补充系统需求不足并输出变更内容
→ 部署与交付 → 运行与维护 → 退役 (略)

>> 问题定义与可行性研究 → 需求分析

>> 软件设计

>> 系统实现

Read more

多源融合定位入门到精通:无人机GPS/北斗标定、抗干扰与精度提升全攻略

多源融合定位入门到精通:无人机GPS/北斗标定、抗干扰与精度提升全攻略

在工业无人机的所有性能指标中,定位精度是决定任务价值的核心。巡检需要精准悬停、测绘需要厘米级定位、返航需要米级落点、安防需要稳定跟踪。然而绝大多数团队都会遇到:定点飘、航线弯、信号弱、高楼丢星、磁场干扰、返航偏差大等问题。很多人将这些问题归咎于 GPS 模块质量差,实际上,80% 的定位问题来自安装不规范、环境干扰、未做融合标定、多传感器不同步、坐标系不统一。 一、定位为什么会飘?底层原理科普 无人机定位依靠卫星信号(GPS、北斗、GLONASS),但现实环境充满干扰因素: 信号遮挡:高楼、树木、桥梁、山体遮挡卫星信号。多路径反射:信号经地面、墙面反射后产生虚假位置。电磁干扰:电机、电调、电源、数传产生磁场干扰。传感器不同步:GPS、IMU、罗盘时间戳不一致。未现场标定:出厂参数无法适应实际环境。

利用 Claw Cloud Run 免费应用部署前端网页

利用 Claw Cloud Run 免费应用部署前端网页

一、注册 1. 使用注册180天的github账户注册Claw Cloud账户,可获得每月5$的免费配额 2. 官网链接 - https://run.claw.cloud/ (ps:直接github账号登录应该就不用写了吧) 二、创建应用 开启外部访问 CPU选0.1即可,当然大点也没问题,就是费用多点 点击Create App 打开App Launchpad 三、查看Nginx信息,挂载空间部署 1. 确认update重启 挂载空间 关闭控制台点击update 最下方选择local Storage挂载空间(默认的就填上面查到的,改配置文件的就填你选择的路径) cd进入目录下通过配置文件查看Nginx默认路径(当然你也可以自己改,到时候换个地方挂载就好) 输入nginx -t查询Nginx配置文件信息 点进刚刚创建的App,拖到最下面打开控制台(旁边的文件夹是要挂载之后才有的) 四、上传文件 点击控制台旁边的文件图标,将打包后的文件上传即可

基于Qwen3-VL-WEBUI的视觉语言模型实战|快速部署与微调指南

基于Qwen3-VL-WEBUI的视觉语言模型实战|快速部署与微调指南 1. 引言:为什么选择 Qwen3-VL-WEBUI? 随着多模态大模型在图像理解、视频分析和跨模态推理等领域的广泛应用,高效、易用且可定制化的视觉语言模型(VLM)部署方案成为开发者和研究者的迫切需求。阿里云推出的 Qwen3-VL-WEBUI 镜像,正是为此而生。 该镜像内置了目前 Qwen 系列中最强大的视觉-语言模型 —— Qwen3-VL-4B-Instruct,集成了先进的视觉编码能力、长上下文处理机制以及代理式交互功能,支持从边缘设备到云端服务器的灵活部署。 本文将带你: - ✅ 快速部署 Qwen3-VL-WEBUI 镜像 - ✅ 掌握基于 ms-swift 框架的微调全流程 - ✅ 实现自定义数据集下的指令微调与推理服务发布 - ✅ 提供避坑指南与性能优化建议 无论你是 AI 工程师、科研人员还是技术爱好者,都能通过本指南实现“开箱即用 + 深度定制”的双重目标。 2. 环境准备与镜像部署 2.1 部署 Qwen3-VL-WEBUI

Qwen3-VL-WEBUI视频理解能力实测:256K上下文部署实战

Qwen3-VL-WEBUI视频理解能力实测:256K上下文部署实战 1. 背景与技术定位 随着多模态大模型在视觉-语言任务中的广泛应用,对长上下文、高精度视频理解和复杂空间推理的需求日益增长。阿里云推出的 Qwen3-VL 系列模型,作为 Qwen 多模态家族的最新一代产品,标志着从“看懂图像”向“理解动态世界”的关键跃迁。 该系列基于开源项目 Qwen3-VL-WEBUI 提供了便捷的本地化部署方案,内置 Qwen3-VL-4B-Instruct 模型版本,支持单卡(如 RTX 4090D)即可运行,并原生支持高达 256K token 的上下文长度,可扩展至 1M,适用于长时间视频分析、文档结构解析和复杂代理任务执行。 本篇文章将围绕 Qwen3-VL-WEBUI 的实际部署流程、256K 长上下文处理能力、视频理解表现及工程优化建议展开深度实测,帮助开发者快速掌握其核心能力与落地路径。 2. 核心功能与技术升级详解 2.1 视觉-语言能力全面增强 Qwen3-VL