
火山引擎发布两款视频大模型及多项 AI 升级
火山引擎在 AI 创新巡展上发布了 PixelDance 和 Seaweed 两款视频生成大模型,并宣布豆包通用模型、音乐模型等多款模型全面升级。新模型基于 DiT 架构,支持复杂运镜、主体一致性保持及多风格生成,大幅降低视频创作门槛。同时,豆包大模型并发流量提升至 800K TPM,算力成本降至行业低位,并计划开放更多视频生成 API。火山引擎正构建涵盖视…
博客作者
追光者
332
已发布文章
10K
博客获赞
604K
博客浏览
第 16 页

火山引擎在 AI 创新巡展上发布了 PixelDance 和 Seaweed 两款视频生成大模型,并宣布豆包通用模型、音乐模型等多款模型全面升级。新模型基于 DiT 架构,支持复杂运镜、主体一致性保持及多风格生成,大幅降低视频创作门槛。同时,豆包大模型并发流量提升至 800K TPM,算力成本降至行业低位,并计划开放更多视频生成 API。火山引擎正构建涵盖视…

MiniRAG 是一种专为 1.5B 参数小型语言模型设计的检索增强生成框架,旨在解决传统 RAG 架构在资源受限场景下对大型模型依赖过高的问题。文章详细阐述了 MiniRAG 的核心架构,包括异构图索引和轻量级图知识检索。通过构建包含文本块节点和实体节点的语义网络,并利用实体 - 实体及实体 - 块连接增强上下文关联,MiniRAG 有效弥补了小模型在语义…

如何在本地通过 Ollama 部署 DeepSeek 模型,并使用 Chatbox 客户端实现图形化界面交互。内容涵盖 Ollama 环境变量配置(OLLAMA_HOST、OLLAMA_ORIGINS)、Chatbox 下载与连接设置、模型拉取命令、服务启动及测试流程。重点解决了命令行操作的便捷性问题,提供了常见连接错误的排查方法,旨在为开发者提供一套完整的…

PyCharm 集成开发环境在 macOS 操作系统上的安装流程及基础配置方法。内容涵盖社区版与专业版的区别、Python 解释器管理、虚拟环境创建、常用插件推荐以及调试与版本控制功能的使用。通过本指南,开发者可以快速搭建高效的 Python 开发工作流,提升编码效率。

详细讲解了 Python 解析 HTML 的三种主要方法:正则表达式、Beautiful Soup 和 lxml,并对比了各自的优缺点与适用场景。内容涵盖基础语法、编码处理、元素遍历、嵌套导航、动态页面解析及表格数据处理等核心技巧。同时补充了结合 requests 库进行完整爬取的实战案例,以及关于遵守 robots 协议、设置请求头、控制访问频率和法律合规…

大语言模型(LLM)虽在生成式 AI 领域表现突出,但在推理、计划、持久记忆及理解物理世界方面存在显著局限。文章批判了神经扩展定律的盲目信奉,指出 LLM 更多是基于记忆而非泛化,缺乏真正的世界模型和常识。通过多个实例展示了 LLM 在基础数学、物理法则理解、规划任务及 ARC-AGI 挑战上的失败,揭示了其本质是统计模式匹配而非智能。同时批评了行业内的炒作…

Stable Diffusion 是一款开源的文本生成图像模型。介绍基于秋叶整合包的本地部署方法,涵盖环境配置、启动流程及核心概念(如大模型、VAE、LoRA、ControlNet)。通过图形化界面降低使用门槛,适合零基础用户快速上手 AI 绘画,实现离线创作。文章详细说明了硬件要求、安装步骤、提示词编写技巧以及常见显存问题的解决方案,帮助用户高效利用本地资…

系统介绍了大模型入门的技术路径,涵盖 LLM 训练实战、参数高效微调技术(如 LoRA、QLoRA)、分布式并行训练策略以及应用开发路线。内容包含主流模型案例分析、PEFT 框架使用方法、Megatron 与 DeepSpeed 等分布式框架对比,以及从提示词工程到行业落地的完整学习规划。旨在帮助开发者建立完整的大模型技术知识体系,掌握从训练到部署的核心技能…

Python 数据分析库 Pandas 提供了强大的数据处理功能,涵盖 Series 和 DataFrame 的核心操作。详细讲解了排序、分组、透视表、多索引(MultiIndex)等关键特性,对比了 NumPy 与 Pandas 的性能差异及缺失值处理机制。内容包括数据读写、索引对齐、算术运算、合并连接以及可视化展示技巧,旨在帮助开发者高效掌握 Panda…

斯坦福大学李飞飞团队提出名为'动作的语言'的多模态语言模型,旨在统一 3D 人体动作的言语与非言语表达。该模型支持音频与文本输入生成自然动作,并具备动作编辑能力。通过组合动作对齐与音频文本对齐的预训练策略,模型在缺乏配对数据时仍表现优异。实验表明其在伴语手势生成、可编辑动作生成及情绪预测任务上优于现有 SOTA 方法,为空间智能研究提供了新路径。

探讨了 RxJava3 在 Android 开发中的核心应用场景,涵盖网络请求的串行与并行处理、定时轮询机制、UI 交互效果实现及内存泄漏防护。通过详解 flatMap、zip、repeatWhen 等操作符的实际用法,结合 RxBinding 优化点击与输入事件,提供了完整的代码示例与最佳实践建议,旨在帮助开发者构建高效、稳定的响应式架构。

使用 Python 进行数据分析的完整流程,涵盖数据生成、导入、检查、清洗、预处理、提取、筛选、汇总、统计分析及输出。通过与 Excel 功能对比,展示了 Pandas 库在处理大规模数据时的优势。内容包含数据表创建、空值处理、格式转换、合并排序、条件筛选、分组聚合、描述统计及结果导出等核心操作,并提供具体代码示例,帮助读者掌握从数据准备到最终输出的关键技能…

详细阐述了计算机科学与技术专业的核心技能学习路径与就业方向。内容涵盖编程语言深度掌握、操作系统与内核原理、计算机网络协议、数据库系统优化以及算法数据结构的重要性。文章分析了互联网应用开发与底层硬件开发两条主要职业路径,并重点介绍了 Python 在办公自动化、数据分析及人工智能领域的应用。此外,还提供了具体的求职准备策略、面试技巧及常见学习误区建议,旨在帮助…

利用 Python 进行实际项目开发的两个方向。首先通过调用第三方库实现基于古典文学的姓名生成工具,其次演示了使用 ADB 和 Airtest 框架进行移动端应用的自动化操作,包括启动应用、跳过广告、遍历列表及模拟交互等步骤。内容涵盖环境配置、核心代码逻辑及注意事项,适合希望提升 Python 工程化能力的开发者参考。

Python 作为当前最流行的编程语言之一,在数据科学、Web 开发及自动化领域占据重要地位。基于行业数据分析了学习 Python 的八大理由:语法简洁易学、薪资竞争力强、市场需求持续增长、数据科学生态完善、开发效率高、资源丰富、跨平台兼容性好以及被科技巨头广泛采用。内容涵盖语言特性、应用场景及职业发展建议,适合初学者及进阶开发者参考。

详细解析了 Python 语言中几个容易被忽视的底层机制。首先探讨了字符串驻留(String Interning)的优化原理及触发条件,解释了为何部分字符串共享内存地址。其次区分了 is 与 == 运算符的本质差异,阐述了小整数池(-5 至 256)的缓存机制。接着分析了 is not 运算符的优先级问题以及函数参数列表中尾随逗号的语法规则。最后对比了 Py…

探讨了企业落地大模型的三种核心路径:提示词工程、检索增强生成(RAG)与微调。文章首先分析了大模型的不确定性与静态性挑战,随后详细对比了三种方法的原理、优缺点及适用场景。实施建议遵循从轻量到重量的顺序:优先尝试提示词优化,其次引入 RAG 补充知识,最后才考虑微调以固化行为。文章强调混合架构的最佳实践,并提出了数据安全与评估体系的建设建议,旨在帮助企业在成本…

精选了 9 本网络安全领域的经典书籍,涵盖软件设计、Web 安全、渗透测试、物联网安全及 Python 编程等方向。文章详细解析了每本书的核心价值与技术要点,包括 Sed/AWK 工具的使用、浏览器安全原理、渗透测试方法论、IoT 设备漏洞挖掘以及各类 Python 安全编程实战。同时,文章强调了合法合规的重要性,并给出了构建安全知识图谱、参与 CTF 比赛…

详细阐述了网络安全入门所需掌握的核心技能体系。内容涵盖黑客术语定义、TCP/IP 与 HTTP 网络协议原理、Python 及 Web 前端编程基础、BurpSuite 与 Metasploit 等安全工具的使用、SQL 注入与 XSS 等常见漏洞的原理分析,以及 Linux 与 Windows 操作系统的基本操作。文章强调技术学习应建立在合法合规的基础上,…

LLM Agent 在互联网冲浪场景中涉及多种 WebAgent 数据集与评估方案。主要涵盖 MiniWoB++、MIND2WEB、WEBARENA、WebVoyager、WebLINX 及 AutoWebGLM。MiniWoB++ 为模拟环境,指令低级;MIND2WEB 使用真实网页静态数据,支持高级任务;WEBARENA 构建动态仿真环境;WebVoya…