025、分布式计算实战：Spark Core与Spark SQL

优质文章学习记录

11 Apr 2026 — 1 min read

从一次深夜调试说起

上周三凌晨两点，集群告警突然响了。一个跑了六小时的Spark作业卡在99%，最后一个stage的200个task里总有那么三五个一直在挣扎。日志里满是FetchFailedException和ExecutorLost的报错，数据倾斜那熟悉的味道隔着屏幕都能闻到。这种场景你肯定也遇到过——数据分布不均匀，少数几个key扛了几千万条记录，几个倒霉的executor内存直接撑爆。今天我们就聊聊怎么用Spark Core和Spark SQL解决这类实战问题。

Spark Core：理解你的并行引擎

先看段真实的生产代码，这是出问题的那个stage的简化版：

val rawRDD = sc.textFile("hdfs://data/logs/*.gz").map(line => parseLog(line))// 解析日志，返回(key, value).filter(_ !=null)// 过滤脏数据// 问题就出在这个groupByKey上val groupedRDD = rawRDD.groupByKey()// 这里踩过坑：groupByKey默认不进行map端合并.mapValues(values => processBatch(values)) groupedRDD.saveAsTextFile("hdfs://output/result")

看起来挺干净是吧？问题在于groupByKey()会把某个key对应的所有values都拉到同一个节点上做聚合。如果某个key特别热，比如user_id=0（默认用户）或者city=unknown，那个节点就惨了。

改进方案一：用reduceByKey替代

// 先做map端局部聚合，大幅减少shuffle

Read more

Vue通过Ajax获取后台路由信息

Vue后台获取路由信息模拟后台返回路由JSON数据 menudata.js export const menuRouterMap =[{name:'menu', path: '/home/menu',compPath:'components/Menu'}] 常量路由文件数据 constant.js importHelloWorld from '@/components/HelloWorld' export const constantRouterMap =[{ path: '/HelloWorld', name: 'HelloWorld',}] /router/index.js importVue from 'vue'importRouter

Vue.js 与 Ajax（vue-resource）的深入探索

Vue.js 与 Ajax（vue-resource）的深入探索引言随着互联网技术的不断发展，前端开发技术也在日新月异。在众多前端框架中，Vue.js凭借其简洁的语法、易学易用等特点，逐渐成为前端开发者的热门选择。而在数据交互方面，Ajax技术则发挥着至关重要的作用。本文将深入探讨Vue.js与Ajax（vue-resource）的结合，帮助开发者更好地掌握这两种技术的应用。 Vue.js 简介 Vue.js是一个渐进式JavaScript框架，它易于上手，同时也非常灵活。Vue.js的核心库只关注视图层，便于与其它库或已有项目整合。Vue.js的核心理念是数据驱动和组件化，这使得开发者可以轻松地构建出高度可复用的UI组件。 Ajax 简介 Ajax（Asynchronous JavaScript and XML）是一种在不重新加载整个页面的情况下，与服务器交换数据和更新部分网页的技术。Ajax通过异步请求与服务器交换数据，从而实现了页面的局部更新。在Vue.js项目中，Ajax技术常用于请求数据、提交表单等操作。 vue-resource

Kafka双机KRaft集群部署

Kafka 双机 KRaft 集群部署文档 1. 方案说明本文档介绍如何部署 Kafka 双节点 KRaft 集群，实现 Kafka 高可用运行。 Kafka 3.x 版本开始推荐使用 KRaft 模式，无需依赖 Zookeeper。本方案特点： * 双节点 Kafka 集群 * 数据副本同步 * Broker 宕机自动 Leader 迁移 * 支持 Producer / Consumer 高可用访问 2. 集群架构 Producer | v +-------------+ | Kafka集群 | | | | 170 180 | +------+------+ | Consumer Group 服务器规划：服务器IP角色Kafka-1192.168.

流批一体架构下的时序数据库选型：Apache IoTDB实时计算能力深度解析与国际化对比

流批一体架构下的时序数据库选型：Apache IoTDB实时计算能力深度解析与国际化对比

👨‍🎓博主简介 🏅ZEEKLOG博客专家 🏅云计算领域优质创作者 🏅华为云开发者社区专家博主 🏅阿里云开发者社区专家博主 💊交流社区：运维交流社区欢迎大家的加入！ 🐋 希望大家多多支持，我们一起进步！😄 🎉如果文章对你有帮助的话，欢迎点赞 👍🏻 评论 💬 收藏 ⭐️ 加关注+💗 文章目录 * 一、工业大数据的架构演进：从Lambda到Kappa再到流批一体 * 1.1 传统架构的困境：割裂的实时与离线 * 1.2 流批一体：工业大数据的新范式 * 二、Apache IoTDB的流批一体架构设计 * 2.1 TsFile：面向流批优化的列式存储格式 * 2.2 分层存储：热温冷数据的智能调度 * 2.3 统一查询引擎：SQL方言的流批语义融合 * 三、国际主流产品流批能力对比分析 * 3.1 写入性能：流处理的基石 * 3.