算法

Spark-mllib特征提取算法

Ne0inhk

23 Feb 2025 — 2 min read

Spark MLlib 提供三种文本特征提取方法，分别为TF-IDF、Word2Vec以及CountVectorizer，其原理与调用代码整理如下： ## TF-IDF ### 算法介绍： 词频－逆向文件频率（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化技术。它将文本中的每个词转换为一个数字，该数字表示该词在文档集合中的重要性。 ### 调用： ```scala import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel} val df = spark.createDataFrame(Seq( (0, Array("a", "b", "c")), (1, Array("a", "b", "b", "c", "a")) )).toDF("id", "words") // fit a CountVectorizerModel from the corpus val cvModel: CountVectorizerModel = new CountVectorizer() .setInputCol("words") .setOutputCol("features") .setVocabSize(3) .setMinDF(2) .fit(df) // alternatively, define CountVectorizerModel with a-priori vocabulary val cvm = new CountVectorizerModel(Array("a", "b", "c")) .setInputCol("words") .setOutputCol("features") cvModel.transform(df).select("features").show()

Word2Vec

算法介绍：

Word2Vec是一种用于将词语映射到高维向量空间的技术。通过训练一个神经网络模型，它可以学习到词语之间的相似性。

调用：

import org.apache.spark.ml.feature.Word2Vec // Input data: Each row is a bag of words from a sentence or document. val documentDF = spark.createDataFrame(Seq( "Hi I heard about Spark".split(" "), "I wish Java could use case classes".split(" "), "Logistic regression models are neat".split(" ") ).map(Tuple1.apply)).toDF("text") // Learn a mapping from words to Vectors. val word2Vec = new Word2Vec() .setInputCol("text") .setOutputCol("result") .setVectorSize(3) .setMinCount(0) val model = word2Vec.fit(documentDF) val result = model.transform(documentDF) result.select("result").take(3).foreach(println)

Countvectorizer

算法介绍：

CountVectorizer和CountVectorizerModel旨在通过计数来将一个文档转换为向量。当不存在先验字典时，CountVectorizer可作为Estimator来提取词汇，并生成一个CountVectorizermodel。

调用：

import org.apache.spark.ml.feature.CountVectorizer val df = spark.createDataFrame(Seq( (0, Array("a", "b", "c")), (1, Array("a", "b", "b", "c", "a")) )).toDF("id", "words") // fit a CountVectorizerModel from the corpus val cvModel: CountVectorizerModel = new CountVectorizer() .setInputCol("words") .setOutputCol("features") .setVocabSize(3) .setMinDF(2) .fit(df) // alternatively, define CountVectorizerModel with a-priori vocabulary val cvm = new CountVectorizerModel(Array("a", "b", "c")) .setInputCol("words") .setOutputCol("features") cvModel.transform(df).select("features").show()

探索Vortex开源GPGPU：RISC-V SIMT架构(4-2)，TCU 矩阵计算(2)

目录前言一、TCU模块框图二、WMMA代码分析 2.1 WMMA矩阵分块 2.2 WMMA矩阵地址偏移计算 2.2.1 WMMA matrixA 2.2.2 WMMA matrixB 2.2.3 WMMA matrixC 2.2.4 tcu_int WMMA源代码总结前言本篇分析Vortex矩阵计算的核心模块TCU WMMA。前文：探索Vortex开源GPGPU：RISC-V SIMT架构(4-2)，TCU 矩阵计算(1)https://blog.ZEEKLOG.net/weixin_

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践文章目录 * Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践 * Apache IoTDB 核心特性与价值 * Apache IoTDB 监控面板完整部署方案 * 安装步骤 * 步骤一：IoTDB开启监控指标采集 * 步骤二：安装、配置Prometheus * 步骤三：安装grafana并配置数据源 * 步骤四：导入IoTDB Grafana看板 * TimechoDB（基于 Apache IoTDB）增强特性 * 总结与应用场景建议 Apache IoTDB 核心特性与价值 Apache IoTDB 专为物联网场景打造的高性能轻量级时序数据库，以 “设备 - 测点” 原生数据模型贴合物理设备与传感器关系，通过高压缩算法、百万级并发写入能力和毫秒级查询响应优化海量时序数据存储成本与处理效率，同时支持边缘轻量部署、

SQL Server 2019安装教程(超详细图文)

SQL Server 介绍） SQL Server 是由微软（Microsoft）开发的一款关系型数据库管理系统（RDBMS），支持结构化查询语言（SQL）进行数据存储、管理和分析。自1989年首次发布以来，SQL Server 已成为企业级数据管理的核心解决方案，广泛应用于金融、电商、ERP、CRM 等业务系统。它提供高可用性、安全性、事务处理（ACID）和商业智能（BI）支持，并支持 Windows 和 Linux 跨平台部署。一、获取 SQL Server 2019 安装包 1. 官方下载方式前往微软官网注册账号后，即可下载 SQL Server Developer 版本（

Spark-mllib特征提取算法

Ne0inhk

Word2Vec

算法介绍：

调用：

Countvectorizer

算法介绍：

调用：

Read more

探索Vortex开源GPGPU：RISC-V SIMT架构(4-2)，TCU 矩阵计算(2)

最新电子电气架构（EEA）调研-3

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践

SQL Server 2019安装教程(超详细图文)