机器学习第三篇:详解朴素贝叶斯算法

机器学习第三篇:详解朴素贝叶斯算法

一、统计知识

01|随机事件:

1、概念

随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母A、B、C等表示。随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点,记作ωi。全体样本点组成的集合称为这个试验的样本空间,记作Ω.即Ω={ω1,ω2,…,ωn,…}

随机事件中的事件形式可能由各种形式,比如{"正面","反面"},{"优","良","差"}。

2、条件概率

P(A|B)=P(AB)/P(B)表示在事件B发生的情况下事件A发生的概率。

3、一些性质

概率的有限可加性:若事件A1、A2、......、Ai.....、Aj这些事件两两互斥,则P(∑Ai)=∑P(Ai),表示所有事件发生的概率等于各个事件发生的概率之和。

概率的乘法公式:P(AB)=P(A)P(B|A)=P(B)P(A|B)。若事件A与B相互独立,则P(AB)=P(A)P(B),推广到有限多个事件时可表示为:P(A1A2A3.....An)=P(A1)P(A2|A1)P(A3|A1A2)......P(An|A1A2......An-1)。

4、全概率公式

对于比较复杂的概率事件的计算,经常会把它分解成若干个简单事件的和,通过分别计算这些简单事件的概率,然后利用概率的可加性计算出所求事件的概率。假设事件A1、A2、......、An是Ω的一个划分,即两两互斥,且

∑Ai=Ω,则B=B∑Ai,再由概率的有限可加性得,P(B)=P(B∑Ai)=P(∑BAi)。

再由概率得乘法公式得P(B)=P(∑BAi)=∑P(Ai)P(B|Ai),这就是全概率公式。

5、贝叶斯公式

假设事件A1、A2、......、An是Ω的一个划分,B=B∑Ai=∑BAi,则B发生条件下Ai发生得概率为:P(Ai|B)=P(AiB)/P(B)。由乘法公式和全概率公式得P(Ai|B)=P(Ai)P(B|Ai)/∑P(Ai)P(B|Ai)。该公式就是贝叶斯公式。

02|一维随机变量:

1、概念

一般意义上概率是针对于某一随机事件而言得,为更深入得研究随机试验得结果,我们引入随机变量得概念,随机变量得基本思想是把随机试验的结果数量化,从而可用一个变量去描述随机事件。对于随机事件中出现的某一事件我们用变量的形式去表示。比如{"正面","反面"}可以表示为{1,0},{"优","良","差"}可以表示为{1,2,3}。

2、随机变量分布

假设X是一随机变量,他可能取值为X1,X2,....,Xk,并且取各个值对应的概率分别为P1,P2,......Pk,即P(X=Xk)=Pk,K=1,2,....,该式称为随机变量X的概率分布。

03|多维随机变量:

1、概念

通过随机变量来描述某一随机事件时,有时候仅用一个维度上的变量去表示是不够的,比如描述平面的某一个点的位置就需要用X,Y两条轴(即两个维度)去表示才可以,如果是描述空间中某个点可能需要X,Y,Z三个维度去表示才可以,我们把一个随机变量需要从n个维度去表示的变量称为n维随机变量。

一般地,当n=2时,称(X,Y)为二维随机变量,二维随机变量的联合分布为:

F(x,y)=P(X≤x,Y≤y),其中P(X≤x,Y≤y)表示随机事件{X≤x},{Y≤y}同时发生的概率。

若事件X与Y相互独立,则P(X≤x,Y≤y)=P(X≤x)P(Y≤y)。

条件分布:P(X≤x|Y≤y)=P(X≤x,Y≤y)/P(Y≤y)。

二、算法知识

01|原理:

朴素贝叶斯算法就是根据贝叶斯公式来对未知事物进行分类,通过已知条件(X=x)计算未知事物分别属于各个类别(Y=ck)时对应的概率,然后把未知事物判别为概率最大的那一类。

贝叶斯公式:P(Y=ck|X=x)=P(Y=ck)P(X=x|Y=ck)/∑P(Y=ck)P(X=x|Y=ck)。

02|学习过程:

我们要想计算出未知事物属于哪一个类别的概率较大,即P(Y=ck|X=x)在x等于多少时概率最大,需要先算出P(Y=ck)和P(X=x|Y=ck)。这两个值可以通过训练集求得。在具体的求取过程中需要用到一种估计方法就是极大似然估计

极大似然估计是一种概率论在统计中的应用,说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值,一般把这个结果作为估计值。

在这里我们用极大似然估计的方法来给P(Y=ck)以及P(X=x|Y=ck)估值,把训练集中的所有值当成是若干次试验以后得到的结果,利用极大似然估计的思想,则P(Y=ck)=该类别的频数/集合总数。P(Y=ck)=∑I(Y=ck)/N,k=1,2,...,K,

N为集合总数。

P(X=x|Y=ck)=ck类下满足条件x的值的频数/属于ck类值的总数。

P(X=x|Y=ck)=∑I(X=x,Y=ck)/∑I(Y=ck),k=1,2,....,K

上面的I为指示函数,是定义在某一集合X上的函数,表示其中有哪些元素属于某一子集A,常用于次数的统计,即满足某一条件的个数。

预估出P(Y=ck)和P(X=x|Y=ck)的值以后,我们就可以利用贝叶斯公式对在X=x的条件下P(Y=ck|X=x)对应的分类是哪一类。


上面的学习过程都只是针对于一维变量进行求取的,在实际的算法应用中,往往是多维的,即多个特征,于是乎:P(X=x|Y=ck)=P(X=x1,X=x2,...,X=xi|Y=ck),xi表示变量x的第i个特征

P(X=x|Y=ck)=P(X=x1,X=2,...,X=xi|Y=ck)=P(X=x1,X=2,...,X=xi)/P(Y=ck)

因为朴素贝叶斯对条件概率做了独立性假设,所以P(X=x1,X=x2,...,X=xi)/P(Y=ck)=P(X=x1)P(X=x2)...P(X=xi)/P(Y=ck)=

∏P(X=xi|Y=ck)

将上式代入贝叶斯公式中可得出:

P(Y=ck|X=x)=P(Y=ck)∏P(X=xi|Y=ck)/∑P(Y=ck)∏P(X=xi|Y=ck),因为分母∑P(Y=ck)∏P(X=xi|Y=ck)对每个分类ck来说,其值都是相等的,而我们最后是要比较每个ck对应的P(Y=ck|X=x)的大小,所以可以把分母去掉,最后学习到的模型为:y=f(x)=P(Y=ck)∏P(X=xi|Y=ck)。(其中∏P(X=xi|Y=ck)需要让i取不同的值(即不同的特征)然后用极大似然估计去估计。)

03|测试过程:

将测试数据集代入到学到的模型y=f(x)=P(Y=ck)∏P(X=xi|Y=ck)然后看不同分类所对应的概率,选择概率最大的分类为待测数据的分类。然后判断其预测的准确性。

04|贝叶斯估计:

在前面我们估计P(Y=ck)和P(X=x|Y=ck)的值的时候用的是极大似然估计,使用这种方法很有可能出现估计值为0的情况,因为有些特征可能不存在,所以其概率为0,但是P(X=x|Y=ck)=∏P(X=xi|Y=ck),只要有一个特征为0,整个P(X=x|Y=ck)就会为0,这将影响到后续的概率计算,所以这种估计方法有的时候是行不通的,我们需要换另外的估计方法,就是贝叶斯估计。

www.zeeklog.com - 机器学习第三篇:详解朴素贝叶斯算法

K为类的个数。

Lj是第j维特征的最大取值。

贝叶斯估计是在极大似然估计的基础上给分子分母分别加一个常数,当λ=1时称为拉普拉斯平滑。

05|利用python对留言性质进行判断:

本实例以及代码均来自于书籍《机器学习实战》第4章。

1、背景

某社区为了屏蔽掉一些侮辱性留言,需要构建一个快速过滤器,只要某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。

2、准备数据

www.zeeklog.com - 机器学习第三篇:详解朴素贝叶斯算法

3、数据处理

www.zeeklog.com - 机器学习第三篇:详解朴素贝叶斯算法
www.zeeklog.com - 机器学习第三篇:详解朴素贝叶斯算法

4、计算先验概率

www.zeeklog.com - 机器学习第三篇:详解朴素贝叶斯算法
www.zeeklog.com - 机器学习第三篇:详解朴素贝叶斯算法
www.zeeklog.com - 机器学习第三篇:详解朴素贝叶斯算法

5、调试算法

在前面我们讲过采用极大似然估计中可能会出现概率为0的情况,在上面的结果代码中我们也可以看出,确实有一些结果为0的概率,为了避免这种情况,我们将采用拉普拉斯平滑。

www.zeeklog.com - 机器学习第三篇:详解朴素贝叶斯算法

6、应用算法

最后就可利用模型y=f(x)=P(Y=ck)∏P(X=xi|Y=ck)对具体某一条留言的是否包含侮辱性评论进行判断了。

Read more

【金仓数据库】ksql 指南(五) —— 创建与管理索引和视图(KingbaseES 查询优化核心)

【金仓数据库】ksql 指南(五) —— 创建与管理索引和视图(KingbaseES 查询优化核心)

引言 掌握表的基本运作之后,若想优化查询效率并简化数据访问,就要去学习“索引”和“视图”的运用,索引类似于“书籍目录”,可以极大地加快查询速度;视图类似“数据窗口”,能够隐藏复杂的查询逻辑,还能控制数据的可见性。本文就“ksql命令行操作索引与视图”展开论述,把从“作用到创建,再到查看,维持直至删除”的全过程拆解成实际操作步骤,并结合例子和避坑提示,以使初学者能够领悟并付诸实行。 文章目录 * 引言 * 一、前置准备:确认操作基础(衔接前文,确保连贯) * 1.1 1. 连接数据库并切换目标模式 * 1.2 2. 插入测试数据(用于验证索引 / 视图效果) * 二、索引管理:给表 “加目录”,加速查询 * 2.1 1.

By Ne0inhk
从 Express 到企业级架构:NestJS 实战指南与深度解析

从 Express 到企业级架构:NestJS 实战指南与深度解析

在 Node.js 的后端开发生态中,Express 长期以来以其极简主义占据统治地位。然而,随着项目规模的扩大,缺乏约束的“自由”往往会导致代码结构混乱,也就是我们常说的“意大利面条式代码”。 为了解决这个问题,NestJS 应运而生。NestJS 是一个用于构建高效、可扩展且易于维护的企业级后端应用的框架。它基于 TypeScript 构建,深受 Angular 架构的影响,引入了模块化、依赖注入(DI)和装饰器等先进概念。 本文将结合一个包含待办事项(Todos)管理和 PostgreSQL 数据库连接的实战 Demo,带你深入理解 NestJS 的核心架构。 一、 为什么选择 NestJS? 在开始写代码之前,我们需要理解 NestJS 试图解决什么问题。 1. 架构标准化:Express 让你自己决定文件放哪,而

By Ne0inhk
Go语言零基础小白学习知识点【基础版详解】

Go语言零基础小白学习知识点【基础版详解】

✅ 纯白话拆解+代码示例+实战场景,零基础能直接照着敲 ✅ 技术适配:基于Go 1.23(LTS长期支持版,企业主流),聚焦高并发、云原生核心场景 ✅ 条理清晰:从“环境搭建→基础语法→核心特性→实战入门”层层拆解,每个知识点落地到代码 ✅ 核心目标:小白不仅“懂概念”,更能“写得出、跑得起”,掌握Go语言入门核心能力 一、前置准备:先搞定环境和核心认知 1. Go语言是什么? Go(又称Golang)是谷歌2009年推出的编程语言,2026年已是云原生、高并发后端的首选语言——简单说: * 快:运行速度接近C/C++,编译速度秒杀Java; * 简单:语法比Java/Python更简洁,零基础3天能写业务代码; * 强:天生支持高并发,写直播、聊天、

By Ne0inhk
告别重复数据烦恼!MySQL ON DUPLICATE KEY UPDATE 优雅解决存在更新/不存在插入难题

告别重复数据烦恼!MySQL ON DUPLICATE KEY UPDATE 优雅解决存在更新/不存在插入难题

目录 * 前言 * 一、基本概念 * 1、什么是 ON DUPLICATE KEY UPDATE? * 2、工作原理 * 3、基本语法 * 二、使用场景 * 1、计数器更新 * 2、配置项更新 * 3、购物车商品更新 * 三、高级用法 * 1、条件更新 * 2、多表关联 * 3、批量操作优化 * 四、其他处理冲突的方案 * 1、REPLACE INTO * 2、INSERT IGNORE 前言 在日常的数据库操作中,我们经常会遇到这样的场景:“如果数据存在,就更新它;如果不存在,就插入一条新的”。这种模式通常被称为 “Upsert”(Update + Insert)。在

By Ne0inhk