Python 数据分析：学生画像匹配与相似度计算 | 极客日志

PythonAI算法

Python 数据分析：学生画像匹配与相似度计算

通过学生成绩与课程评价案例，讲解 Python 中三种相似性度量方法。涵盖欧氏距离、曼哈顿距离及余弦相似度。数值特征常用距离衡量差异，文本数据侧重向量方向比较。提供完整代码示例展示数学计算与库函数实现，适用于推荐系统、聚类分析及用户画像匹配场景。

孤勇者发布于 2026/3/22更新于 2026/7/2537 浏览

Python 数据分析：学生画像匹配与相似度计算

在数据分析和机器学习中，我们经常会遇到这样的问题：

如何判断两个学生的学习习惯是否相似？
如何衡量两个商品是不是'同类竞品'？
为什么推荐系统能给你推送'你可能喜欢'的内容？
两段文本内容相似，应该怎么用数据来表示？

这些问题，归根到底，都指向一个核心概念：

相似性度量

本文将通过'学生画像匹配'和'课程评价文本分析'两个小案例，带你理解下面几个非常常用的概念：

欧氏距离（Euclidean Distance）
曼哈顿距离（Manhattan Distance）
余弦相似度（Cosine Similarity）

并结合 Python 完成简单实战。

一、案例引入：谁和你最像？

假设我们想根据学生的学习数据，寻找'和你最相似的同学'。

比如现在有三位学生的成绩数据：

学生	数学	英语
A	80	85
B	82	88
C	60	70

问题来了：

A 和 B 谁更像？
A 和 C 谁更像？
我们能不能不用'感觉'，而是用'计算'来判断？

答案是可以的。

在数据世界里，'相似'是可以被量化的。一种最直接的想法就是：

谁和 A 的'距离'更近，谁就更相似。

二、什么是相似性？什么是距离？

在数据分析里，经常会把'相似性'和'距离'放在一起讲。

你可以简单理解为：

距离越小，两个对象越相似
距离越大，两个对象差异越大

这种思路在很多应用里都非常常见，比如：

推荐系统
用户画像匹配
聚类分析
离群点分析

数据对象的相似性度量正是这些分析任务的重要基础。

三、欧氏距离：最常见的'直线距离'

欧氏距离，就是我们在几何中最熟悉的'两点之间的直线距离'。

如果两个学生用两个特征表示：

数学成绩
英语成绩

那么就可以把每个学生看成二维平面上的一个点。

例如：

A = (80, 85)
B = (82, 88)
C = (60, 70)

欧氏距离公式

对于两个点：

A =(x1, y1) B =(x2, y2)

欧氏距离为：

d = ((x2 - x1)^+(y2 - x1)^)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

A =(80,85) B =(82,88)

d(A,B)= sqrt((82-80)^2+(88-85)^2)= sqrt(2^2+3^2)= sqrt(4+9)= sqrt(13) ≈ 3.61

A =(80,85) C =(60,70)

d(A,C)= sqrt((60-80)^2+(70-85)^2)= sqrt((-20)^2+(-15)^2)= sqrt(400+225)= sqrt(625)=25

d(A,B)=3.61< d(A,C)=25

import math

A = (80, 85)
B = (82, 88)
C = (60, 70)

def euclidean_distance(p1, p2):
    return math.sqrt((p1[0] - p2[0])**2 + (p1[1] - p2[1])**2)

dist_ab = euclidean_distance(A, B)
dist_ac = euclidean_distance(A, C)
print("A 与 B 的欧氏距离：", dist_ab)
print("A 与 C 的欧氏距离：", dist_ac)

A 与 B 的欧氏距离：3.605551275463989
A 与 C 的欧氏距离：25.0

print("A 与 B 的欧氏距离：{:.2f}".format(dist_ab))
print("A 与 C 的欧氏距离：{:.2f}".format(dist_ac))

d =|x2 - x1|+|y2 - y1|

A =(80,85) B =(82,88)
d(A,B)=|82-80|+|88-85|=2+3=5

def manhattan_distance(p1, p2):
    return abs(p1[0] - p2[0]) + abs(p1[1] - p2[1])

dist_ab_manhattan = manhattan_distance(A, B)
dist_ac_manhattan = manhattan_distance(A, C)
print("A 与 B 的曼哈顿距离：", dist_ab_manhattan)
print("A 与 C 的曼哈顿距离：", dist_ac_manhattan)

评价 1=[1,1,1,1,1,0,0]
评价 2=[1,1,1,1,0,1,1]

cos(theta)=(A · B)/(||A||*||B||)

import numpy as np

vec1 = np.array([1,1,1,1,1,0,0])
vec2 = np.array([1,1,1,1,0,1,1])

cos_sim = np.dot(vec1, vec2)/(np.linalg.norm(vec1)* np.linalg.norm(vec2))
print("余弦相似度：", cos_sim)

import math
import numpy as np

# ======================
# 1. 欧氏距离与曼哈顿距离
# ======================
A = (80, 85)
B = (82, 88)
C = (60, 70)

def euclidean_distance(p1, p2):
    return math.sqrt(sum((a - b)**2 for a, b in zip(p1, p2)))

def manhattan_distance(p1, p2):
    return sum(abs(a - b) for a, b in zip(p1, p2))

print("=== 数值数据相似性分析 ===")
print("A 与 B 的欧氏距离：{:.2f}".format(euclidean_distance(A, B)))
print("A 与 C 的欧氏距离：{:.2f}".format(euclidean_distance(A, C)))
print("A 与 B 的曼哈顿距离：", manhattan_distance(A, B))
print("A 与 C 的曼哈顿距离：", manhattan_distance(A, C))

# ======================
# 2. 余弦相似度
# ======================
vec1 = np.array([1,1,1,1,1,0,0])
vec2 = np.array([1,1,1,1,0,1,1])

cos_sim = np.dot(vec1, vec2)/(np.linalg.norm(vec1)* np.linalg.norm(vec2))
print("\n=== 文本相似性分析 ===")
print("两段评价的余弦相似度：{:.4f}".format(cos_sim))

学生	数学	英语
A	75	80
B	78	82
C	60	65

vec1 =[1,1,0,1,0]
vec2 =[1,0,1,1,0]

Python 数据分析：学生画像匹配与相似度计算

Python 数据分析：学生画像匹配与相似度计算

一、案例引入：谁和你最像？

二、什么是相似性？什么是距离？

三、欧氏距离：最常见的'直线距离'

欧氏距离公式

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、手工算一遍：A 和谁更相似？

1）A 和 B 的欧氏距离

2）A 和 C 的欧氏距离

3）结论

五、用 Python 计算欧氏距离

六、曼哈顿距离：不是走直线，而是'走格子'

曼哈顿距离公式

例子：A 和 B 的曼哈顿距离

Python 实现

如何理解？

七、余弦相似度：比较的不是远近，而是方向

八、为什么文本可以变成向量？

评价 1

评价 2

九、余弦相似度公式

十、用 Python 计算余弦相似度

十一、完整代码：欧氏距离 + 曼哈顿距离 + 余弦相似度

十二、这三种方法分别适合什么场景？

1. 欧氏距离

2. 曼哈顿距离

3. 余弦相似度

十三、最容易踩的坑

坑 1：把'相似度'和'距离'混为一谈

坑 2：以为余弦相似度比较的是'距离远近'

坑 3：所有数据都直接算欧氏距离

坑 4：忽略特征维度的含义

十四、这部分知识有什么实际用途？

十五、给初学者的记忆口诀

十六、课后练习

练习 1：基础题

练习 2：提高题

练习 3：迁移题

十七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具