Python 数据分析：学生画像匹配与相似度计算 | 极客日志

PythonAI算法

Python 数据分析：学生画像匹配与相似度计算

Python 数据分析通过欧氏距离、曼哈顿距离和余弦相似度量化对象相似性。文章结合学生成绩与课程评价案例，演示 Python 实现数值特征与文本向量的差异计算。掌握这些度量方法有助于理解推荐系统、用户画像匹配及聚类分析的核心逻辑，避免混淆距离与相似度概念，提升数据处理能力。

月光旅人发布于 2026/3/25更新于 2026/6/2530 浏览

Python 数据分析：学生画像匹配与相似度计算

在数据分析和机器学习中，我们经常会遇到这样的问题：

如何判断两个学生的学习习惯是否相似？
如何衡量两个商品是不是'同类竞品'？
为什么推荐系统能给你推送'你可能喜欢'的内容？
两段文本内容相似，应该怎么用数据来表示？

这些问题，归根到底，都指向一个核心概念：

相似性度量

本文将通过'学生画像匹配'和'课程评价文本分析'两个小案例，带你理解下面几个非常常用的概念：

欧氏距离（Euclidean Distance）
曼哈顿距离（Manhattan Distance）
余弦相似度（Cosine Similarity）

并结合 Python 完成简单实战。

一、案例引入：谁和你最像？

假设我们想根据学生的学习数据，寻找'和你最相似的同学'。

比如现在有三位学生的成绩数据：

学生	数学	英语
A	80	85
B	82	88
C	60	70

问题来了：

A 和 B 谁更像？
A 和 C 谁更像？
我们能不能不用'感觉'，而是用'计算'来判断？

答案是可以的。

在数据世界里，'相似'是可以被量化的。
一种最直接的想法就是：

谁和 A 的'距离'更近，谁就更相似。

二、什么是相似性？什么是距离？

在数据分析里，经常会把'相似性'和'距离'放在一起讲。

你可以简单理解为：

距离越小，两个对象越相似
距离越大，两个对象差异越大

这种思路在很多应用里都非常常见，比如：

推荐系统
用户画像匹配
聚类分析
离群点分析

数据对象的相似性度量正是这些分析任务的重要基础。

三、欧氏距离：最常见的'直线距离'

欧氏距离，就是我们在几何中最熟悉的'两点之间的直线距离'。

如果两个学生用两个特征表示：

数学成绩
英语成绩

那么就可以把每个学生看成二维平面上的一个点。

例如：

A = (80, 85)
B = (82, 88)
C = (60, 70)

欧氏距离公式

对于两个点：

A =(x1, y1) B =(x2, y2)

欧氏距离为：

d = ((x2 - x1)^+(y2 - x1)^)

更多推荐文章

查看全部

A =(80,85) B =(82,88)

d(A,B)= sqrt((82-80)^2+(88-85)^2)= sqrt(2^2+3^2)= sqrt(4+9)= sqrt(13) ≈ 3.61

A =(80,85) C =(60,70)

d(A,C)= sqrt((60-80)^2+(70-85)^2)= sqrt((-20)^2+(-15)^2)= sqrt(400+225)= sqrt(625)=25

d(A,B)=3.61< d(A,C)=25

import math

A = (80, 85)
B = (82, 88)
C = (60, 70)

def euclidean_distance(p1, p2):
    return math.sqrt((p1[0] - p2[0]) ** 2 + (p1[1] - p2[1]) ** 2)

dist_ab = euclidean_distance(A, B)
dist_ac = euclidean_distance(A, C)
print("A 与 B 的欧氏距离：", dist_ab)
print("A 与 C 的欧氏距离：", dist_ac)

A 与 B 的欧氏距离：3.605551275463989 A 与 C 的欧氏距离：25.0

print("A 与 B 的欧氏距离：{:.2f}".format(dist_ab))
print("A 与 C 的欧氏距离：{:.2f}".format(dist_ac))

d =|x2 - x1|+|y2 - y1|

A =(80,85) B =(82,88) d(A,B)=|82-80|+|88-85|=2+3=5

def manhattan_distance(p1, p2):
    return abs(p1[0] - p2[0]) + abs(p1[1] - p2[1])

dist_ab_manhattan = manhattan_distance(A, B)
dist_ac_manhattan = manhattan_distance(A, C)
print("A 与 B 的曼哈顿距离：", dist_ab_manhattan)
print("A 与 C 的曼哈顿距离：", dist_ac_manhattan)

评价 1=[1,1,1,1,1,0,0] 评价 2=[1,1,1,1,0,1,1]

cos(theta)=(A · B)/(||A||*||B||)

import numpy as np

vec1 = np.array([1, 1, 1, 1, 1, 0, 0])
vec2 = np.array([1, 1, 1, 1, 0, 1, 1])

cos_sim = np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
print("余弦相似度：", cos_sim)

import math
import numpy as np

# ======================
# 1. 欧氏距离与曼哈顿距离
# ======================
A = (80, 85)
B = (82, 88)
C = (60, 70)

def euclidean_distance(p1, p2):
    return math.sqrt(sum((a - b) ** 2 for a, b in zip(p1, p2)))

def manhattan_distance(p1, p2):
    return sum(abs(a - b) for a, b in zip(p1, p2))

print("=== 数值数据相似性分析 ===")
print("A 与 B 的欧氏距离：{:.2f}".format(euclidean_distance(A, B)))
print("A 与 C 的欧氏距离：{:.2f}".format(euclidean_distance(A, C)))
print("A 与 B 的曼哈顿距离：", manhattan_distance(A, B))
print("A 与 C 的曼哈顿距离：", manhattan_distance(A, C))

# ======================
# 2. 余弦相似度
# ======================
vec1 = np.array([1, 1, 1, 1, 1, 0, 0])
vec2 = np.array([1, 1, 1, 1, 0, 1, 1])

cos_sim = np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
print("\n=== 文本相似性分析 ===")
print("两段评价的余弦相似度：{:.4f}".format(cos_sim))

学生	数学	英语
A	75	80
B	78	82
C	60	65

vec1 =[1,1,0,1,0] vec2 =[1,0,1,1,0]

Python 数据分析：学生画像匹配与相似度计算

Python 数据分析：学生画像匹配与相似度计算

一、案例引入：谁和你最像？

二、什么是相似性？什么是距离？

三、欧氏距离：最常见的'直线距离'

欧氏距离公式

微信扫一扫，关注极客日志

更多推荐文章

四、手工算一遍：A 和谁更相似？

1）A 和 B 的欧氏距离

2）A 和 C 的欧氏距离

3）结论

五、用 Python 计算欧氏距离

六、曼哈顿距离：不是走直线，而是'走格子'

曼哈顿距离公式

例子：A 和 B 的曼哈顿距离

Python 实现

如何理解？

七、余弦相似度：比较的不是远近，而是方向

八、为什么文本可以变成向量？

评价 1

评价 2

九、余弦相似度公式

十、用 Python 计算余弦相似度

十一、完整代码：欧氏距离 + 曼哈顿距离 + 余弦相似度

十二、这三种方法分别适合什么场景？

1. 欧氏距离

2. 曼哈顿距离

3. 余弦相似度

十三、最容易踩的坑

坑 1：把'相似度'和'距离'混为一谈

坑 2：以为余弦相似度比较的是'距离远近'

坑 3：所有数据都直接算欧氏距离

坑 4：忽略特征维度的含义

十四、这部分知识有什么实际用途？

十五、给初学者的记忆口诀

十六、课后练习

练习 1：基础题

练习 2：提高题

练习 3：迁移题

十七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具