Python连接和操作Elasticsearch详细指南

Python连接和操作Elasticsearch详细指南

Python连接和操作Elasticsearch详细指南

Elasticsearch 是一个强大的搜索引擎,广泛应用于数据存储和搜索场景。通过 Python,我们可以方便地与 Elasticsearch 进行交互。本文将详细介绍如何在本地使用 Python 连接到服务器上的 Elasticsearch,并进行基本的操作。

一、服务器端配置

在开始之前,确保你的 Elasticsearch 服务已经在服务器上正确安装和配置。

ES

以下是一些基本的配置步骤:

1. 修改 Elasticsearch 配置文件

找到 Elasticsearch 的配置文件 elasticsearch.yml,并进行如下修改,以允许远程访问:

network.host: 0.0.0.0 http.port:9200discovery.type: single-node 

2. 开放防火墙端口

确保服务器的防火墙已经开放了 Elasticsearch 的默认端口 9200。如果你使用的是云服务器,也需要在安全组中开放该端口。

你可以通过在浏览器中输入 http://<你的服务器IP>:9200 来测试是否能够正常访问 Elasticsearch。如果配置正确,你应该能看到如下 Elasticsearch 的欢迎页面。

欢迎页面

二、本地 Python 连接 Elasticsearch

在确保服务器端配置无误后,接下来我们在本地使用 Python 连接到 Elasticsearch。首先,你需要安装 elasticsearch Python 客户端库:

pip install elasticsearch 

1. 连接 Elasticsearch

以下是连接到 Elasticsearch 的示例代码:

from elasticsearch import Elasticsearch # 连接到 Elasticsearch,替换为实际的 IP 地址和密码 es = Elasticsearch('http://192.168.111.199:9200', basic_auth=('elastic','Elastic_j625sz'))# 检查连接if es.ping():print('连接成功')else:print('连接失败')

在上述代码中,basic_auth 参数用于传递用户名和密码。如果你的 Elasticsearch 没有设置密码,可以省略该参数。

image-kkdu.png

2. 索引操作

# 创建索引  es.indices.create(index="my_index")# 删除索引  es.indices.delete(index="my_index")# 检查索引是否存在  es.indices.exists(index="my_index")
索引操作

3. 文档操作

连接成功后,我们可以开始进行数据存储和搜索操作。以下是一个创建索引并插入数据的示例:

# 添加文档 doc1 ={"title":"测试文档1","content":"这是一个测试文档1","timestamp":"2024-12-07"} doc2 ={"title":"测试文档2","content":"这是一个测试文档2","timestamp":"2024-12-01"}# 指定ID插入 es.index(index="my_index",id="1", document=doc1)# 自动生成ID插入 es.index(index="my_index", document=doc2)# 获取文档 result = es.get(index="my_index",id="1")print(result)# 更新文档 update_doc ={"doc":{"title":"更新后的标题"}} es.update(index="my_index",id="1", body=update_doc)print(es.get(index="my_index",id="1"))# 删除文档 es.delete(index="my_index",id="1")
文档操作

4. 搜索内容

接下来,我们可以通过搜索来查找我们存储的数据。

在这之前,定义一个打印文档的方法:

def print_doc(result): for hit in result['hits']['hits']: print(f"文档ID: {hit['_id']}") print(f"得分: {hit['_score']}") print(f"文档内容: {json.dumps(hit['_source'], indent=2, ensure_ascii=False)}") print("-" * 50) 

下面是常用的搜索方式:

# 简单搜索 query ={"query":{"match":{"title":"测试"}}} result = es.search(index="my_index", body=query) print_doc(result)# 复杂搜索(bool查询) query ={"query":{"bool":{"must":[{"match":{"title":"测试"}},{"range":{"timestamp":{"gte":"2024-01-01"}}}]}}} result = es.search(index="my_index", body=query) print_doc(result)# 分页查询 query ={"query":{"match_all":{}},"from":0,# 从第几条开始"size":10# 返回多少条} result = es.search(index="my_index", body=query) print_doc(result)

在这个示例中,我们搜索了包含“测试”这个词的文档,并打印出搜索结果。

搜索内容

5. 聚合查询

# 聚合查询示例  query ={"aggs":{"popular_titles":{"terms":{"field":"title.keyword","size":10}}}} result = es.search(index="my_index", body=query)
聚合查询

6. 批量操作

# 批量插入  actions =[{"_index":"my_index","_source":{"title":"文档1"}},{"_index":"my_index","_source":{"title":"文档2"}},]from elasticsearch.helpers import bulk bulk(es, actions)
批量操作

三、注意事项

在使用 Elasticsearch 时,有几个注意事项需要牢记:

  1. 确保 Elasticsearch 服务正在运行:在进行任何操作之前,确保 Elasticsearch 服务已经启动。
  2. 检查网络连接:确保本地机器与服务器之间的网络连接畅通。
  3. 认证信息:如果 Elasticsearch 配置了认证,连接时必须提供正确的用户名和密码。
  4. 安全措施:在生产环境中,建议配置合适的安全措施,例如使用 HTTPS 和防火墙规则。
  5. 记得在完成操作后关闭连接:es.close()

四、故障排除

如果在连接或操作 Elasticsearch 时遇到问题,可以尝试以下方法进行排查:

  • 检查 Elasticsearch 的日志文件,查看是否有错误信息。
  • 确认 elasticsearch.yml 配置文件中的设置是否正确,并重启 Elasticsearch 服务以应用更改。

使用 telnet 测试端口连通性:

telnet <你的服务器IP>9200

结论

通过以上步骤,你应该能够成功使用 Python 连接到 Elasticsearch,并进行基本的文档存储和搜索操作。Elasticsearch 提供了强大的搜索能力,结合 Python 的灵活性,可以帮助你构建高效的数据检索系统。希望这篇文章能帮助你更好地理解如何使用 Python 操作 Elasticsearch。

Read more

VsCode远程连接服务器后安装Github Copilot无法使用

VsCode远程连接服务器后安装Github Copilot无法使用

VsCode远程连接服务器后安装Github Copilot无法使用 1.在Vscode的settings中搜索Extension Kind,如图所示: 2.点击Edit in settings.json,添加如下代码: "remote.extensionKind":{"GitHub.copilot":["ui"],"GitHub.copilot-chat":["ui"],} remote.extensionKind 的作用 这是 VS Code 的远程开发配置项,用于控制扩展在远程环境(如 SSH、容器、WSL)中的运行位置。可选值: “ui”:扩展在本地客户端运行 “workspace”:扩展在远程服务器运行 这两个扩展始终在 本地客户端运行,

By Ne0inhk
2026年知网AIGC检测算法大升级:这些变化你必须知道

2026年知网AIGC检测算法大升级:这些变化你必须知道

2026年知网AIGC检测算法大升级:这些变化你必须知道 2025年12月,知网悄悄升级了AIGC检测算法。 很多同学发现:之前检测过关的论文,重新查一次突然变成了红色。问群里的朋友,情况都差不多。 今天这篇文章解读一下知网新算法的变化,以及怎么应对。 知网AIGC检测3.0:主要变化 知网这次升级的版本被称为「AIGC检测3.0」。和之前相比,主要有三个变化: 变化一:检测维度增加 旧版本主要看「语言模式」,也就是用词和句式是否符合AI特征。 新版本增加了「语义逻辑」维度。它会分析句子之间的逻辑关系,判断论证过程是否「太完美」「太规整」。 人类写作会有跳跃、有转折、有不那么顺畅的地方。AI生成的文本逻辑严密、层层递进,反而不像人写的。 这就是为什么有些同学的论文明明是自己写的,但因为「逻辑太好」反而被判为AI生成。 变化二:判定阈值下调 旧版本:AIGC值≥0.7判定为疑似AI生成 新版本:AIGC值≥0.

By Ne0inhk
【Git版本控制】-Windows系统上升级Git的完整指南

【Git版本控制】-Windows系统上升级Git的完整指南

在Windows系统上升级Git的完整指南 🚀 📋 目录 🔍 为什么需要升级Git?📊 检查当前Git版本⬇️ 下载最新Git安装包🛠️ 安装Git步骤✅ 验证安装是否成功🔄 升级后可能需要做的事情📝 总结 🔍 1. 为什么需要升级Git? 专业术语解释 版本兼容性是指软件的不同版本之间能否正常协作运行。当某些工具或服务要求特定最低版本的Git时,旧版本可能无法提供必要的功能或安全更新,导致无法正常工作。 大白话解释 就像你的手机需要更新系统才能安装新APP一样,Git也需要更新到一定版本才能使用某些新功能或与其他新工具配合工作。 生活案例 想象一下你想用新的智能家电,但它需要Wi-Fi 6,而你的路由器只支持Wi-Fi 4。这时候你就需要升级路由器才能使用新设备。同样,某些开发工具需要新版本的Git才能正常运行。 📊 2. 检查当前Git版本 专业术语解释 通过命令行界面执行版本查询命令,获取当前安装的Git软件版本信息。 大白话解释 看看你电脑上现在装的是哪个版本的Git。 操作步骤 1. 打开命令提示符(C

By Ne0inhk