Python+AI 构建每日新闻简报：聚合热搜、智能摘要与语音播报 | 极客日志

PythonAI算法

Python+AI 构建每日新闻简报：聚合热搜、智能摘要与语音播报

介绍如何使用 Python 结合 AI 技术构建每日新闻简报应用。教程涵盖环境搭建、多平台热搜数据爬取、利用大模型 API 进行智能摘要生成、以及语音播报功能的实现。内容包括具体的代码示例、依赖库安装、异常处理及优化扩展方案，帮助开发者快速掌握从数据采集到终端呈现的全流程开发技能。

FrontendX发布于 2026/3/28更新于 2026/5/2723 浏览

一、教程概述

本教程将带你从零搭建一款 AI 驱动的每日新闻简报应用，核心功能包括聚合多平台热搜、AI 智能摘要、语音播报，最终实现高效信息获取工具。适合有 Python 基础、对 AI 应用开发感兴趣的开发者，全程无需复杂底层开发，聚焦数据爬取、AI 集成及功能落地全流程。

二、核心技术栈与环境准备

技术栈选型
- 核心语言：Python 3.9+
- 数据爬取：Requests、BeautifulSoup4、Selenium（可选）
- AI 智能摘要：大模型 API（推荐通义千问、OpenAI API 等，支持中文优化）
- 语音播报：pyttsx3（离线语音）或百度语音合成 API（在线高质量语音）
- 数据存储（可选）：SQLite、Redis
- 打包工具（可选）：PyInstaller
环境搭建步骤 安装 Python 环境：官网下载 Python 3.9+，勾选 Add Python to PATH 完成安装。创建虚拟环境（推荐）：

# 新建虚拟环境
python -m venv briefy-env
# 激活环境（Windows）
briefy-env\Scripts\activate
# 激活环境（Mac/Linux）
source briefy-env/bin/activate

安装依赖库

pip install requests beautifulsoup4 pyttsx3 openai
# 如需爬取动态页面（如部分热搜榜）
pip install selenium
# 如需本地存储
pip install pysqlite3
# 如需打包成桌面应用
pip install pyinstaller

三、分步实现核心功能

模块 1：多平台热搜数据爬取

目标：爬取百度、今日头条、凤凰网等平台热搜，提取新闻标题、链接、发布时间。

爬取思路 优先使用平台公开 API，无 API 则用网页解析。为避免反爬，设置请求头（User-Agent）、控制爬取频率（time.sleep）。
代码实现（以百度热搜为例）

import requests
from bs4 import BeautifulSoup
import time

def crawl_baidu_hot():
    hot_news = []
    url = "https://top.baidu.com/board?tab=realtime"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    }
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, )
        news_items = soup.select()
         item  news_items[:]:
            title = item.get()
            link = item.get()
             title  link:
                hot_news.append({
                    : ,
                    : title,
                    : link,
                    : time.strftime(, time.localtime())
                })
        time.sleep()
     Exception  e:
        ()
     hot_news

 ():
    all_news = []
    all_news.extend(crawl_baidu_hot())
    
     all_news

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import openai

def init_llm_client():
    from alibabacloud_tea_openapi import models as open_api_models
    from alibabacloud_qwenlite20240118 import models as qwen_models
    from alibabacloud_qwenlite20240118.client import Client as QwenLiteClient
    config = open_api_models.Config(
        access_key_id="你的 AccessKeyId",
        access_key_secret="你的 AccessKeySecret",
        endpoint="qwenlite.cn-hangzhou.aliyuncs.com"
    )
    return QwenLiteClient(config)

def generate_news_summary(news_title, llm_client):
    prompt = f"请将以下新闻标题生成 50 字以内的简洁摘要，突出核心信息：{news_title}"
    try:
        request = qwen_models.ChatCompletionRequest(
            model="qwen-turbo",
            messages=[{"role": "user", "content": prompt}],
            temperature=0.3
        )
        response = llm_client.chat_completion(request)
        summary = response.body.output.choices[0].message.content
        return summary
    except Exception as e:
        print(f"摘要生成失败：{e}")
        return news_title

def batch_generate_summaries(news_list, llm_client):
    for news in news_list:
        summary = generate_news_summary(news["title"], llm_client)
        news["summary"] = summary
    return news_list

import pyttsx3

def init_voice_engine():
    engine = pyttsx3.init()
    engine.setProperty('rate', 150)
    engine.setProperty('volume', 1.0)
    voices = engine.getProperty('voices')
    for voice in voices:
        if "Chinese" in voice.name or "中文" in voice.name:
            engine.setProperty('voice', voice.id)
            break
    return engine

def voice_broadcast(news_list, engine):
    engine.say("欢迎收听今日新闻简报")
    for i, news in enumerate(news_list[:5]):
        content = f"第{i+1}条，来自{news['platform']}：{news['summary']}"
        print(content)
        engine.say(content)
    engine.say("新闻简报播放完毕，祝您生活愉快")
    engine.runAndWait()

def main():
    print("正在爬取全网热点...")
    news_list = crawl_all_platforms()
    if not news_list:
        print("未获取到新闻数据，请检查网络或爬取规则")
        return

    print("正在生成 AI 摘要...")
    llm_client = init_llm_client()
    news_list_with_summary = batch_generate_summaries(news_list, llm_client)

    print("开始语音播报...")
    voice_engine = init_voice_engine()
    voice_broadcast(news_list_with_summary, voice_engine)

    print("今日新闻简报完成！")

if __name__ == "__main__":
    main()

基础优化
- 反爬增强：添加 IP 代理池、随机请求间隔。
- 摘要优化：调整 prompt 让摘要更聚焦事件主体、核心动作、关键结果。
- 语音优化：使用百度语音合成 API 替换 pyttsx3，支持情感语音。
扩展功能
- 定时生成：用 schedule 库设置每日固定时间自动爬取 + 播报。
- 分类筛选：增加科技、财经、娱乐等分类标签。
- 桌面应用打包：用 PyInstaller 生成 .exe 文件。
```
pyinstaller -F -w -i icon.ico main.py
```
- 多端同步：将简报存储到云盘，支持手机端查看。

Python+AI 构建每日新闻简报：聚合热搜、智能摘要与语音播报

一、教程概述

二、核心技术栈与环境准备

三、分步实现核心功能

模块 1：多平台热搜数据爬取

更多推荐文章

相关免费在线工具

模块 2：AI 智能摘要

模块 3：语音播报

模块 4：整合与落地

四、优化与扩展功能

五、常见问题排查

六、最终效果演示

更多推荐文章

相关免费在线工具

Python+AI 构建每日新闻简报：聚合热搜、智能摘要与语音播报

一、教程概述

二、核心技术栈与环境准备

三、分步实现核心功能

模块 1：多平台热搜数据爬取

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

模块 2：AI 智能摘要

模块 3：语音播报

模块 4：整合与落地

四、优化与扩展功能

五、常见问题排查

六、最终效果演示

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具