强化学习基础与智能决策系统开发

强化学习基础与智能决策系统开发 | 极客日志

import numpy as np
import gym

# 初始化环境
env = gym.make("FrozenLake-v0")

# 初始化 Q 函数
Q = np.zeros((env.observation_space.n, env.action_space.n))

# 设置超参数
alpha = 0.8
gamma = 0.95
epsilon = 0.1
num_episodes = 10000

# 训练 Q 学习
for i in range(num_episodes):
    state = env.reset()
    done = False
    while not done:
        # 选择动作（epsilon-greedy 策略）
        if np.random.rand() < epsilon:
            action = env.action_space.sample()
        else:
            action = np.argmax(Q[state, :])
        
        # 执行动作
        new_state, reward, done, info = env.step(action)
        
        # 更新 Q 函数
        Q[state, action] = Q[state, action] + alpha * (reward + gamma * np.max(Q[new_state, :]) - Q[state, action])
        
        # 更新状态
        state = new_state

# 测试 Q 学习
state = env.reset()
done = False
total_reward = 0
while not done:
    action = np.argmax(Q[state, :])
    new_state, reward, done, info = env.step(action)
    total_reward += reward
    state = new_state
print(f"Total Reward: {total_reward}")

import numpy as np
import gym
from tensorflow import keras
from tensorflow.keras import layers
from collections import deque
import random

# 初始化环境
env = gym.make("CartPole-v0")

# 初始化经验回放
memory = deque(maxlen=2000)

# 初始化深度神经网络
model = keras.Sequential([
    layers.Dense(24, activation="relu", input_shape=env.observation_space.shape),
    layers.Dense(24, activation="relu"),
    layers.Dense(env.action_space.n, activation="linear")
])
model.compile(optimizer="adam", loss="mse")

# 设置超参数
alpha = 0.8
gamma = 0.95
epsilon = 0.1
num_episodes = 10000
batch_size = 32

# 训练 DQN
for i in range(num_episodes):
    state = env.reset()
    done = False
    total_reward = 0
    while not done:
        # 选择动作（epsilon-greedy 策略）
        if np.random.rand() < epsilon:
            action = env.action_space.sample()
        else:
            action = np.argmax(model.predict(np.array([state]))[0])
        
        # 执行动作
        new_state, reward, done, info = env.step(action)
        total_reward += reward
        
        # 存储经验
        memory.append((state, action, reward, new_state, done))
        
        # 更新状态
        state = new_state
    
    # 训练模型
    if len(memory) > batch_size:
        batch = random.sample(memory, batch_size)
        states = np.array([item[0] for item in batch])
        actions = np.array([item[1] for item in batch])
        rewards = np.array([item[2] for item in batch])
        new_states = np.array([item[3] for item in batch])
        dones = np.array([item[4] for item in batch])
        targets = model.predict(states)
        targets[np.arange(batch_size), actions] = rewards + gamma * np.max(model.predict(new_states), axis=1) * (1 - dones)
        model.fit(states, targets, epochs=1, verbose=0)
    
    if i % 100 == 0:
        print(f"Episode {i + 1}: Total Reward = {total_reward}")

# 测试 DQN
state = env.reset()
done = False
total_reward = 0
while not done:
    action = np.argmax(model.predict(np.array([state]))[0])
    new_state, reward, done, info = env.step(action)
    total_reward += reward
    state = new_state
print(f"Total Reward: {total_reward}")

import numpy as np
import gym
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.optimizers import Adam

# 初始化环境
env = gym.make("CartPole-v0")

# 初始化深度神经网络
model = keras.Sequential([
    layers.Dense(24, activation="relu", input_shape=env.observation_space.shape),
    layers.Dense(24, activation="relu"),
    layers.Dense(env.action_space.n, activation="softmax")
])
model.compile(optimizer=Adam(lr=0.001), loss="categorical_crossentropy")

# 设置超参数
gamma = 0.95
num_episodes = 10000

# 训练 Policy Gradient
for i in range(num_episodes):
    state = env.reset()
    done = False
    states = []
    actions = []
    rewards = []
    while not done:
        # 选择动作
        state_array = np.array([state])
        action_probs = model.predict(state_array)[0]
        action = np.random.choice(env.action_space.n, p=action_probs)
        
        # 执行动作
        new_state, reward, done, info = env.step(action)
        
        # 存储状态、动作和奖励
        states.append(state)
        actions.append(action)
        rewards.append(reward)
        
        # 更新状态
        state = new_state
    
    # 计算折扣奖励
    discounted_rewards = []
    total_reward = 0
    for reward in reversed(rewards):
        total_reward = reward + gamma * total_reward
        discounted_rewards.insert(0, total_reward)
    
    # 标准化折扣奖励
    discounted_rewards = np.array(discounted_rewards)
    discounted_rewards = (discounted_rewards - np.mean(discounted_rewards)) / (np.std(discounted_rewards) + 1e-8)
    
    # 训练模型
    states_array = np.array(states)
    actions_array = np.array(actions)
    targets = np.zeros((len(states), env.action_space.n))
    targets[np.arange(len(states)), actions_array] = discounted_rewards
    model.fit(states_array, targets, epochs=1, verbose=0)
    
    if i % 100 == 0:
        print(f"Episode {i + 1}: Total Reward = {sum(rewards)}")

# 测试 Policy Gradient
state = env.reset()
done = False
total_reward = 0
while not done:
    state_array = np.array([state])
    action_probs = model.predict(state_array)[0]
    action = np.argmax(action_probs)
    new_state, reward, done, info = env.step(action)
    total_reward += reward
    state = new_state
print(f"Total Reward: {total_reward}")

pip install gym

import gym

# 初始化环境
env = gym.make("CartPole-v0")

# 重置环境
state = env.reset()

# 执行动作
done = False
total_reward = 0
while not done:
    # 渲染环境
    env.render()
    
    # 选择动作
    action = env.action_space.sample()
    
    # 执行动作
    new_state, reward, done, info = env.step(action)
    
    # 更新总奖励
    total_reward += reward
    
    # 更新状态
    state = new_state

# 关闭环境
env.close()
print(f"Total Reward: {total_reward}")

pip install stable-baselines3

import gym
from stable_baselines3 import DQN

# 初始化环境
env = gym.make("CartPole-v0")

# 初始化模型
model = DQN("MlpPolicy", env, verbose=1)

# 训练模型
model.learn(total_timesteps=10000)

# 保存模型
model.save("dqn_cartpole")

# 加载模型
model = DQN.load("dqn_cartpole")

# 测试模型
state = env.reset()
done = False
total_reward = 0
while not done:
    # 渲染环境
    env.render()
    
    # 选择动作
    action, _ = model.predict(state)
    
    # 执行动作
    new_state, reward, done, info = env.step(action)
    
    # 更新总奖励
    total_reward += reward
    
    # 更新状态
    state = new_state

# 关闭环境
env.close()
print(f"Total Reward: {total_reward}")

# 安装 Gym 库
pip install gym
# 安装 Stable Baselines 库
pip install stable-baselines3
# 安装 Flask 库
pip install flask

import gym
from stable_baselines3 import DQN, PPO, A2C

def get_environment(env_name):
    try:
        env = gym.make(env_name)
        return env
    except Exception as e:
        print(f"获取环境失败：{e}")
        return None

def get_algorithm(algorithm_name):
    try:
        if algorithm_name == "DQN":
            return DQN
        elif algorithm_name == "PPO":
            return PPO
        elif algorithm_name == "A2C":
            return A2C
        else:
            print("不支持的算法")
            return None
    except Exception as e:
        print(f"获取算法失败：{e}")
        return None

import gym
from stable_baselines3 import DQN, PPO, A2C
import os

def train_model(env_name, algorithm_name, total_timesteps):
    try:
        env = get_environment(env_name)
        algorithm = get_algorithm(algorithm_name)
        model = algorithm("MlpPolicy", env, verbose=1)
        model.learn(total_timesteps=total_timesteps)
        model_dir = "models"
        if not os.path.exists(model_dir):
            os.makedirs(model_dir)
        model.save(os.path.join(model_dir, f"{algorithm_name}_{env_name}"))
        return True
    except Exception as e:
        print(f"模型训练失败：{e}")
        return False

import gym
from stable_baselines3 import DQN, PPO, A2C
import os

def test_model(env_name, algorithm_name):
    try:
        env = get_environment(env_name)
        algorithm = get_algorithm(algorithm_name)
        model_dir = "models"
        model_path = os.path.join(model_dir, f"{algorithm_name}_{env_name}")
        if not os.path.exists(model_path):
            print("模型不存在")
            return None
        model = algorithm.load(model_path)
        state = env.reset()
        done = False
        total_reward = 0
        while not done:
            action, _ = model.predict(state)
            new_state, reward, done, info = env.step(action)
            total_reward += reward
            state = new_state
        return total_reward
    except Exception as e:
        print(f"模型测试失败：{e}")
        return None

import gym
from stable_baselines3 import DQN, PPO, A2C
import os
import numpy as np

def evaluate_model(env_name, algorithm_name, num_episodes):
    try:
        rewards = []
        for i in range(num_episodes):
            reward = test_model(env_name, algorithm_name)
            if reward is not None:
                rewards.append(reward)
        average_reward = np.mean(rewards)
        std_reward = np.std(rewards)
        return average_reward, std_reward
    except Exception as e:
        print(f"模型评估失败：{e}")
        return None, None

from flask import Flask, render_template, request, redirect, url_for
import os
import uuid
from environment_selector import get_environment, get_algorithm
from model_trainer import train_model
from model_tester import test_model
from model_evaluator import evaluate_model

app = Flask(__name__)
app.config["UPLOAD_FOLDER"] = "uploads"
app.config["ALLOWED_EXTENSIONS"] = {"txt"}
app.config["STATIC_FOLDER"] = "static"

@app.route("/")
def index():
    environments = ["CartPole-v0", "FrozenLake-v0", "MountainCar-v0"]
    algorithms = ["DQN", "PPO", "A2C"]
    return render_template("index.html", environments=environments, algorithms=algorithms)

@app.route("/train", methods=["POST"])
def train():
    env_name = request.form["environment"]
    algorithm_name = request.form["algorithm"]
    total_timesteps = int(request.form["total_timesteps"])
    success = train_model(env_name, algorithm_name, total_timesteps)
    if success:
        return render_template("result.html", message="模型训练成功")
    else:
        return render_template("result.html", error="模型训练失败")

@app.route("/test", methods=["POST"])
def test():
    env_name = request.form["environment"]
    algorithm_name = request.form["algorithm"]
    reward = test_model(env_name, algorithm_name)
    if reward is not None:
        return render_template("result.html", message=f"模型测试成功，总奖励：{reward}")
    else:
        return render_template("result.html", error="模型测试失败")

@app.route("/evaluate", methods=["POST"])
def evaluate():
    env_name = request.form["environment"]
    algorithm_name = request.form["algorithm"]
    num_episodes = int(request.form["num_episodes"])
    average_reward, std_reward = evaluate_model(env_name, algorithm_name, num_episodes)
    if average_reward is not None and std_reward is not None:
        return render_template("result.html", message=f"模型评估成功，平均奖励：{average_reward:.2f}，标准差：{std_reward:.2f}")
    else:
        return render_template("result.html", error="模型评估失败")

if __name__ == "__main__":
    if not os.path.exists("models"):
        os.makedirs("models")
    app.run(debug=True)

<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>智能决策系统</title>
    <style>
        body {
            font-family: Arial, sans-serif;
            margin: 0;
            padding: 0;
            background-color: #f5f5f5;
        }
        .container {
            max-width: 800px;
            margin: 0 auto;
            padding: 20px;
            background-color: #fff;
            border-radius: 5px;
            box-shadow: 0 0 10px rgba(0, 0, 0, 0.1);
            margin-top: 50px;
        }
        h1 {
            text-align: center;
            margin-bottom: 20px;
            color: #333;
        }
        .form-group {
            margin-bottom: 20px;
        }
        .form-group label {
            display: block;
            margin-bottom: 10px;
            font-weight: bold;
        }
        .form-group select, .form-group input {
            width: 100%;
            padding: 10px;
            border: 1px solid #ddd;
            border-radius: 5px;
        }
        .form-group input[type="submit"] {
            padding: 10px 20px;
            background-color: #4CAF50;
            color: #fff;
            border: none;
            border-radius: 5px;
            cursor: pointer;
        }
        .form-group input[type="submit"]:hover {
            background-color: #45a049;
        }
        .result {
            text-align: center;
            margin-top: 20px;
            font-size: 18px;
            font-weight: bold;
        }
        .error {
            color: red;
            text-align: center;
            margin-top: 20px;
            font-size: 18px;
            font-weight: bold;
        }
    </style>
</head>
<body>
    <div class="container">
        <h1>智能决策系统</h1>
        <form method="POST" action="/train">
            <div class="form-group">
                <label for="environment">环境：</label>
                <select id="environment" name="environment">
                    {% for env in environments %}
                    <option value="{{ env }}">{{ env }}</option>
                    {% endfor %}
                </select>
            </div>
            <div class="form-group">
                <label for="algorithm">算法：</label>
                <select id="algorithm" name="algorithm">
                    {% for algo in algorithms %}
                    <option value="{{ algo }}">{{ algo }}</option>
                    {% endfor %}
                </select>
            </div>
            <div class="form-group">
                <label for="total_timesteps">总训练步数：</label>
                <input type="number" id="total_timesteps" name="total_timesteps" value="10000">
            </div>
            <div class="form-group">
                <input type="submit" value="训练模型">
            </div>
        </form>
        <form method="POST" action="/test">
            <div class="form-group">
                <label for="environment">环境：</label>
                <select id="environment" name="environment">
                    {% for env in environments %}
                    <option value="{{ env }}">{{ env }}</option>
                    {% endfor %}
                </select>
            </div>
            <div class="form-group">
                <label for="algorithm">算法：</label>
                <select id="algorithm" name="algorithm">
                    {% for algo in algorithms %}
                    <option value="{{ algo }}">{{ algo }}</option>
                    {% endfor %}
                </select>
            </div>
            <div class="form-group">
                <input type="submit" value="测试模型">
            </div>
        </form>
        <form method="POST" action="/evaluate">
            <div class="form-group">
                <label for="environment">环境：</label>
                <select id="environment" name="environment">
                    {% for env in environments %}
                    <option value="{{ env }}">{{ env }}</option>
                    {% endfor %}
                </select>
            </div>
            <div class="form-group">
                <label for="algorithm">算法：</label>
                <select id="algorithm" name="algorithm">
                    {% for algo in algorithms %}
                    <option value="{{ algo }}">{{ algo }}</option>
                    {% endfor %}
                </select>
            </div>
            <div class="form-group">
                <label for="num_episodes">评估次数：</label>
                <input type="number" id="num_episodes" name="num_episodes" value="10">
            </div>
            <div class="form-group">
                <input type="submit" value="评估模型">
            </div>
        </form>
        {% if message %}
        <div class="result">{{ message }}</div>
        {% endif %}
        {% if error %}
        <div class="error">{{ error }}</div>
        {% endif %}
    </div>
</body>
</html>

强化学习基础与智能决策系统开发

强化学习基础与智能决策系统开发

学习目标

重点内容

一、强化学习基础

1.1 强化学习的基本概念

1.1.1 强化学习的重要性

1.1.2 强化学习的应用场景

1.2 强化学习的基本架构

1.2.1 智能体（Agent）

1.2.2 环境（Environment）

1.2.3 状态（State）

1.2.4 动作（Action）

1.2.5 奖励（Reward）

1.2.6 策略（Policy）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.3 强化学习的基本任务

1.3.1 探索与利用（Exploration vs. Exploitation）

1.3.2 马尔可夫决策过程（Markov Decision Process，MDP）

1.3.3 价值函数（Value Function）

1.3.4 策略函数（Policy Function）

二、强化学习常用算法

2.1 Q 学习

2.1.1 Q 函数的定义

2.1.2 Q 学习的算法流程

2.1.3 Q 学习的代码实现

2.2 DQN（Deep Q-Network）

2.2.1 DQN 的基本原理

2.2.2 DQN 的代码实现

2.3 Policy Gradient

2.3.1 Policy Gradient 的基本原理

2.3.2 Policy Gradient 的代码实现

三、强化学习库介绍

3.1 Gym 介绍

3.1.1 Gym 的安装

3.1.2 Gym 的基本使用

3.2 Stable Baselines 介绍

3.2.1 Stable Baselines 的安装

3.2.2 Stable Baselines 的基本使用

四、智能决策系统的基本原理和架构

4.1 智能决策系统的基本原理

4.2 智能决策系统的基本架构

五、实战项目：智能决策系统开发

5.1 项目需求分析

5.1.1 应用目标

5.1.2 用户需求

5.1.3 功能范围

5.2 系统架构设计

5.2.1 应用架构

5.2.2 数据存储方案

5.3 系统实现

5.3.1 开发环境搭建

5.3.2 环境选择

5.3.3 模型训练

5.3.4 模型测试

5.3.5 模型评估

5.3.6 用户界面

5.3.7 前端界面

5.4 系统运行与测试

5.4.1 系统运行

5.4.2 系统测试

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具