人工智能：自然语言处理（NLP）实战应用与优化

人工智能：自然语言处理（NLP）实战应用与优化 | 极客日志

import re
import string

def clean_text(text):
    # 转换为小写
    text = text.lower()
    # 去除特殊字符
    text = re.sub(r'[^\一-\u9fa5\w\s]', '', text)
    # 去除标点符号
    text = text.translate(str.maketrans('', '', string.punctuation))
    # 去除数字
    text = re.sub(r'\d', '', text)
    # 去除停用词
    stop_words = ["the", "a", "an", "and", "but", "or", "for", "nor", "on", "at", "to", "from", "by"]
    text = ' '.join([word for word in text.split() if word not in stop_words])
    return text

import nltk
from nltk.tokenize import word_tokenize

def tokenize_text(text):
    tokens = word_tokenize(text)
    return tokens

import nltk
from nltk.tokenize import word_tokenize
from nltk import pos_tag

def pos_tag_text(text):
    tokens = word_tokenize(text)
    pos_tags = pos_tag(tokens)
    return pos_tags

import spacy

def recognize_entities(text):
    nlp = spacy.load("en_core_web_sm")
    doc = nlp(text)
    entities = []
    for ent in doc.ents:
        entities.append((ent.text, ent.label_))
    return entities

TF-IDF = TF * IDF

from sklearn.feature_extraction.text import TfidfVectorizer

def tfidf_features(texts):
    vectorizer = TfidfVectorizer()
    features = vectorizer.fit_transform(texts)
    return features

from gensim.models import Word2Vec

def word2vec_features(sentences, size=100, window=5, min_count=1, workers=4):
    model = Word2Vec(sentences, size=size, window=window, min_count=min_count, workers=workers)
    return model

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

def create_lstm_model(vocab_size, embedding_dim, max_length):
    model = Sequential()
    model.add(Embedding(vocab_size, embedding_dim, input_length=max_length))
    model.add(LSTM(128))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

def train_lstm_model(model, X_train, y_train, X_test, y_test, epochs=10, batch_size=32):
    history = model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size, validation_data=(X_test, y_test))
    return history

from transformers import BertTokenizer, TFBertForSequenceClassification
import tensorflow as tf

def create_bert_model(model_name='bert-base-uncased', num_labels=2):
    tokenizer = BertTokenizer.from_pretrained(model_name)
    model = TFBertForSequenceClassification.from_pretrained(model_name, num_labels=num_labels)
    optimizer = tf.keras.optimizers.Adam(learning_rate=2e-5)
    loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
    metric = tf.keras.metrics.SparseCategoricalAccuracy('accuracy')
    model.compile(optimizer=optimizer, loss=loss, metrics=[metric])
    return tokenizer, model

def train_bert_model(tokenizer, model, X_train, y_train, X_test, y_test, epochs=3, batch_size=32):
    # 文本编码
    train_encodings = tokenizer(X_train.tolist(), truncation=True, padding=True, max_length=128, return_tensors='tf')
    test_encodings = tokenizer(X_test.tolist(), truncation=True, padding=True, max_length=128, return_tensors='tf')
    # 训练模型
    history = model.fit([train_encodings['input_ids'], train_encodings['attention_mask']], y_train, epochs=epochs, batch_size=batch_size, validation_data=([test_encodings['input_ids'], test_encodings['attention_mask']], y_test))
    return history

# 安装 NLTK 库
pip install nltk
# 安装 spaCy 库
pip install spacy && python -m spacy download en_core_web_sm
# 安装 Transformers 库
pip install transformers
# 安装 scikit-learn 库
pip install scikit-learn
# 安装 TensorFlow 库
pip install tensorflow

import tkinter as tk
from tkinter import scrolledtext

class TextInputFrame(tk.Frame):
    def __init__(self, parent, on_process):
        tk.Frame.__init__(self, parent)
        self.parent = parent
        self.on_process = on_process
        self.create_widgets()

    def create_widgets(self):
        # 文本输入区域
        self.text_input = scrolledtext.ScrolledText(self, width=60, height=10)
        self.text_input.pack(pady=10, padx=10, fill="both", expand=True)
        # 处理按钮
        tk.Button(self, text="处理文本", command=self.process_text).pack(pady=10, padx=10)

    def process_text(self):
        text = self.text_input.get("1.0", tk.END)
        if text.strip():
            self.on_process(text.strip())
        else:
            tk.messagebox.showwarning("警告", "请输入文本")

from transformers import pipeline

def classify_text(text):
    classifier = pipeline("text-classification")
    result = classifier(text)
    return result

from transformers import pipeline

def analyze_sentiment(text):
    sentiment_analyzer = pipeline("sentiment-analysis")
    result = sentiment_analyzer(text)
    return result

from transformers import pipeline

def recognize_entities(text):
    entity_recognizer = pipeline("ner")
    result = entity_recognizer(text)
    return result

import tkinter as tk
from tkinter import ttk

class ResultFrame(tk.Frame):
    def __init__(self, parent):
        tk.Frame.__init__(self, parent)
        self.parent = parent
        self.create_widgets()

    def create_widgets(self):
        # 结果显示区域
        self.result_tree = ttk.Treeview(self, columns=("Label","Score"), show="headings")
        self.result_tree.heading("Label", text="标签")
        self.result_tree.heading("Score", text="得分")
        self.result_tree.pack(pady=10, padx=10, fill="both", expand=True)
        # 滚动条
        scrollbar = ttk.Scrollbar(self, orient="vertical", command=self.result_tree.yview)
        self.result_tree.configure(yscroll=scrollbar.set)
        scrollbar.pack(side="right", fill="y")

    def display_result(self, result):
        # 清空结果
        for item in self.result_tree.get_children():
            self.result_tree.delete(item)
        # 显示结果
        if isinstance(result, list):
            for item in result:
                label = item.get("label", "Unknown")
                score = item.get("score", 0.0)
                self.result_tree.insert("", "end", values=(label, f"{score:.2f}"))
        else:
            tk.messagebox.showwarning("警告", "处理结果无效")

import tkinter as tk
from tkinter import ttk, messagebox
from text_input_frame import TextInputFrame
from result_frame import ResultFrame
from nlp_functions import classify_text, analyze_sentiment, recognize_entities

class NLPApp:
    def __init__(self, root):
        self.root = root
        self.root.title("NLP 应用")
        self.create_widgets()

    def create_widgets(self):
        # 文本输入和处理区域
        self.text_input_frame = TextInputFrame(self.root, self.process_text)
        self.text_input_frame.pack(pady=10, padx=10, fill="both", expand=True)
        # 功能选择区域
        function_frame = tk.LabelFrame(self.root, text="功能选择")
        function_frame.pack(pady=10, padx=10, fill="x")
        self.function_var = tk.StringVar()
        self.function_var.set("文本分类")
        tk.Radiobutton(function_frame, text="文本分类", variable=self.function_var, value="文本分类").grid(row=0, column=0, padx=5, pady=5)
        tk.Radiobutton(function_frame, text="情感分析", variable=self.function_var, value="情感分析").grid(row=0, column=1, padx=5, pady=5)
        tk.Radiobutton(function_frame, text="命名实体识别", variable=self.function_var, value="命名实体识别").grid(row=0, column=2, padx=5, pady=5)
        # 结果显示区域
        self.result_frame = ResultFrame(self.root)
        self.result_frame.pack(pady=10, padx=10, fill="both", expand=True)

    def process_text(self, text):
        function = self.function_var.get()
        try:
            if function == "文本分类":
                result = classify_text(text)
            elif function == "情感分析":
                result = analyze_sentiment(text)
            elif function == "命名实体识别":
                result = recognize_entities(text)
            else:
                raise ValueError("未知功能")
            self.result_frame.display_result(result)
        except Exception as e:
            messagebox.showerror("错误", f"处理失败：{str(e)}")

if __name__ == "__main__":
    root = tk.Tk()
    app = NLPApp(root)
    root.mainloop()

人工智能：自然语言处理（NLP）实战应用与优化

自然语言处理（NLP）的实战应用与优化

学习目标

重点内容

一、自然语言处理基础

1.1 自然语言处理的基本概念

1.1.1 NLP 的重要性

1.1.2 NLP 的应用场景

1.2 自然语言处理的挑战

二、文本处理技术

2.1 文本预处理

2.1.1 文本清洗

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.1.2 分词

2.1.3 词性标注

2.1.4 命名实体识别

2.2 文本预处理的代码实现

2.2.1 文本清洗

2.2.2 分词

2.2.3 词性标注

2.2.4 命名实体识别

三、特征工程

3.1 文本特征表示

3.2 TF-IDF

3.2.1 TF-IDF 的基本原理

3.2.2 TF-IDF 的代码实现

3.3 词嵌入

3.3.1 词嵌入的基本原理

3.3.2 词嵌入的代码实现

四、常用模型与架构

4.1 传统机器学习模型

4.1.1 朴素贝叶斯

4.1.2 支持向量机

4.1.3 决策树

4.2 深度学习模型

4.2.1 循环神经网络（RNN）

4.2.2 长短期记忆网络（LSTM）

4.2.3 门控循环单元（GRU）

4.2.4 Transformers

4.2.5 BERT

4.3 模型训练的代码实现

4.3.1 使用 TensorFlow 进行 LSTM 模型训练

4.3.2 使用 Hugging Face Transformers 进行 BERT 模型训练

五、实战项目：NLP 应用开发

5.1 项目需求分析

5.1.1 应用目标

5.1.2 用户需求

5.1.3 功能范围

5.2 系统架构设计

5.2.1 应用架构

5.2.2 数据存储方案

5.3 系统实现

5.3.1 开发环境搭建

5.3.2 文本输入和处理

5.3.3 文本分类

5.3.4 情感分析

5.3.5 命名实体识别

5.3.6 结果可视化

5.3.7 用户界面

5.4 系统运行与测试

5.4.1 系统运行

5.4.2 系统测试

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具