模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch

模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch

1. 训练误差和泛化误差

  • 训练误差:模型在训练数据上的误差(比如:模拟高考,可以有很多次)
  • 泛化误差:模型在新数据上的误差(比如:真实高考,只有一次)
www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch
www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch

K-则交叉验证

www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch

2. 过拟合和欠拟合

www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch

模型容量:模型的复杂度
简单数据集:比如线性模型的数据,比如ax+b=y
复杂数据集举例:ImageNet

www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch

2.1 VC 维

  • 统计学习理论的一个核心思想
  • 对于一个分类模型,VC等于一个最大的数据集的大小,不管如何给定标号,都存在一个模型来对它进行完美分类。
www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch

3. 代码样例 过拟合 欠拟合

www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch


www.zeeklog.com  - 模型选择 + 过拟合和欠拟合 动手学深度学习v2 pytorch

4. QA

  1. SVM很难训练100万的数据量,SVM可以调的参数很少,特征的分类,提取是分开处理的;神经网络GPT 3 训练的参数都超过1750亿个。神经网络是个语言,可以做很灵活编程。
  2. k则交叉验证,在神经网络上用的比较少,因为数据集都比较大。k则交叉验证应用于数据比较少的情况,k的选择原则,在于能接受的计算量的情况下。
  3. 深度学习 打败 svm ,因为效果很好,比如图片识别的精度很高,但是深度学习可解释性不好。svm 打败 多层感知机,因为svm有理论证明,并且容易调参,并且可调参数很少,比较简单。
  4. VC维衡量模型,简单来说是可以记住的数的维度,比如能备注π的100位小数,就是100VC维。
  5. 科学、工程、艺术:神经网络有一部分是艺术,可解释性不强,靠猜测。

参考

https://www.bilibili.com/video/BV1kX4y1g7jp?p=1

Read more

29.5 SQL开发工作流程

29.5 SQL开发工作流程

29.5 SQL开发工作流程 * 29.5 SQL开发工作流程 SQL开发工作流程是一系列步骤和最佳实践,用于指导从项目启动到部署的整个开发过程。遵循良好的工作流程不仅可以提高开发效率,还可以确保代码质量和项目成功。本章节将介绍SQL开发的标准工作流程。 29.5.1 需求分析 在开发任何SQL解决方案之前,首先要进行彻底的需求分析。 1. 了解业务目标: * 与利益相关者沟通,了解项目的目标和业务需求。 1. 确定数据源: * 确定所需数据的来源和类型。 1. 定义数据需求: * 明确需要哪些数据以及如何使用这些数据。 1. 识别关键性能指标: * 确定项目成功的关键指标。 29.5.2 设计 设计阶段是将需求转化为具体数据库模型和查询的蓝图。 1. 概念设计: * 创建高层次的数据模型,如实体-关系图。 1. 逻辑设计: * 将概念模型转化为逻辑模型,确定表结构和关系。 1. 物理设计: * 设计数据库的物理存储,如索引、分区和存储。 1. 创建伪代码:

By Ne0inhk
30.1 金融行业数据库需求

30.1 金融行业数据库需求

30.1 金融行业数据库需求 * 30.1 金融行业数据库需求 金融行业对数据库系统的需求非常特殊,不仅要求高性能、高可靠性,还要求数据的安全性和准确性。本章节将探讨金融行业数据库的核心需求,以及如何设计和实现满足这些需求的数据库解决方案。 30.1.1 交易处理 金融行业的核心需求之一是交易处理,包括但不限于: 1. 实时性: * 交易数据需要实时写入数据库,并实时更新。 1. 数据完整性: * 必须确保交易数据的完整性和一致性。 1. 高并发: * 需要处理高并发的交易请求。 1. 可扩展性: * 系统应能够轻松扩展以应对交易量的增长。 30.1.2 风险管理 风险管理是金融行业的另一个关键需求: 1. 数据聚合: * 需要快速聚合大量数据以评估风险。 1. 预测分析: * 对历史数据进行分析,以预测未来的风险。 1. 合规性报告: * 需要生成符合监管要求的风险管理报告。 30.1.3 欺诈检测

By Ne0inhk
30.2 风险管理和合规性

30.2 风险管理和合规性

30.2 风险管理和合规性 * 30.2 风险管理和合规性 在金融行业中,风险管理和合规性是核心的业务需求。它们对于保护资产、维护客户信任和遵守法律法规至关重要。本章节将探讨如何在数据库层面实现有效的风险管理和合规性策略。 30.2.1 风险管理 风险管理是指识别、评估和控制可能对金融机构造成负面影响的风险的过程。 1. 信用风险: * 分析客户的信用历史和财务状况,以评估贷款或信用产品的风险。 1. 市场风险: * 监控市场价格波动对投资组合的影响,包括汇率、利率和股价变动。 1. 操作风险: * 管理由于内部流程、人员、系统故障或外部事件导致的损失风险。 1. 流动性风险: * 确保金融机构在需要时能够满足财务义务。 30.2.2 合规性 合规性是指确保金融机构的运营和行为符合适用的法律法规和内部政策。 1. 数据保护法规: * 例如欧盟的通用数据保护条例(GDPR)和加州消费者隐私法案(CCPA)。 1. 反洗钱(AML): * 监测和报告可疑交易,以防止洗钱活动。

By Ne0inhk
Excel公式太复杂?我花一晚上用Python做了个格式化工具

Excel公式太复杂?我花一晚上用Python做了个格式化工具

↑↑↑关注后"星标"简说Python 人人都可以简单入门Python、爬虫、数据分析 简说Python推荐作者:小小明来源:凹凸数据 作者简介: 小小明,熟悉python、java、scala,了解go、c/c++。10年左右编码经验,逻辑思维能力良好,做过windows应用程序开发和大数据开发与运维,会大数据、web全栈开发、自动化办公、pandas数据处理,了解区块链开发、机器学习、 VBA、爬虫。 大家好,我是老表~ 之前在交流群跟一些小伙伴有个讨论: 大概就是很多跟数据打交道的人都需要面对过很复杂的excel,嵌套层数特别多,肉眼观看很容易蒙圈。有了这样的需求,小小明就有了解决问题的想法,说干就干于是一个比较牛逼的excel公式格式化的工具出现了。 1、效果体验 先看看效果吧: =IF(C11>100%*C4,IF(C11<

By Ne0inhk