AI - 极客日志 (Page 6)

RAM模型从数据准备到pretrain、finetune与推理全过程详细说明

提示：RAM++模型：环境安装、数据准备与说明、模型推理、模型finetune、模型pretrain等文章目录 * * * * * * 前言随着SAM模型分割一切大火之后，又有RAM模型识别一切，RAM模型由来可有三篇模型构成，TAG2TEXT为首篇将tag引入VL模型中，由tagging、generation、alignment分支构成，随后才是RAM模型，主要借助CLIP模型辅助与annotation处理trick，由tagging、generation分支构成，最后才是RAM++模型，该模型引入semantic concepts到图像tagging训练框架，RAM++模型能够利用图像-标签-文本三者之间的关系，整合image-text alignment 和 image-tagging 到一个统一的交互框架里。作者也将三个模型整合成一套代码，本文将介绍RAM++模型，主要内容包含环境安装、数据准备与说明、模型推理、模型finetune、模型pretrain等内容，并逐过程解读，也帮读者踩完所有坑，只要按照我我步骤将会实现RAM流畅运行。 T

李宏毅机器学习 Bias and Variance

其中PPT下载地址为。文章目录 * * 1. Bias and Variance 这节课主要解决的问题是模型迭代的方向。那我们首先知道现有模型的问题（误差）在哪里，知道了问题所在，然后再针对性的解决问题就OK了。 Where does the error come from?（误差是从哪里来的？） Ans:Bias and Variance（偏差和方差）。引入Bias and Variance可以解决下图中的问题，即复杂的模型能够较好的拟合训练数据（训练数据误差小），但是却无法很好的拟合测试数据（测试数据误差大）。 y ^ = f ^ ( x ) \hat{y} = \hat{f}(x) y^ =f^ (x)，其中 f ^ \hat{f} f^ 表示的是真实的函数，而我们寻找到的最优函数为 f

@classmethod方法介绍

文章目录 * 前言 classmethod是用来指定一个类的方法为类方法，没有此参数指定的类的方法为实例方法,说人话无需类实列化调用类中函数或方法的关键字一、格式必须使用关键字@classmethod且函数第一个参数必须cls(类似self)，如下： class C: @classmethod def f(cls, 参数1, 参数2, ...): ... 二、使用应用我比较粗暴，直接上列子，如下代码： class A(): d = 60 def __init__(self,n): # 构造函数里的属性 self.n=n self.b=self.rand_b() self.c=60 def rand_b(self): import random

Grounding DINO、TAG2TEXT、RAM、RAM++论文解读

提示：Grounding DINO、TAG2TEXT、RAM、RAM++论文解读文章目录 * * * * * * 前言随着SAM模型分割一切大火之后，又有RAM模型识别一切，RAM模型由来可有三篇模型构成，TAG2TEXT为首篇将tag引入VL模型中，由tagging、generation、alignment分支构成，随后才是RAM模型，主要借助CLIP模型辅助与annotation处理trick，由tagging、generation分支构成，最后才是RAM++模型，该模型引入semantic concepts到图像tagging训练框架，RAM++模型能够利用图像-标签-文本三者之间的关系，整合image-text alignment 和 image-tagging 到一个统一的交互框架里。作者也介绍将tag引入Grounding DINO模型，可实现目标定位。为此，本文将介绍这四篇文章。一、Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Obje

AI

文本分类数据和评价指标

1 中文文本分类数据集THUCNews 1.1 数据说明 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测，准确率可以达到88.6%。参考链接为：http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%

AI

CogVLM大模推理代码详细解读

文章目录 * * * * 前言最近，我一直在查看多模态大模型相关内容，而CogVLM是我们公司需要重点研究模型。同时，CogVLM模型很少有文章涉及到代码相关解读，令更多小白困惑。介于此，我会陆续解读源码并分享。本篇文章，我将分享CogVLM推理整个pipeline走向，带大家熟知CogVLM模型推理过程，这里推理过程有别于hugginggface通用推理构建方法，本篇文章主要内容为作者训练好的参数说明、模型构建与推理stream。最终帮助大家熟知模型整个推理pipeline，特别是对sat库使用有一定认识。注：CogVLM代码可读性不那么友好，因很多内容被sat库封装。一、参数介绍官网代码可查看已开源模型有如下： We open-source different checkpoints for different downstreaming tasks: cogvlm-chat-v1.1 The model supports multiple rounds of chat and vqa simultaneously, with diffe

AI

自然语言处理朴素贝叶斯文本分类

1. 朴素贝叶斯朴素贝叶斯被认为是最简单的分类算法之一。首先，我们需要了解一些概率论的基本理论。假设有两个随机变量X和Y，他们分别可以取值为x和y。有这两个随机变量，我们可以定义两种概率：关键概念：联合概率与条件概率联合概率：“X取值为x”和“Y取值为y”两个事件同时发生的概率，表示为 P ( X = x , Y = y ) P(X = x, Y = y) P(X=x,Y=y) 条件概率：在X取值为x的前提下，Y取值为y的概率，表示为 P ( Y = y ∣ X = x ) P(Y = y | X = x) P(Y=y∣X=

大模型

环境安装问题(库、代码等问题)

文章目录 * 前言：该文章会一直更新遇到环境安装问题，使用他/她人博客解决方法，并附解决方法博客链接。二十一、yolov5热力图报错RuntimeError(‘one of the variables needed for gradient computation has been modified by an inplace operation: [torch.cuda.FloatTensor [1, 3, 20, 15, 85]], which is output 0 of SigmoidBackward0, is at version 2; expected version 0 instead. Hint: the backtrace further above

AI

自然语言处理之LDA主题模型

1. LDA基本原理 1.1 PLSA Hoffman 于 1999 年提出的PLSA，Hoffman 认为一篇文档(Document) 可以由多个主题(Topic) 混合而成，而每个Topic 都是词汇上的概率分布，文章中的每个词都是由一个固定的 Topic 生成的。文档和文档之间是独立可交换的，同一个文档内的词也是独立可交换的，这是一个 bag-of-words 模型。存在K个topic-word的分布，我们可以记为 ϕ 1 , … , ϕ K \phi_1,\dots,\phi_K ϕ1 ,…,ϕK ，对于包含M篇文档的语料 C = ( d 1 , d 2 , … , d M ) C=(d_1,d_

python

RTDETR论文快速理解和代码快速实现(训练与预测)

文章目录 * * * * 前言最近，我们想比较基于DETR的transformer模型与基于CNN的yolo模型效果，而百度RT-DETR模型声称“在实时目标检测领域打败YOLO”。从数据的角度来看，RT-DETR似乎确实在某些方面超越了YOLO。我选择RT-DETR模型与YOLO模型比较。本篇文章将介绍RT-DETR模型原理–>环境安装–>数据准备–>训练实现–>预测实现。一、摘要近期，端到端基于transformer检测器DETRs已有显著性能。然而，DETR的计算成本限制其实际应用，也阻止其无后处理的优势(如：NMS)。在这篇论文，我们首次分析NMS对目标检测的速度与精确率影响，并构建了端到端的speed基准。为了解决这些问题，我们提出RT-DETR模型，据我们所知，这是第一个实时端到端检测模型。特别的，我们设计一个高效混合编码器加工多尺度特征与特征交互和融合，并提出IOU感知查询，通过像解码器提供更高初始目标来提示性能。除此之外，我们提出的检测模型，可使用解码层without retraining灵活调整推理速度，这样可适应多样的实时场景。我

python

RTDETR模型一键训练/预测(执行train.sh与detect.sh)

文章目录 * * * 引言本文章基于客户一键训练与测试需求，我使用u公司的yolov8集成的RTDETR模型改成较为保姆级的一键操作的训练/预测方式，也特别适合新手或想偷懒转换数据格式的朋友们。本文一键体现数据格式为图像与xml，调用train.sh与detect.sh可完成模型的训练与预测。而为完成该操作，模型内嵌入xml转RTDETR的txt格式、自动分配训练/验证集、自动切换环境等内容。接下来，我将介绍如何操作，并附修改源码。源码链接：我已上传个人资源，请自行下载！一、配置参数设置该文件是RTDETR数据转换配置和模型使用参数，被我修改满足一键训练与测试文件的配置参数。包含将图像与xml文件数据格式转为模型训练格式数据，只需要提供xml与图像文件夹，可完成数据转换，详情如下： # 设置img与xml的文件路径，也可为同一个文件，按照xml选择img img_path: C:/Users/Administrator/Desktop/rtdetr/example_template/data # xml_path: C:/Users/Admini

coco json转xml格式(开箱即用代码)

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录 * * 前言最近使用很多其它模型，大多模型都有自己对应格式，有时其它模型的cocojson格式的数据测试也都要进行数据格式转换，有时候也想看coco json注释显示在图上。那么，你可能需要一个coco json格式转xml格式代码，帮助查看，且我总是会把这些工具代码莫名丢失，重头写较为麻烦。为克服这些问题，本文将使用coco数据集格式作为标准，记录如何将coco数据格式转为xml格式。一、整体逻辑 1、main函数下载好数据给定json格式路径变量值json_path，指定输出文件路径save_path,然后直接调用cocojson2xml函数，代码如下： if __name__ == '__main__': json_path=r"C:\Users\Administrator\Desktop\Data\coco2017\annotations\train.json" save_

RAM模型从数据准备到pretrain、finetune与推理全过程详细说明

李宏毅机器学习 Bias and Variance

@classmethod方法介绍

Grounding DINO、TAG2TEXT、RAM、RAM++论文解读

文本分类数据和评价指标

CogVLM大模推理代码详细解读

自然语言处理 朴素贝叶斯文本分类

环境安装问题(库、代码等问题)

自然语言处理之LDA主题模型

RTDETR论文快速理解和代码快速实现(训练与预测)

RTDETR模型一键训练/预测(执行train.sh与detect.sh)

coco json转xml格式(开箱即用代码)

自然语言处理朴素贝叶斯文本分类