AI - 极客日志 (Page 10)

AI

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities论文解读(大模型评估方法)

提示：MM-Vet是一个大模型评估方法，想深入了解大模型评估可参考此文章文章目录 * * * * * 前言我们提出了MM-Vet，这是一个评估基准，旨在检验大型多模态模型（LMMs）在复杂多模态任务上的表现。最近的LMMs展示了各种有趣的能力，比如解决写在黑板上的数学问题，推理新闻图片中的事件和名人，以及解释视觉笑话。快速的模型进展给评估基准的开发带来了挑战。问题包括：（1）如何系统地构建和评估复杂的多模态任务；（2）如何设计能够适用于不同问题和答案类型的评估指标；以及（3）如何提供超越简单性能排名的模型洞见。为此，我们提出了MM-Vet，其设计基于这样一个见解，即解决复杂任务的有趣能力通常是通过通用模型能够整合不同核心视觉-语言（VL）能力实现的。MM-Vet定义了6种核心VL能力，并检查了从能力组合中衍生出的16种感兴趣的整合方式。对于评估指标，我们提出了一个基于LLM的评估器，用于开放式输出。该评估器使得能够跨不同问题类型和答案风格进行评估，从而产生统一的评分指标。我们在MM-Vet上评估了代表性的LMMs，从而深入了解不同LMM系统范式和模型的

AI

Enhancing DETR’s Variants through Improved Content Query and Similar Query Aggregation论文解读

文章目录 * * * * 前言查询的设计对于DETR及其变体的性能至关重要。每个查询包含两个部分：内容部分和位置部分。传统上，内容查询初始化为零值或可学习embeding，这缺乏必要的内容信息，导致次优性能。在本文中，我们引入了一个新颖的即插即用模块——自适应内容查询（Self-Adaptive Content Query, SACQ），以解决这一局限性。SACQ模块利用transformer编码器的特征，通过自注意力池化生成内容查询。这让候选查询能够适应输入图像，从而形成更全面的内容先验并更好地聚焦于目标对象。然而，这种增强的聚焦性对训练过程构成了挑战，该过程采用匈牙利匹配算法，仅选择单一候选并抑制其他相似候选。为克服这一难题，我们提出了一种查询聚合策略与SACQ协同工作。它合并来自不同查询的相似预测候选，缓解了优化难度。我们在COCO数据集上的广泛实验表明，我们的方法在六种不同的DETR变体及多种配置下均表现出了有效性，平均提升了超过1.0的AP（平均精度）分数。论文下载：https://arxiv.org/pdf/2405.03318 论文链接百度

AI

huggingface的self.state与self.control来源(TrainerState与TrainerControl)

文章目录 * * 前言在 Hugging Face 中，self.state 和 self.control 这两个对象分别来源于 TrainerState 和 TrainerControl，它们提供了对训练过程中状态和控制流的访问和管理。通过这些对象，用户可以在训练过程中监视和调整模型的状态，以及控制一些重要的决策点。一、huggingface的trainer的self.state与self.control初始化调用 trainer函数初始化调用代码如下： # 定义Trainer对象 trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, ) 在Trainer()类的初始化的self.state与self.control初始化调用,其代码如下： class Trainer: def __init__( self, model: Union[PreTrainedModel, nn.

python

huggingface的self._maybe_log_save_evaluate、self.save_model、self._save源码解读(权重等内容保存)

文章目录 * * * * * 前言在 Hugging Face 中，self._maybe_log_save_evaluate是有关权重等内容相关保存函数。本文通过该函数探索huggingface内部源码对权重相关文件保存方法，以供读者了解huggingface保存权重文件原理。一、self.state与self.control初始化请参考huggingface专栏中的huggingface的self.state与self.control来源(TrainerState与TrainerControl)文章。二、self._maybe_log_save_evaluate(tr_loss, model, trial, epoch, ignore_keys_for_eval)源码解读这个函数我们也在有解读，也可以作为补充参考。我这里按照源码流程逐渐解读器内容。 1、_maybe_log_save_evaluate完整源码 def _maybe_log_save_

AI

T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy论文解读

文章目录 * * * * * 前言我们呈现了 T-Rex2，一个高度实用的开放式目标检测模型。先前依赖于文本提示的开放式目标检测方法有效地概括了常见对象的抽象概念，但由于数据稀缺和描述限制，对于罕见或复杂的对象表示而言表现不佳。相反，视觉提示在通过具体的视觉示例描绘新对象方面表现出色，但在传达对象的抽象概念方面不如文本提示那样有效。鉴于文本提示和视觉提示的互补优势和劣势，我们引入了 T-Rex2，通过对比学习将两种提示融合到一个单一模型中。T-Rex2 可以接受多种格式的输入，包括文本提示、视觉提示以及两者的组合，因此可以通过在两种提示模态之间切换来处理不同的场景。全面的实验表明，T-Rex2 在各种场景中展现出了出色的zero-shot目标检测能力。我们展示了文本提示和视觉提示在协同作用中可以互相受益，这对覆盖庞大且复杂的现实场景至关重要，并为通用目标检测铺平了道路。论文地址：https://arxiv.org/pdf/2403.14610 代码地址：https://github.com/IDEA-Research/T-Rex 一、引言 Obj

大模型

第二章：huggingface的TrainingArguments与Trainner参数

文章目录 * * * 前言大模型基本使用huggingface来实现。对于不太理解其内容基本按照官网教程或相关博客等来实现。想进一步激发开源大模型在行业领域提升性能是棘手问题。该问题会涉及开源代码二次开发进行实验测试。基于此，本教程不同文字或理论介绍内容，而从源码解读其训练逻辑、权重保存、高效微调方法(LoRA)、断点续训方法、模型推理权重处理等方法。本教程所有内容完全依托huggingface源码与相关Demo验证来解读，助力大模型使用。本篇文章说明huggingface训练参数TrainingArguments与模型Trainner参数。一、TrainingArguments类参数说明 TrainingArguments是我们huggingfacfe创建Traner类中args的参数，用于控制模型训练等，这个TrainingArguments包含很多参数。我将在本节详细给出。 1、TrainingArguments使用Demo 通过TrainingArguments类给参数，在后期将training_args给到huggingface的Tra

AI

文本分类实战

本次采用的数据集分别是亚马逊商品评论数据（amazon_cells_labelled.txt）、IMDB电影评论数据(imdb_labelled.txt)、Yelp网站点评数据(yelp_labelled.txt)。数据下载地址为： 0. 读取数据 import pandas as pd file_dict = { 'amazon': 'amazon_cells_labelled.txt', 'imdb': 'imdb_labelled.txt', 'yelp':'yelp_labelled.txt' } total_df = pd.

AI

第十章：_inner_training_loop训练模型的内循环内容(step)

文章目录 * * * * * * 前言大模型基本使用huggingface来实现。对于不太理解其内容基本按照官网教程或相关博客等来实现。想进一步激发开源大模型在行业领域提升性能是棘手问题。该问题会涉及开源代码二次开发进行实验测试。基于此，本教程不同文字或理论介绍内容，而从源码解读其训练逻辑、权重保存、高效微调方法(LoRA)、断点续训方法、模型推理权重处理等方法。本教程所有内容完全依托huggingface源码与相关Demo验证来解读，助力大模型使用。本篇文章基于基于上一章_inner_training_loop源码与流程，本章继续展开 _inner_training_loop源码的step内循环模块内容的源码与流程解读。一、完整源码呈现到这里，我们开始解读外循环内部的内循环模块。该部分给出内循环step训练相关参数来源与完整step训练源码框架。该部分内容依然是_inner_training_loop函数外循环模块的内循环内容。 1、内循环模型训练参数 step：每个epoch赋值为-1，只要进入step迭代就会增加，-1时候需要

AI

docker重要操作与直连方法

文章目录 * * * * * * 前言 docker容器相关操作，包含镜像、容器、删除，特别是容器如何直接连接方法，可类似物理机使用。一、nvidia-docker安装方法 1、nvidia-docker安装复制粘贴即可： distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.

AI

An overview of gradient descent optimization algorithms 论文阅读

文章目录 * * * 0. 写在前面的话学习论文，首先要构建一个知识架构，即大体分为哪几部分。然后再关注Abstraction、Introduction、Conclusion，接着看非数学的部分，最后再去看相关的数学公式。简单总结一下，先构建知识网络，再构建每一部分的具体细节。本篇文章的主体架构为： 1. Abstraction 2. Introduction 3. Variants 4. Challenges 5. Most common algorithms 6. Parallel and distributed SGD 7. Other optimizing stategy 8. Conclusion 1. 摘要梯度下降优化算法越来越受到大家的欢迎，但却经常被用作黑盒算法去使用，所以很难得到不同算法的优劣之处。本篇文章的目的是给读者提供不同算法的直观解释（直觉），从而读者能够根据自己需要去使用。在本篇论文中，我们将会学习到梯度下降的不同变种、遇到的困难、最常用的优化算法，

AI

在Keras模型中使用预训练的词向量

注：训练词向量的时候很可能需要设置VOCAB_MIN_COUNT=1，否则在数据集可能出现不在词典中的情况。 pad_sequences的操作数据为list of list。而CountVectorizer的操作数据为list of str。 0. 数据预处理 0.1 添加新数据 file_handle = open('new_data.txt', 'r') new_data = [] api_list = pd.read_pickle(r'api_list.pkl') api_list = [i.lower() for i in api_

算法

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks论文解读

文章目录 * * * * * * * * * 前言 We introduce Florence-2, a novel vision foundation model with a unified, prompt-based representation for a variety of computer vision and vision-language tasks. While existing large vision models excel in transfer learning, they struggle to perform a diversity of tasks with simple instructions, a capability that implies handling the