什么是元数据 (MetaData)

什么是元数据 (MetaData)

什么是元数据?

元数据(Meta Date),关于数据的数据或者叫做用来描述数据的数据或者叫做信息的信息。
       这些定义都很是抽象,我们可以把元数据简单的理解成,最小的数据单位。元数据可以为数据说明其元素或属性(名称、大小、数据类型、等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。

举几个简单的例子:
       使用过数码相机的同学都应该知道,每张数码照片都会存在一个EXIF信息。它就是一种用来描述数码图片的元数据。根据,这些元数据包括:Image Description(图像描述、来源. 指生成图像的工具 )、Artist(作者)、Make( 生产者)、Model (型号)、….、等等。
       生活中我们填写的《个人信息登记表》,包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等这些就是锁定kent.zhu这个人的元数据。

通常情况下元数据可以分为以下三类:固有性元数据、管理性元数据、描述性元数据
        固有性元数据;与事物构成有关的元数据。
        管理性元数据;与事物处理方式有关的元数据。
        描述性元数据;与事物本质有关的元数据。
        当然,并不是说所数据总能清晰的划分在以上3类中。比如:一张由kent拍摄的大小为20K的JPG格式的印着一只小狗的圣诞卡照片。
      它的固有性元数据包括:20K、JPG;管理性元数据:kent拍摄、圣诞卡;描述性元数据:狗、小狗、圣诞、照片、圣诞节、…
      但是,圣诞卡则可以放在以上任何一个分类中。与事物构成有关(说明这个东东是什么)、与事物处理方式有关(说明这个东东的用途是什么)、与事物本质有关(可以直接用来描述这个东东)。

元数据之于信息架构的意义

元数据是一种很有效的方法,用以确保网站上各种形式的内容确实都能被查找到。比如我们常常为搜索很久之前看到的一张美女图片犯愁,而如果一个图片网站如果信息架构足够好,我们就能凭借我们回忆到的元数据(关于武藤兰的?2000年拍摄的?)清晰的找到。
      元数据之于信息架构就像是房子的砖瓦,它可以根据需要摆放成不同的信息检索系统。元数据是所有组织系统的基础,从搜索到电子商务网站上的导航系统都强烈的依赖于元数据。
       前面提到,元数据实际上是为产品的可查找性(Findability)服务的。而用户在查找信息的时候不会按照机器思维去找(不会输入该照片的ID),而是直接输入关于信息的描述性信息如:“小狗 圣诞卡”。也就意味着在创建关于描述性元数据的时候要尽量的提取出任官关于这个对象所讲述的故事,这些才是人们能记住的和习惯搜索的细节。

我们会发现,机械生成的元数据常常是不靠谱的,如在UCH系统下发布日志的时候系统会自动根据标题进行机械分析生成的一些元数据。
        而充分利用手工元数据(handcrafted metadate)是提高可查找性的一个好方法。最常见的例子就是我们见到的Tag。Tag就是一种用户自创的元数据,其特点是无层次结构、自定义。比如下的手工元数据就为在Flickr上查找提供了更多的方便。

--------------------

元数据的特点

①元数据是关于数据的结构化的数据,它不一定是数字形式的,可来自不同的。

②元数据是与对象相关的数据,此数据使其潜在的用户不必先具备对这些对象的存在和特征的完整认识。

③元数据是对信息包裹(Information Package)的编码的描述。

④元数据包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发现和检索。

⑤元数据不仅对信息对象进行描述,还能够描述资源的使用环境、、、保存和使用等方面的情况。

⑥在信息对象或的生命周期中自然增加元数据。

⑦元数据常规定义中的“数据”是表示事务性质的符号,是进行各种、计算、科学研究、所依据的数值,或是说数字化、公式化、代码化、图表化的信息。

元数据的类型

根据功能可将元数据划分为

管理型元数据、

描述型元数据、

保存型元数据、

技术型元数据、

使用型元数据。

根据和语境可将元数据划分为三组:

第一组为全文索引;

第二组为简单结构化的普通格式,如DC、RFCl807、Template等;

第三组为结构复杂的特殊领域内的格式,如FGDC、GILS、TEI、EAD等。

根据元数据的应用范围,可分为

通用性元数据、

专业性元数据、

Web元数据、

多媒体元数据。

元数据的结构

①内容结构。包括描述性元素、技术性元素、管理性元素、复用性元素。

②句法结构。包括元素的分区分层分段组织结构、元素结构描述方法、DTD描述语言、元数据复用方式、与被描述对象的捆绑方式。

③语义结构。包括元素内容编码规则定义、元素定义、元素语义概念关系、元数据版本管理。

元数据的作用

元数据是描述的重要工具,可以用于网络信息资源管理的各个方面,包括的建立、发布、转换、使用、共享等。元数据在网络信息资源组织方面的作用可以概括为五个方面:描述、、搜寻、评估和选择。

(1)描述作用:根据元数据的定义,它最基本的功能就在于对信息对象的内容和位置进行描述,从而为信息对象的存取与利用奠定必要的基础。

(2)定位作用:由于网络信息资源没有具体的实体存在,因此,明确它的定位至关重要。元数据包含有关网络信息资源位置方面的信息,因而由此便可确定资源的位置之所在,促进了网络环境中信息对象的发现和检索。此外,在信息对象的元数据确定以后,信息对象在或其他集合体中的位置也就确定了,这是定位的另一层含义。

(3)搜寻作用:元数据提供搜寻的基础,在著录的过程中,将信息对象中的重要信息抽出并加以组织,赋予语意,并建立关系,使检索结果更加,从而有利于用户识别资源的,发现其真正的资源。

(4)评估作用:元数据提供有关信息对象的名称、内容、年代、格式、制作者等基本属性,使用户在无需浏览信息对象本身的情况下,就能够对信息对象具备基本了解和认识,参照有关标准即可对其价值进行必要的评估,作为存取利用的参考。

(5)选择作用:根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,用户便能够做出对信息对象取舍的决定,选择适合用户使用的资源。

元数据的各种解决方案

1.网络资源:Dublin Core、IAFA Template、CDF、Web CoIlections。

2.文献资料:MARC(with 856 Field),Dublin Core。

3.人文科学:TEI Header(Text encoding initiative Header)。

4.社会科学数据集:ICPSR SGML Codebook。

5.博物馆与艺术作品:CIMI(Computer Interchange of Museum Information)、CDWA(Categories for the Description of Works of Art)、RLG REACH Element Set、VRA Core。

6.政府信息:GILS(Government Information Locator Service)。

7.地理空间信息:FGDC/CSDGM(Federal Geographic Data Committee/Content Standard for Digital Geospatial Metadata)。

8.数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core NISO/CLIR/RLG Technical Metadata for Images。

9.档案库与资源集合:EAD。

10.技术报告:、ibTeX、EELS、EEVL。

11.连续图像:MPEG-7。

------------------------

科技名词定义  中文名称:    元数据     metadata     用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。

元数据最本质、最抽象的定义为:data about data (关于数据的数据)。它是一种广泛存在的现象,在许多领域有其具体的定义和应用。

定义   元数据被定义为:描述数据及其环境的数据

数据仓库   在 领域中,    元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类 功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。

软件构造  构造领域的定义在软件构造领域,元数据被定义为:在程序中不是被加工的对象,而是通过其值的改变来改变程序的行为的数据。它在运行过程中起着以解释方式控制程序行为的作用。在程序的不同位置配置不同值的元数据,就可以得到与原来等价的程序行为。

图书信息    在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。     一般认为,所谓元数据是关于数据的数据,或关于数据的结构化的数据。从已有的结论看,元数据的含义是逐渐发展的。元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。目前,元数据这一术语实际用于各种类型信息资源的描述记录。     此外,元数据在地理界,生命科学界等领域也有其相应的定义和应用。

元数据   元数据(Meta Data)是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。    元数据是一种二进制信息,用以对存储在 可移植可执行文件 (PE) 文件或存储在内存中的程序进行描述。将您的代码编译为 PE 文件时,便会将元数据插入到该文件的一部分中,而将代码转换为 Microsoft 中间语言 (MSIL) 并将其插入到该文件的另一部分中。在模块或程序集中定义和引用的每个类型和成员都将在元数据中进行说明。当执行代码时, 将元数据加载到内存中,并引用它来发现有关代码的类、成员、继承等信息。    元数据以非特定语言的方式描述在代码中定义的每一类型和成员。元 以下信息:    程序集的说明。    标识(名称、版本、区域性、公钥)。    导出的类型。    该程序集所依赖的其他程序集。    运行所需的安全权限。    类型的说明。    名称、可见性、基类和实现的接口。    成员(方法、字段、属性、事件、嵌套的类型)。    属性。    修饰类型和成员的其他说明性元素。

优点   对于一种更简单的编程模型来说,元数据是关键,该模型不再需要接口定义语言 (IDL) 文件、头文件或任何外部组件引用方法。元数据允许 .NET 语言自动以非特定语言的方式对其自身进行描述,而这是开发人员和用户都无法看见的。另外,通过使用属性,可以对元数据进行扩展。元数据具有以下主要优点:

自描述   公共语言运行库模块和程序集是自描述的。模块的元数据包含与另一个模块进行交互所需的全部信息。元数据自动提供 COM 中 IDL 的功能,允许将一个文件同时用于定义和实现。运行库模块和程序集甚至不需要向 注册。结果,运行库使用的说明始终反映编译文件中的实际代码,从而提高应用程序的 。

设计   元数据提供所有必需的有关已编译代码的信息,以供您从用不同语言编写的 PE 文件中继承类。您可以创建用任何托管语言(任何面向公共语言运行库的语言)编写的任何类的实例,而不用担心显式封送处理或使用自定义的互用代码。

属性   .NET Framework 允许您在编译文件中声明特定种类的元数据(称为属性)。在整个 .NET Framework 中到处都可以发现属性的存在,属性用于更精确地控制运行时您的程序如何工作。另外,您可以通过用户定义的自定义属性向 .NET Framework 文件发出您自己的自定义元数据。有关更多信息,请参见利用属性扩展元数据。

意义

说到元数据的意义,可以从其应用目的来谈的。虽然做数据仓库言必称元数据,必称技术、业务元数据,但其到底用于何处?离开了目标去谈元数据,就发现元数据包含太多的东西,因为他是描述数据的数据嘛。

还是拿关系系统来比喻,这个客户信息当然是有目的的,是要用这些信息进行一些自动的流程处理、去挖掘一些客户潜在的价值、做好客户服务。当然没有必要去维护客户的生命特征信息,诸如、犯罪史等,这些信息跟的目标关系不大。元数据也是如此,你可以将所有数据的结构、大小、什么时间创建、什么时间消亡、被那些人使用等等,这些信息可以延伸得太广,如果不管目标,而试图去建一个非常完美的元数据管理体系,这是一种绝对的"自上而下"做法,必败无疑。

列举

基于应用,可以将元数据分成以下的若干种。    数据结构: 的名称、关系、字段、约束等;    数据部署:数据集的物理位置;   :数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;    质量度量:数据集上可以计算的度量;    度量逻辑关系:数据集度量之间的逻辑运算关系;    ETL过程:过程运行的顺序,并行、串行;    数据集 :一个时间点上,数据在所有数据集上的分布情况;    星型模式元数据:事实表、维度、属性、层次等;    报表语义层:报表 的规则、过滤条件物理名称和业务名称的对应;    数据访问日志:哪些数据何时被何人访问;    质量稽核日志:何时、何度量被稽核,其结果;    数据装载日志:哪些数据何时被何人装载;

标准框架

1、数字图书馆资源组织框架    2. 元数据开发应用框架    2.1 元数据的基本意义 Metadata(元数据)是“关于数据的数据”;    元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;    元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。    离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。    3. 元数据应用环境    3.1 Metadata的应用目的    (1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源, 素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。    (2)著录描述(Cataloging),用于对 进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。    (3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。    (4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。    3.2 Metadata在不同领域的应用 根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现    例如:   :Dublin Core、IAFA Template、CDF、Web Collections    文献资料:MARC(with 856 Field),Dublic Core    人文科学:TEI Header    社会科学数据集:ICPSR SGML Codebook    博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core    政府信息:GILS    地理空间信息:FGDC/CSDGM    数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images    档案库与资源集合:EAD    技术报告:RFC 1807    连续图像:MPEG-7    3.3 Metadata格式的应用程度    不同领域的Metadata处于不同的标准化阶段:    在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;    在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经成为政府信息描述标准,并在世界若干国家得到相当程度的应用,与此类似的还有地理空间信息处理的FGDC/CSDGM;    但在某些领域,由于技术的迅速发展变化,仍然存在多个方案竞争,典型的是数字图像的Metadata,现在提出的许多标准都处于实验和完善的阶段。    3.4 Metadata格式“标准化”程度问题    Metadata开发应用经验表明,很难有一个统一的Metadata格式来满足所有领域的数据描述需要;即使在同一个领域,也可能为了不同目的而需要不同的但可相互转换的Metadata格式。    同时,统一的集中计划式的Metadata格式标准也不适合Internet环境,不利于充分利用市场机制和各方面力量。    但在同一领域,应争取“标准化”,在不同领域,应妥善解决不同格式的互操作问题。    4. 元数据结构    4.1 总体结构定义方式 一个Metadata格式由多层次的结构予以定义:    (1)内容结构(Content Structure),对该Metadata的构成元素及其定义标准进行描述。    (2)句法结构(Syntax Structure),定义Metadata结构以及如何描述这种结构。    (3)语义结构(Semantic Structure),定义Metadata元素的具体描述方法。    4.2 内容结构    内容结构定义Metadata的构成元素,可包括: 描述性元素、技术性元素、管理性元素、结构性元素(例如与编码语言、Namespace、数据单元等的链接)。    这些数据元素很可能依据一定标准来选取,因此元数据内容结构中需要对此进行说明,例如MARC记录所依据的ISBD,EAD所参照的ISAD(G),ICPSR所依据的ICPSR Data Preparation Manual。    4.3 句法结构    句法结构定义格式结构及其描述方式,例如元素的分区分段组织、元素选取使用规则、元素描述方法(例如Dublin Core采用ISO/IEC 11179标准)、元素结构描述方法(例如MARC记录结构、SGML结构、XML结构)、结构语句描述语言(例如EBNF Notation)等。    有时,句法结构需要指出元数据是否与所描述的数据对象捆绑在一起、或作为单独数据存在但以一定形式与数据对象链接,还可能描述与定义标准、DTD结构和Namespace等的链接方式。    4.4 语义结构 语义结构定义元素的具体描述方法,例如 描述元素时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)。    有些元 本身定义了语义结构,而另外一些则由具体采用单位规定语义结构,例如Dublin Core建议日期元素采用ISO 8601、资源类型采用Dublin Core Types、数据格式可采用MIME、识别号采用URL或DOI或ISBN;    又如OhioLink在使用VRA Core时要求主题元素使用A&AT、TGM和TGN,人名元素用ULAN。    5. 元数据编码语言与制作方式    5.1 元数据编码语言    元数据编码语言(Metadata Encoding Languages)指对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言(DDL)。    在元数据发展初期人们常使用自定义的记录语言(例如MARC)或 记录结构(如ROADS等),但随着元数据格式的增多和互操作的要求,人们开始采用一些标准化的DDL来描述元数据,例如SGML和XML,其中以XML最有潜力。    5.2 元数据制作方式    (1)专门编制模块(例如对MARC、GILS、FGDC等)    (2) 时自动编制(例如对Dublin Core等)    (3)数据物理处理时自动编制(例如数字图像扫描时的某些元数据参数)    (4)共享元数据(例如OCLC/CORC、IMESH    6. 元数据互操作性    6.1 元数据互操作性问题    由于不同的领域(甚至同一领域)往往存在多个元数据格式,当在用不同元数据格式描述的资源体系之间进行检索、资源描述和资源利用时,就存在元数据的互操作性问题(Interoperability):    多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化信息资源体系之间的透明检索。    6.2 元数据格式映射    利用特定转换程序对不同元数据元格式进行转换,称为 (Metadata Mapping/Crosswalking)。    目前已有大量的转换程序存在,供若干流行元数据格式之间的转化,例如    Dublin Core与USMARC; Dublin Core与EAD    Dublin Core与GILS; GILS与MARC TEI    Header与MARC FGDC与MARC    也可利用一种中介格式对同一格式框架下的多种元数据格式进行转换,例如UNIverse项目利用GRS格式进行各种MARC格式和其它记录格式的转换。格式映射转换准确、转换效率较高。不过,这种方法在面对多种元数据格式并存的开放式环境中的应用效率明显受到限制。    6.3 标准描述框架    解决元数据互操作性的另一种思路是建立一个标准的 ,用这个框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述框架,就能解读相应的Metadata格式. 实际上,XML和RDF从不同角度起着类似的作用。    XML通过其标准的DTD定义方式,允许所有能够解读XML语句的 用XML_DTD定义的Metadata格式,从而解决对不同格式的释读问题。    RDF定义了由Resources、Properties和Statements等三种对象组成的基本模型,其中Resources和Properties关系类似于E-R模型,而Statements则对该关系进行具体描述。    RDF通过这个抽象的 为定义和使用元数据建立一个框架,元数据元素可看成其描述的资源的属性。    进一步地,RDF定义了标准Schema,规定了声明资源类型、声明相关属性及其语义的机制,以及定义属性与其它资源间关系的方法。另外,RDF还规定了利用XML Namespace方法调用已有定义规范的机制,    6.4 方式    建立包含元数据及其转换机制的数字对象可能从另一个角度解决元数据互操作性问题。    Cornell/FEDORA项目提出由内核(Structural Kernel)和功能传播层(Disseminator Layer)组成的复合数字对象。    内核里,可以容纳以比特流形式存在的文献内容、描述该文献的元数据、以及对这个文献及元数据进行存取控制的有关数据。    功能传播层,主功能传播器(PrimitiveDisseminator)支持有关解构内核数据类型和对内核数据读取的服务功能,还可有内容类型传播器(Content-Type Disseminators),它们可内嵌元数据格式转换机制。    例如,在一个数字对象的内核中存有MARC格式的元数据,在功能传播层装载有请求Dublin Core格式及其转换服务的内容类型传播器。当数字对象使用者要求读取以Dublin Core表示的元数据时,相应的内容类型传播器将通过网络请求存储有Dublin Core及其转换服务程序的数字对象,然后将被请求数字对象中的MARC形式元数据转换为Dublin Core形式,在输出给用户。    7. 几点建议    跟踪元数据发展、积极参与制定 、加快元数据应用、注意国际接轨。    加快研究有效利用元数据进行检索(包括异构系统透明检索)、相关性学习、个性化处理等的机制。    加快研究元数据与数字对象和数字化资源体系有机整合的途径与方法。    推进研究利用元数据进行基于知识的数据组织和 。

管理   初期的元数据管理通常是在事后由相应的元数据管理软件,从已开发完成的应用系统中抽取用户所关注的各类元数据,再由人工补录一些注释和管理用的属性。这种模式称之为基本元数据管理,由于存在元数据获取的不及时,存在为了减少工作量有些属性空缺的风险,存在对应用体验支持力度的不足,实际应用并不普遍。在新一代应用系统(AS2.0) [1] 中,业务功能通常都是由相应的构件,以人机交互的形式,通过在人工业务语境的对话过程中组装实现的。这个过程中,不仅完成了业务应用所需要的应用软件元素,同时也完成了应用软件元素相对应的元数据的采集。这种模式称之为主动元数据管理。以下是元数据管理的主要功能,后2部分属于主动元数据管理的内容。

基本管理   元模型管理。利用可视化的用户体验,实现包括元模型添加、删除、修改、发布等维护功能;并且能让用户直观地了解已有元模型的分类、统计、使用情况、变更追溯,以及每个元模型的生命周期管理等等。    元数据管理。元数据管理实现针对元数据的基本管理功能。如元数据的添加、删除、修改属性等维护功能;元数据之间关系的建立、删除和跟踪等关系维护功能;提供元数据发布流程管理,可以更好地管理和跟踪元数据的整个生命周期;元数据自身质量核查、元数据查询、元数据统计、元数据使用情况分析、元数据变更、元数据版本和生命周期管理等功能。    元数据分析。元数据分析功能主要实现针对元数据的基本分析功能。包括血缘分析(血统分析)、影响分析、实体关联分析、实体影响分析、主机拓扑分析、指标一致性分析等。

捕获   为各类应用软件元素提供元数据支撑,在相应的工具软件以最佳用户体验的人机交互模式,按照严格的逻辑步骤,统一、顺序地定义数据项、定义表单、定义ETL和加工规则、定义物理表、定义多维模型、定义展现和结果数据集等等应用软件元素的同时,元数据捕获功能的元数据采集接口,及时地将相应的元数据收集进入元数据管理平台。替代了基本元数据管理需要在事后抽取元数据的作法,而在应用软件元素生成的同时,就加载并形成了与其相关的各种元数据。

服务   各类应用软件元素产生的元数据进入元数据平台后,元数据管理可通过元数据服务功能,为需要这些元数据的工具软件或构件提供元数据服务。如将前面所述的各种工具软件的定义结果,以相应的标准协议进行打包形成方案(应用脚本),提供给其它应用环境中的物理表建立工具、ETL工具、多维模型建立工具、结果展现工具等底层工具,从而实现应用的重用和共享。同时,元数据服务还可为业务应用功能提供辅助的元数据帮助信息,如业务功能中加工结果和指标的说明、提示,及其血缘分析等,让用户可明确、直观地了解数据的来源、加工过程及加工算法等信息。

概念      元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。 元数据的基本特点主要有:     a)元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要;     b)元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。     元数据体系构建了电子政务的逻辑框架和基本模型,从而决定了电子政务的功能特征、运行模式和系统运行的总体性能。电子政务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。     由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。

Read more

60个“特征工程”计算函数(Python代码)

60个“特征工程”计算函数(Python代码)

转自:coggle数据科学 近期一些朋友询问我关于如何做特征工程的问题,有没有什么适合初学者的有效操作。 特征工程的问题往往需要具体问题具体分析,当然也有一些暴力的策略,可以在竞赛初赛前期可以带来较大提升,而很多竞赛往往依赖这些信息就可以拿到非常好的效果,剩余的则需要结合业务逻辑以及很多其他的技巧,此处我们将平时用得最多的聚合操作罗列在下方。 最近刚好看到一篇文章汇总了非常多的聚合函数,就摘录在下方,供许多初入竞赛的朋友参考。 聚合特征汇总 pandas自带的聚合函数 * 其它重要聚合函数 其它重要聚合函数&分类分别如下。 def median(x):     return np.median(x) def variation_coefficient(x):     mean = np.mean(x)     if mean != 0:         return np.std(x) / mean     else:         return np.nan def variance(x):     return

By Ne0inhk
90w,确实可以封神了!

90w,确实可以封神了!

要说24年一定最热的技术,还得是AIGC! 前段时间阿里旗下的开源项目,登上GitHub热榜! AI大热,如今ChatGPT的优异表现,必然会出现各种细分场景应用的工具软件,和大量岗位项目! 山雨欲来风满楼,强人工智能的出现,所有科技公司已经开始巨量扩招此领域的人才。算法的岗位,近三个月已经增长68%!这件事在HR届也是相当震撼的。 目前各行各业都不景气的市场,人工智能岗位却一直保持常青!甚至同属AI边缘岗都比其他岗薪资高40%! 与此同时,AI算法岗上岸也不简单,竞争激烈,好公司核心岗位不用说,谁都想去。 所以事实就是,想要上岸,门槛也逐渐变高,项目经历、实习经历都很重要,越早明白这个道理就越能提前建立起自己的优势。 但我在b站逛知识区的时候,经常看到有些同学,因为一些客观原因导致无法参加实习,这种情况下,如果你想提升背景,增加项目经历的话,可以试试这个《CV/NLP 算法工程师培养计划》。 目前已经有上千位同学通过该计划拿到offer了,最新一期学员就业薪资最高能拿到78K!年薪94w! 优势就是有BAT大厂讲师带领,手把手带做AI真实企业项目(包含CV、NLP等

By Ne0inhk
再见nohup!试试这个神器,Python Supervisor!

再见nohup!试试这个神器,Python Supervisor!

👇我的小册 45章教程:() ,原价299,限时特价2杯咖啡,满100人涨10元。 作者丨Ais137 https://juejin.cn/post/7354406980784373798 1. 概述 Supervisor 是一个 C/S 架构的进程监控与管理工具,本文主要介绍其基本用法和部分高级特性,用于解决部署持久化进程的稳定性问题。 2. 问题场景 在实际的工作中,往往会有部署持久化进程的需求,比如接口服务进程,又或者是消费者进程等。这类进程通常是作为后台进程持久化运行的。 一般的部署方法是通过 nohup cmd & 命令来部署。但是这种方式有个弊端是在某些情况下无法保证目标进程的稳定性运行,有的时候 nohup 运行的后台任务会因为未知原因中断,从而导致服务或者消费中断,进而影响项目的正常运行。 为了解决上述问题,通过引入 Supervisor 来部署持久化进程,提高系统运行的稳定性。 3. Supervisor 简介 Supervisor is a client/

By Ne0inhk
第一本给程序员看的AI Agent图书上市了!

第一本给程序员看的AI Agent图书上市了!

AI Agent火爆到什么程度? OpenAI创始人奥特曼预测,未来各行各业,每一个人都可以拥有一个AI Agent;比尔·盖茨在2023年层预言:AI Agent将彻底改变人机交互方式,并颠覆整个软件行业;吴恩达教授在AI Ascent 2024演讲中高赞:AI Agent是一个令人兴奋的趋势,所有从事AI开发的人都应该关注。而国内的各科技巨头也纷纷布局AI Agent平台,如:钉钉的AI PaaS、百度智能云千帆大模型平台等等。 Agent 是未来最重要的智能化工具。对于程序员来说,是时候将目光转向大模型的应用开发了,率先抢占AI的下一个风口AI Agent。 小异带来一本新书《大模型应用开发 动手做 AI Agent》,这本书由《GPT图解》的作者黄佳老师创作,从0到1手把手教你做AI Agent。现在下单享受5折特惠! ▼点击下方,即可5折起购书 有这样一本秘籍在手,程序员们这下放心了吧,让我们先来揭开 Agent 的神秘面纱。 AI Agent 面面观

By Ne0inhk