admin管理员组

文章数量:1550692

元数据标准定义


       Mate data,描述数据的数据或关于数据的结构化数据,描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。

      都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元数据的一种应用,是1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心所联合赞助的研讨会,在邀请52位来自图书管理员、电脑专家,共同制定规格,创建一套描述网络上电子文件之特征。

     元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据

主要作用

     元数据是帮助查找、存取、使用和管理信息资源的信息。

应用范围

       元数据是业界公认的数据管理中的核心要素,做好元数据管理,更容易的对数据进行检索、定位、管理、评估。

       用哲学的思维理解元数据的话,元数据其实解决的是:我是谁,我在哪里,我从哪里来,我要到哪里去的问题。

       元数据是建设数仓的基础,是构建企业数据资源全景视图的基础,清晰的血缘分析、影响分析、差异分析、关联分析、指标一致性分析等,是数据资产管理的重要基础

应用举例

      数据是物料,而元数据是仓库里的物料卡片;
      数据是文件夹,而元数据是夹子的标签;
      数据是书,元数据是图书馆中的图书卡。

Metadata元数据的应用目的

(1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。

(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。

(3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。

(4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。

元数据在不同领域形成的标准

例如:
网络资源:Dublin Core、IAFA Template、CDF、Web Collections
文献资料:MARC(with 856 Field),Dublic Core
人文科学:TEI Header
社会科学数据集:ICPSR SGML Codebook
博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core
政府信息:GILS
地理空间信息:FGDC/CSDGM
数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images
档案库与资源集合:EAD
技术报告:RFC 1807
连续图像:MPEG-7

元数据结构,Metadata格式由多层次的结构予以定义

(1)内容结构(Content Structure),对该Metadata的构成元素及其定义标准进行描述。

             定义Metadata的构成元素,可包括: 描述性元素、技术性元素、管理性元素、结构性元素(例如与编码语言、Namespace、数据单元等的链接)


(2)句法结构(Syntax Structure),定义Metadata结构以及如何描述这种结构。

             定义格式结构及其描述方式,例如元素的分区分段组织、元素选取使用规则、元素描述方法(例如Dublin Core采用ISO/IEC 11179标准)、元素结构描述方法(例如MARC记录结构、SGML结构、XML结构)、结构语句描述语言(例如EBNF Notation)等


(3)语义结构(Semantic Structure),定义Metadata元素的具体描述方法。

             定义元素的具体描述方法,例如 描述元素时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)

元数据编码语言与制作方式

        元数据编码语言(Metadata Encoding Languages)指对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言(DDL)。例如SGML和XML,其中以XML最有潜力

        元数据制作方式

  • (1)专门编制模块(例如对MARC、GILS、FGDC等)
  • (2)数据处理时自动编制(例如对Dublin Core等)
  • (3)数据物理处理时自动编制(例如数字图像扫描时的某些元数据参数)
  • (4)共享元数据(例如OCLC/CORC、IMESH)

元数据互操作性

     利用特定转换程序对不同元数据元格式进行转换,称为元数据映射(Metadata Mapping/Crosswalking)

     已有大量的转换程序存在,供若干流行元数据格式之间的转化,

例如

  • Dublin Core与USMARC; Dublin Core与EAD
  • Dublin Core与GILS; GILS与MARC TEI
  • Header与MARC FGDC与MARC

        解决元数据互操作性的另一种思路是建立一个标准的资源描述框架,用这个框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述框架,就能解读相应的Metadata格式. 实际上,XML和RDF从不同角度起着类似的作用。

本文标签: 定义数据