国内能做元数据管理是什么的公司有那些?

元数据管理是什么是我最爱谈及嘚话题之一因为本人商业智能相关的绝世武功一直都没学好,而绝世武功的目录一直都背的不错而元数据,真的很像绝世武功的目录

不知道谁定义的元数据,和数据仓库商业智能等等长篇大论的定义迥然不同它简直简短得不能再简短:The data about data。好吧我第一次看见这定义時,真心还是不懂谓之玄而又玄。待经过一些学习探索之后发现这定义还是很棒的更准确的或许应该是The information abut data。


如上两个均是Data,单纯看他們我们是无法猜出它们的含义的,但如果:


而这里“名字”和 “生日”分别是用来描述Rainbow和 ,它们使 Rainbow和具有了含义从中我们获得的信息 “一个叫Rainbow的孩子,生日是2011年7月6日””名字“和”生日“就是元数据。

下面这张图很有趣它以关系型数据库为例,解释了三个术语

2. 模型:在图中对应Model,给出了在数据库模型中为了描述上面的 人 的数据,构造了怎样的 元数据 模型:有三个实体分别是Person,Name和Address这Model对应的內容,就是我们今天的课题:元数据

3. 元模型:这个其实是我们今天要讲的重点它是用来装 模型 的框架,因为是关系型数据库因此元模型对应的内容就是 DataModel(数据模型), LogicalEntity(逻辑实体)和Relationship(关系)其实还应该有Attribute(属性),Constraints(约束)等等关系型数据库中的概念

而我们学习元數据,其实应该先去了解不同类型的元数据对应的元模型而元模型作为元数据的框架再去填充元数据的内容。


接着说元数据元数据按照功能主要分为三类:

而对于BI系统而言,这三类元数据横亘整个BI全部生命周期,且在DBETL,Report各个领域均扮演极其重要的角色可以说元数據管理是什么是数据质量,以及信息治理的基础如下经典,请铭记于心:据不会自己管理自己而我们需要通过元数据去管理他们。

廣义来讲所有用于描述业务各种逻辑的信息都可称为Business Metadata。这包括但不仅仅限于如下信息:

术语分类:Taxonomies对于上述的商业术语的逻辑归类,鈳构成Glossary Tree






广义来讲所有在计算机系统中的各类数据的描述均可称为Technology Metadata。以BI系统为例这包括但不仅仅限于如下信息:






Technology各个工具以及平台的情況:

      Oracle,DB2 MSSQLServer等均有自己的数据字典,可以反向生成为数据模型文件数据库的数据字典不会记录如前面描述的详细的元数据信息,因此需要Designer茬做Model的时候整理元数据或以comment的形式保存至Data Model中,或自定义元数据模型将相关信息保存而几大Data Model软件都以文件的方式保存(PD具有一定的Repository功能,泹功能也不够丰富)因此如果我们要做元数据管理是什么,也应该将Model的信息结构化的保存到Metadata Repository中一些Matadata Repository也能够支持数据模型的导入。

将物悝模型翻译成最终使用者容易理解的商业模型屏蔽复杂的关联关系逻辑,增加维度的定义以及维度之间的关系等

接下来:Operational Metadata指的是在DB, ETL,Report等所有过程中如日志、安全、审计、血缘等等信息。通常他们可以用来解答如下问题:

1. Job运行成功了还是失败了有哪些出错或警告信息?

2. 上次Job中哪些数据库表或者文件被读取/修改了?

3. XX Job在最近几次运行中读取多少条记录修改多少条记录,引用多少条记录平均速度如何?

4. XX Job什么时间开始什么时间结束的?

5. Job运行在哪个服务器上

6. 一共多少张报表上个星期发布了?

8. 报表运行成功后发送了多少封邮件给不同用戶

9. XX报表的平均访问频率是多少?什么时间访问的最多

...... Operational Meta种类繁多,在此不一一赘述需结合实际项目应用做详细的规划。

    大公司林林总總的系统上千级别而各个系统均只考虑当下不考虑未来,经年累月之后会发现系统无法理解后面则会带来大量的项目风险,开发成本时间成本,等等多种问题也会造成很多有创意的新的idea没法办法展开。总之后患无穷。

    基于上面的问题系统无法理解,当需要做信息整合时完全无从下手

    系统的知识保存在架构师的头脑中,或者上帝的头脑中当精英人员流失会造成知识无法传递,系统无法更新升級也无法指导未来的信息集成

    元数据质量不高,几乎一定会带来后期的信息质量问题同一含义的字段采用不同的名字,不同含义的字段采用相同名字等等问题会带来大量数据不一致问题。

    元数据以及数据质量问题甚至会影响到企业的发展信息系统为企业提供有力的支撑,如果底层数据存在大量问题很多企业的运行无法正常展开。可以想象如果Amazon如果数据质量不能支持精准的推荐就不会有Amazon的今天。

7. 影响项目开发质量和效率

    几乎要从头分析源系统的结构并且没有可重用的元数据。会造成开发效率低下且开发质量没有办法保证

    没有數据血缘的追溯,当修改一张基表时根本无法获知其下游影响了多少表, ETL Job以及报表。而报表中某一个项目数据出错也很难判断在什么环節数据出了问题。

未来会有下篇如何规划以及实施元数据管理是什么,敬请期待

对BAO胖子原创文章感兴趣的朋友,请关注我的公众号

 |  |  |  |  |  |  | 

COPYRIGHT ? 湖北当图网络科技有限公司

若您发现您的合法权利被侵害请发起知识产权投诉

公司地址:湖北省荆州市公安县斗湖堤镇孱陵大道73号

_Toc \h 10 元数据管理是什么系统概述 1. 现状汾析 随着经营分析系统规模不断扩大系统所积累数据量也越来越大,收集到的海量数据背后隐藏着大量珍贵重要的信息但也同时提高叻系统的数据管理难度:一方面难以对这些数据进行有效解释,缺乏对业务流程执行的实时监控和管理;另一方面各部门数据与数据整合嘚难度也不断加大影响到了经营分析系统中的数据质量。 如何对现有数据进行深层发掘并揭示出埋藏在元数据中的趋势、因果关系、關联模式等核心信息?这是下一步深化经营分析系统应用的电信运营商需要解决的头等大事构建BI,首先要保证的是数据质量元数据管悝是什么解决的问题就是如何把业务系统中的数据分门别类地进行管理,并建立数据与数据之间的关系为数据仓库的数据质量监控提供基础素材。 1.1 目前的困境 使用者(决策层、业务分析人员): 1) 经营分析系统中存在有很多报表不同报表中存在一些

我要回帖

更多关于 元数据管理是什么 的文章

 

随机推荐