什么是数据集成?
在企业大数据项目中有80%的工作都和数据集成相关,数据集成是将零散的数据整合在一起,形成一个新的数据集,从而为企业提供全面的数据共享。
企业为什么要进行数据集成?
由于企业各部门之间数据不互通,数据彼此独立、相互封闭,很难使得数据进行融合与共享,导致企业形成“数据孤岛”,企业想要彻底消除数据孤岛,需要集成现有数据,实现数据一体化,充分利用数据资源,为企业提供决策与支持。
您的数据是否遇到以下几种情况
1.缺乏全面的数据梳理,无法准确掌握数据整体状况。
2.数据来源多种多样、含义、口径不一,数据质量低下。
3.零散数据众多,无法进行数据整合。
4.缺乏数据共享有效监管,上下游数据出现不一致情况。
吉佳通达数据集成技术简介
1.实体对齐
实体对齐是判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象,如果找到多个实体表征同一个对象,则需要在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。我们来举个简单的例子,如“王明”一词,在不同来源中指向同一对象,所以在实体对齐的过程中需要将不同来源的实体信息进行对齐融合,以避免“王明”在知识图谱中重复出现或实体的信息不完整。
2.记录链接
记录链接是在数据集中查找跨越不同数据源,它基于在可用数据集中匹配的单个标识符的数量来生成链接。每个源包含若干记录,而记录包含一定数量的列。一般,每个记录对应于一个实体,而列是标识实体的属性,例如名字、地址、年龄和性别。
3.投影、筛选
投影是“选择”列,筛选是“选择”行。
筛选是按条件,投影是指选择一个属性的数据,如有一个患者表包含属性:姓名、年龄、性别,当选择姓名为“王明”的患者,会选择出所有患者姓名为“王明”的患者。
4.数据集
将筛选之后的数据,融合在一起,形成新的数据集。
吉佳通达数据集成基于领域知识图谱集成数据,可保证数据概念模式的科学性,实现多种数据类型的关联,通过对各个数据源的数据交换格式进行一一映射,从而实现数据的流通与共享。
微信咨询
17743467638
邮箱
jijiatongda@163.com