北京建模软件技术的发展和应用

发表时间:2023-03-26 19:06
编纂导语:当你需要从头最早设计数据仓库时,你会选择哪一种建模编制或许,你会从三范式建模和维度建模二者被选择。可是这二者有其各自的合用规模,具体选择哪一种编制,还需要回归至营业层。本篇文章里,对Inmon 编制和Kimball 编制做了对比分化,一路来看一下。、两种建模编制的布景在若何构建数据仓库方面,这两种截然不合的思惟门户:Inmon 编制和 Kimball 编制。他们的关头分辩在于数据结构若何建模、和存储在数据仓库中。这类分歧会影响数据仓库的交付时刻和顺应 ETL 设计未来改变的能力。当数据架构师被要求从头最早设计和实现数据仓库时,他或她应被选择哪一种架构气焰来构建数据仓库若何辅佐架构师在 Inmon 或 Kimball 架构之间做出选择Inmon的三范式建模经常被和Kimball 是维度数据经常会被拿来对比,两位除夜神也一贯在秉承着自己的数据建模不美观不美观概念。两位除夜神有过很是有趣的不美观不美观概念是, Kimball 曾说过: “数据仓库只不外是所罕有据集市的连络体”,对此 Inmon 的回应是:“你可以捕捉海洋中的所有小鱼并将它们聚在在一路——可是它们仍然不能成为鲸鱼”。在典型的数据仓库中,我们从一组 OLTP 数据源最早(OLTP的声名可见《秒懂数仓的前生今生:DBMS、DW、OLTP、OLAP事实是啥(上篇)》)。这些可所以Excel 表格、ERP 系统、文件或根底上任何其他数据源。数据存储在方针气象后,操作 ETL 工具对数据进行措置和转换,然后将其馈入数据仓库。Inmon 认为数据理当在 ETL 过程往后直接送入数据仓库。Kimball 则坚持认为,在 ETL 过程往后,数据理当被到数据集市中,所有这些数据集市的连络建树一个概念性的数据仓库。、两种建模编制的界说从界说上来讲,Inmon 构建数据仓库的编制始于企业级此外数据模子。该模子必定了关头主题规模,最关头的是构建营业运营和关心的关头实体,如客户、产物、供给商等。首先,从这个模子中,为每个首要实体建树了一个具体的逻辑模子。例如,将客户构建一个逻辑模子,其中包含与该实体相关的所有具体信息。其次,客户下可能有十个不合的实体。实体之间的对应关系是若何成立的,在这一法度楷模中有良多的闪现。搜罗营业键、属性、依托关系、介入和关系在内的所有细节都将在具体的逻辑模子中捕捉。这里的关头点是实体结构是以规范化形式构建的。尽可能避免数据冗余。这导致营业概念的清楚识别并避免数据更新异常。,是构建物理模子。数据仓库的物理实现也被规范化。这就是 Inmon 所说的“数据仓库”,这里是治理企业真实数据的处所。这类规范化模子使得数据不那么复杂,可是操作这类结构进行查询很坚苦,因为它触及良多表和毗连。是以,Inmon 构建特定于部门的数据集市。数据集市将专门为财政、发卖等设计,数据集市可以包含非规范化数据以辅佐陈述。任何进入数据仓库的数据都是集成的,数据仓库是不合数据集市的独一数据源。这可确保数据的完全性和一致性在全数组织中连结完全。(具体内容可参考《数仓界的除夜神之Inmon数据仓库培育汲引(范式建模)》)接着,我们来看下Kimball。从界说上来看,Kmiball是维度建模的拥戴者,供给一种编制去成立数仓,“对数据的查询和分化供给一种加倍了了的数据结构”。再经由数据措置ETL后,就最前进前辈行焦点建模,维度建模中最的有两项。事实表的培育汲引:经常也被成为怀抱,事实是可以闪现营业流程中真实默示的数据。例如:对发卖营业流程,最焦点的闪现是季度发卖金额;对招聘流程,最焦点的闪现是招聘人数;对手艺团队,最焦点的闪现是斥地了若干良多若干好多功能。维度表的培育汲引:维度是经常被巨匠说道的一个词,其实维度的是一个视角,是从不合的角度去不美观不美观不雅察看和分化事实的一个体例。谁在那干啥例如:以发卖流程为例,需要分化的维度有:谁买了商品——客户名称,在哪买了商品——售卖,买了啥商品——商品名称 。、两个模子的多视角对比、两个模子的合用规模每种编制都有各自的特点,而且汇合用于不合的气象中。具体选择哪一种数据仓库设计编制取决于组织的营业方针、营业特点、时刻、成本、不合组织单元之间的彼此依托级别。Inmon 三范式建模的编制合适持久不变的营业,所谓“持久不变”是指:“时刻方面,营业整体的数据培育汲引可以经得起长时刻的打磨;成本方面,因为inmon建模需要专家团队的撑持,所以需要能领受较多的支出。”Kimball维度建模的编制加倍合适快速激进的营业,所谓“快速基金”是指:“时刻方面,营业处于快速扩年夜体快速看到下场;成本方面,没有较多较为专业的团队来撑持相关培育汲引。”我们可以拿两个例子来注释声名一下。营销:这是一个专业规模,我们不需要为了分化的方针考虑营销的每个方面。是以,我们不需要企业仓库——几个数据集市就足够了——也就是 Kimball 编制。保险:为了遵循未来的猜想治理风险,我们需要对所有投保人组成一个普遍的图景,由一系列数据组成,如盈利能力、历史、人丁统计等。所有这些方面都是彼此关系的,是以 Inmon 编制从仓库中的所罕有据最早,并遵循需要对其进行过滤是二者中最合适的。市场:这是一个小的分支,而且营业场景较为简单,无需进行企业级数仓培育汲引,只需要数据集市就够了。是以,Kimball的编制斗劲合适。银行:银行类的营业对银行产物和客户信息都长短常,出格是二者的交叉分化,哪些人买了啥银行产物。这些数据会有相关的限制,例如:产物和客户的信息不成给市场和财政部门公开,部门与部门之间的数据会有限制,这类气象下只能采纳Kimball的编制;假定银行中的全数流程和部门彼此关系,这类气象下操作Inmon会更好一些制造业:会触及到多个组织单元,且预算斗劲充盈。这类气象没有系统依托,是以需要企业模子,这时辰仍是Inmon的编制斗劲理想。在设计数据仓库时,首先要先看看营业方针——短时辰方针和持久方针。看看功能之间哪里有,甚么是自力的。分化数据源的数目和质量。,评估你的成本级别、时刻和经费。这能辅佐你剖断用Inmon编制仍是用Kimball编制,或是两种编制的组合。本文由 数据产物高远 原创发布于人人都是产物司理,未经许可,避免转载题图来自 Unsplash,基于CC和谈


分享到: