当前位置:首页 > 公众号精选 > 架构师社区
[导读]导读:大数据架构在金融场景下面临着诸多挑战,从架构上而言,业务对数据加工、存储和使用的全链路服务提出了更细致的管控需求;从使用上而言,用户并不想理解大数据架构的具体实现和管控的细节,用户只想以更低的门槛、更快的方式来使用产品;从管理上而言,公司希望能够对数据加工、处理过程中的相关...

导读:大数据架构在金融场景下面临着诸多挑战,从架构上而言,业务对数据加工、存储和使用的全链路服务提出了更细致的管控需求;从使用上而言,用户并不想理解大数据架构的具体实现和管控的细节,用户只想以更低的门槛、更快的方式来使用产品;从管理上而言,公司希望能够对数据加工、处理过程中的相关经验做到有效传承。

本文主要针对上述问题分享对应的解决方案,分别是:① 基于百度云产品的大数据架构——MMR,管控需求;② 度小满数据湖管理与分析平台——鸿鹄,降门槛;③ 度小满模型训练监控评估体系——易创,经验传承。

01大数据云化架构——MMR度小满大数据云化架构是建立在百度云大数据产品基础之上的,百度云标准的大数据产品解决方案与开源的大数据解决方案类似。首先是通过用户提交任务,进入到计算层,承接计算需求。再到存储层,承接数据的存储需求。为了满足更细致的管控需求,我们对架构进行了一次延展。

我们将架构分为以下几个部分:接入层、表控层、计算层、虚拟存储层、物理存储层。

1. 用户层

在用户层主要实现的是对从用户操作到人的管控。具体实现方式主要是:我们会在用户的大数据的入口进行改造,打通度小满的员工管理系统,大数据服务的用户在登陆作业机时会标注自己的身份,在提交操作和命令时,可以从架构上识别出个人的身份,这样一来,在提交命令或者是操作时是带着个人身份操作,所有任务和用户操作都可以定位到具体的责任人。

2. 表控制管理层

针对表控制管理层,满足了结构化数据部分共享的业务需求,即大数据存储数据是以Hive表为基础,Hive表里可能有一百、几百或上千个字段,不同的字段有不同的密级要求。例如,在100个字段里,只有20个字段是希望共享的,其余80个是不希望共享的,这种情况就需要对表进行字段级的权限控制。基于此,我们将在外层建立有针对性的权限控制中心,用户可以在平台上对表进行字段级别的密级标注以及共享和申请使用的权限设置。通过这种方式,用户提交任务到Hive Server或Spark Server时,服务层会有一段逻辑来校验用户提交的任务或者操作需要字段是否同时拥有该字段的权限,以此来决定是否放行实现字段级别的权限控制。

3. 计算层

在计算层主要是对资源的控制,主要是依赖百度云基础架构的能力。在计算层和存储层,度小满架设了虚拟管理层,虚拟管理层主要解决了非结构化数据的共享需求和隔离需求。一般而言,每个业务的细分方向具有私密性,但每个业务的数据加工团队,都有上游和下游,都会面临数据的部分分享和使用的需求。针对这类情况,我们对目录层面进行权限管控。在目录权限控制的基础上,同时约定使用方访问的IP、IP段可以做到更细微的管控。在保证业务隔离的基础上实现一定程度的数据共享,从而保障所有数据的操作、使用都是可控的,所有的过程都是可审计的。

在此基础上,我们还面临着一个更大的问题——业务是从百度架构过度到当前的百度云开源的数据架构,类似于从闭源的大数据架构到开源的大数据架构。虽然计算逻辑或是计算方式上大致是相同的,但是在很多细节上比如入口设计、使用习惯和功能体验是不一致的。为了解决差异:

  • 首先,要统一用户的使用习惯,把用户所有访问大数据服务使用的工具组装成统一的Client,在统一client对差异进行自动的抹平。用户在由百度架构到百度云架构到迁移的过程的工作主要是修改配置、验证结果,不会涉及到代码层面的修改。

  • 其次,虚拟存储层的建设、实现存储层的兼容,以文件系统的使用方式和使用习惯去访问对象存储,在用户层面看来功能和体验是一致的。

智能调度
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

赛诺贝斯开创性"三位一体"商业模式:领跑MarTech行业的创新引擎

关键字: 数字化 大数据 大模型 生成式AI

随着大数据时代的到来和计算能力的不断提升,机器学习作为人工智能领域的重要分支,正逐渐改变我们的生活方式和工作模式。机器学习涉及多个学科的理论和技术,其应用广泛且深入,为各个领域的发展带来了前所未有的机遇。那么,机器学习具...

关键字: 大数据 机器学习 人工智能

随着大数据时代的来临,数据的价值日益凸显,如何从海量数据中提取有用信息并转化为实际价值,成为各行各业关注的焦点。机器学习和数据挖掘作为两大核心技术,在数据分析和处理中发挥着越来越重要的作用。本文将通过几个典型的应用案例,...

关键字: 大数据 机器学习 数据挖掘

随着互联网的迅猛发展,百度、阿里巴巴、腾讯等互联网巨头逐渐崭露头角,成为了行业的领军者。这些公司在云计算、大数据、人工智能等领域积累了丰富的经验和技术实力,为开发者提供了丰富的服务和工具。在这样的背景下,BAT模块应运而...

关键字: 互联网 云计算 大数据

随着大数据时代的来临,机器学习作为人工智能的核心技术之一,已经深入到各个领域并展现出强大的潜力和价值。机器学习通过对大量数据的分析、学习和预测,为各个行业提供了前所未有的机遇。本文将详细介绍机器学习的常见任务,并探讨这些...

关键字: 机器学习 大数据

人脸识别技术作为一种高效、准确的身份识别方式,近年来得到了广泛的应用和发展。随着人工智能、大数据等技术的不断发展,人脸识别技术的准确度和可靠性得到了显著提高。本文将探讨人脸识别技术的发展现状和未来趋势。

关键字: 人脸识别 人工智能 大数据

人工智能是“十四五”规划明确优先发展的前沿科技领域之一,如何看待未来我国人工智能领域的发展前景?目前,我国机器人基础研究状况如何?

关键字: 人工智能 物联网 大数据

北京——2024年1月23日 行业数字化服务商华讯网络系统有限公司(简称华讯)充分利用亚马逊云科技丰富的数据和安全服务以及解决方案,结合自身在安全领域的技术优势和深厚沉淀,为企业提供涵盖安全事件响应、云原生安全大数据平台...

关键字: 大数据 数据分析 互联网

2023年,重庆云谷·永川大数据产业园通过大力发展科技影视、自动驾驶和服务外包产业,已形成科技影视、自动驾驶、服务外包“三足鼎立”之势,释放出高质量发展强劲动力。

关键字: AI 科技 大数据
关闭
关闭