瑞小博的大数据平台技术选型及架构实践

  • 时间:
  • 浏览:0
  • 来源:uu快3苹果版_uu快3单双_套路

当时,阿里云越来越一款独立的BI产品,要素产品中零散的有点儿这类BI报表的功能(如DPC的“数据分析”)也相对较局限,还才能了满足大伙儿儿的需求,还才能了自建。

因此 ,大伙儿儿在业务上构建了维度体系和指标模型,统一业务语言。数据处置架构上,将详单事实表和维度表同步到ODPS后,在ODPS中进行汇聚运算,输出统计事实表到RDS。同时,开发了 DashBoard、即席查询、查询报表 另一另另一个应用,满足大伙儿儿的业务需求。

其间的过程不再赘述,开发的应用如图所示。

现在,阿里云的QuickBI可能发布,能很好的满足BI报表的需求。好的产品,可能会迟到,但越多再缺席。

全都,基于ODPS低廉的存储和高效的运算,2014年9月大伙儿儿将历史数据存储和周期性任务计算切换到ODPS,性能提升的同时成本都是所降低,支撑了当时业务的快速发展。

当然,也都是每次探索都是成功的。你你这人阶段,可能实时计算的需求大伙儿儿研究了Stream SQL(目前已下线),可能BI报表的需求大伙儿儿研究了AnalyticDB,都是太符合大伙儿儿的业务场景,还才能了通过自建或其他方案实现。

附:第二阶段数据处置流程图

目前来说,比较大的感受是机器学习平台的组件化和数据模型化做的很好。在数加发布但是,大伙儿儿也会此人 写其他算法做业务分析,包括统计分析中的各种检验、机器学习中的分类聚类、时间序列分析等。但相对都比较散,输入输出数据模型不统一,组合比较麻烦。数加的组件化设计,能比较好的处置你你这人有哪些的问提。

曾经,最初公司的技术演进roadmap中,确实也确实RDS作为数据派发模块会有瓶颈,但考虑到数据量不大,预计这套数据处置架构能使用一到两年。

而随着业务量陡增,大伙儿儿还才能了提前做出改变。技术方案是:以日志文件系统,要素代替关系型数据库作为数据派发模块。

业务上看,大数据量、低可靠性要求的数据通过日志文件系统派发,小数据量、高可靠性要求的数据依然通过关系型数据库派发。

大伙儿儿使用ODPS的首要原应,因此 可能它低廉的存储和高效的运算。

2015年底,公司业务现在结束了了进入正轨,运营、市场等各方面的数据诉求越多,现有机制和人力现在结束了了捉襟见肘。因此 ,大伙儿儿考虑开发数据仓库和BI报表系统。

DashBoard

大伙儿儿转而考察商业大数据产品,自然也就分析了ODPS。

实事求是的讲,大伙儿儿当时的需求确实很基础,稍微像点样子的大数据产品基本都能满足大伙儿儿的需求。而大伙儿儿选则 ODPS的原应,一方面是可能大伙儿儿的业务数据本身就在阿里云内部,ODPS更方便数据同步,但更重要的还是可能ODPS的价格很便宜。当时,存储冷数据及计算周期性任务的RDS节点另一另另一个月时需1400元,而切换到ODPS后每天存储只时需7块钱,计算仅时需4块钱,比但是便宜了近70%。

另外,切换但是,ODPS的分布式计算使得周期性任务执行的变快,业务表现更好。

附:第一阶段数据处置流程图

公司刚成立时,业务量很小,数据存储和计算都是阿里云RDS中,简单直接。但另一另另一个月后,业务快速发展,RDS存储的费用直线上升,因此 任务计算耗时越来越长,可能影响到业务的发展。

阿里云数据产品目前还处在完善阶段,可能所有需求都才能立即满足。全都,大伙儿儿还时需发挥主观能动性,处置业务有哪些的问提。下面分享大伙儿儿自建数据仓库和BI报表系统的实践。

大伙儿儿总是认为,独立割裂的数据价值是很低的,数据开发框架也是越来越。而阿里云大数据产品这几年一步步的完善,尤其是将另一另另一个个独立的功能点连成了线,产品之间打通助于数据之间打通,吸引大伙儿儿与之同时成长和进步。

数加的发布,是最近一年多的事,大伙儿儿也还在摸索与尝试。

2015年,公司的业务飞速发展,数据量陡增,每天会产生上亿条业务记录。按照但是的数据处置架构,业务数据入RDS再同步到ODPS的做法,即使是高配RDS的IO性能也根本撑不住。因此 另一另另一个高配RDS每月时需4000多块,成本比较高。

彼时,开源大数据存储计算框架Hadoop如火如荼,Spark冉冉兴起,分布式数据库Greenplum也是逐步性性心智成熟期期是什么是什么 期,看起来有全都的选则 ,大伙儿儿也就此做了调研和前期尝试。但实际操作起来就会发现,有有哪些平台在搭建初期的硬件成本、运维成本、时间成本远远超出一家创业公司的承受范围,因此 有有哪些平台并都是公司的主营业务。自建平台的方案被PASS掉。

大伙儿儿希望,在数加时代ODPS能一如既往的稳定,并提供更多的数据产品,帮助大伙儿儿在数据的海洋里继续遨游。

即席查询

瑞小博成立于2014年,是一家专注于“商用WI-FI覆盖”产品研发与运营模式创新的科技公司。

另外,数加的公开数据集也比较不错,测试验证算法很方便。

三年多来,ODPS总是稳定的支持着大伙儿儿的存储和计算,是大伙儿儿的核心基础平台。

有了但是的经验,技术方案选则 后,大伙儿儿越来越考虑立即去搭建fluentd/flume,因此 看看阿里云上有越来越这类的产品,因此 发现了SLS。

SLS以正则匹配近实时(5分钟速率)派发ECS上的日志文件,不仅存储到日志文件中,还提供类Elasticsearch的文本搜索服务,详细满足大伙儿儿的业务诉求。

更为关键的是,SLS与ODPS是详细打通的,不时需业务系统介入,简单配置就都时需将SLS派发的日志数据自动同步到ODPS。另外,当时SLS还是详细免费的(2016年11月现在结束了了SLS不再免费,但可能不使用搜索服务,费用还是比较低廉的)。

最终,通过引入SLS,很好的处置了大伙儿儿数据派发的性能有哪些的问提,因此 还减少了另一另另一个高配的RDS节点,每年节约了近30万的成本,此架构也总是沿用至今。

因此 想喝一杯牛奶,为有哪些一定要建另一另另一个牧场呢?

下面,给大伙儿儿分享大伙儿儿在不同阶段使用MaxCompute(原ODPS)的其他实践,以供参考。

公司创立之初,基于成本、速率等考量,大伙儿儿选则 了阿里云,至今已另一个年头。这3年多里,大伙儿儿使用了覆盖 弹性计算、网络、存储、数据库、大数据、安全、应用服务等多项领域的多款阿里云产品。

独木不成林。可能还才能了大数据存储和后分析处置,数据是割裂的,功能也是残缺的。

所幸,阿里云逐步开放了一套详细的大数据开发框架,以ODPS为核心将另一另另一个个独立的功能点连成了线,也吸引大伙儿儿长期成为阿里云大数据产品的忠实用户。