您好、欢迎来到现金彩票网!
当前位置:红黑大战作弊器助手 > 数据库 >

Phoenix会支持SQL及二级索引

发布时间:2019-08-13 19:22 来源:未知 编辑:admin

  这是一个车联网的客户,有100万车,每辆车每10秒上传一次,每次1KB,这样一年就有300T数据,六个月以上是数据低频访问,所以他要做分级存储,把冷数据放到低介质上

  · RDD API具有简单?便,默认支持的特点,但高并发scan大表会影响稳定性;

  我们也不能解决所有的问题,我们只是解决其中大部分的问题。如何找到一个在工程上能够解决大部分问题的方案至关重要,应对办法:

  现如今大量的中小型公司并没有大规模的数据,如果一家公司的数据量超过100T,且能通过数据产生新的价值,基本可以说是大数据公司了 。起初,一个创业公司的基本思路就是首先架构一个或者几个ECS,后面加入MySQL,如果有图片需求还可加入磁盘,该架构的基本能力包括事务、存储、索引和计算力。随着公司的慢慢发展,数据量在不断地增大,其通过MySQL及磁盘基本无法满足需求,只有分布式化。 这个时候MySQL变成了HBase,检索变成了Solr/ES,再ECS提供的计算力变成了Spark。但这也会面临存储量大且存储成本高等问题。

  备份分为全量备份HFile与 增量量备份HLog;恢复分为HLog转化为HFile和BulkLoad加载。阿里云集团迄今为止已经有一万两千多台的HBase,大部分都是主备集群的,在云上由于客户成本的原因,大部分不选择主备,所以需要对数据进行备份。其难点在于备份需要引入计算资源,我们需要引入弹性的计算资源来处理备份的相关计算任务

  以下简单介绍几个客户的案例,目前已经在云上ApsaraDB HBase运行,数据量基本在10T以上:

  我们在内部研究如何通FPGA对Compaction进行加速,这会使得集群运行比较平缓,特别是对计算资源少,存储量大的情况下,可以通过离线的作业处理Compaction。

  · 第三层:分布式安全隔离保障层QOS,如果我们做存储计算分离,就意味着底层的三个集群需要布三套,这样每个集群就会有几十台甚至几百台的节点,此时存储力是由大家来均摊的,这就意味着分布式安全隔离保障层要做好隔离性,引入QOS就意味着会增加延迟,此时会引入一些新的硬件(比如RDMA)去尽可能的减小延迟。

  这是一个大数据控公司,它大约有200T+的数据量,将HBase数据 (在线实时大数据存储)作为主数据库,先用HBase做算法训练,再用HBase SQL出报表,另外做了一套ECS进行实时查以便与客户之间进行数据交换。

  客户还是比较喜欢用SQL的,Phoenix会支持SQL及二级索引,在超过1T的数据量的情况下,对事务的需求就很少(所以我们并没有支持事务);二级索引是通过再新建一张HBase表来实现的。在命中索引的情况下,万亿级别的访问基本在毫秒级别,但由于Phoenix聚合点在一个节点,所以不能做Shuffle类似的事情,同时也就不能处理复杂的计算,所以任何说我是HTAP架构的,如果不能做Shuffle,就基本不能做复杂的计算。

  社交会有大量的推荐,所以SLA要求高达99.99,并采用双集群保障,单集群读写高峰QPS 可以达到1000w+,数据量在30T左右。

  另外一个趋势就是非结构化的数据越来越多,数据结构的模式不仅仅是SQL,时序、时空、graph模式也越来越多,需要一些新的存储结构或新的算法去解决这类问题,也意味着所需要做的工

关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有