炼数成金 大数据分布式系统
订阅

分布式系统

分布式模式将给企业的岗位职责带来哪些变化?
分布式模式将给企业的岗位职责带来哪些变化?
什么是分布式?一个企业两套系统是否可以看作一个分布式部署?一套系统两个数据库、计算和存储分离、一个数据库部署在多个物理机是否可视为分布式部署?这里我们不纠结于场景或者实现形式的差异 , 从本质上看问题。
体彩排列3出号频率表图文了解 Kafka 的副本复制机制
图文了解 Kafka 的副本复制机制
让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性。随着社区添加更多功能,开发者们会回过头来重 ...
分布式架构中数据一致性常见的几个问题
分布式架构中数据一致性常见的几个问题
针对分布式架构下的数据一致性,大家也许会问这样的问题:跨系统间分布式事务如何解决?系统内多个服务的分布式事务如何解决?一个服务内多个数据源/数据库的分布式事务如何解决?……这些问题大家是很容易理解的, ...
让Elasticsearch飞起来!百亿级实时查询优化实战
让Elasticsearch飞起来!百亿级实时查询优化实战
最近的一个项目是风控过程数据实时统计分析和聚合的一个 OLAP 分析监控平台,日流量峰值在 10 到 12 亿上下,每年数据约 4000 亿条,占用空间大概 200T。面对这样一个数据量级的需求,我们的数据如何存储和实现实时 ...
为什么说流处理即未来?
为什么说流处理即未来?
最广为人知的 Flink 使用场景是流分析、连续处理(或者说渐进式处理),这些场景中 Flink 实时或者近实时的处理数据,或者采集之前提到的历史数据并且连续的对这些事件进行计算。晓伟在之前的演讲中提到一个非常好的 ...
体彩排列3出号频率表Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?
自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop 等各种基于 MapReduce 的海量数据处理系统应运而生。从 2004 年 Google 发表 MapReduce 论文开始,经过近 10 年的发展,基于 Hadoop 开源生态或者 ...
Flink 原理与实现:架构和拓扑概览
Flink 原理与实现:架构和拓扑概览
当 Flink 集群启动后,首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager,JobManager 再调度任务到各个 TaskManager 去执行,然后 TaskManager 将心跳和统计信息汇报给 JobMa ...
一致性哈希算法的理解与实践
一致性哈希算法的理解与实践
一致哈希是一种特殊的哈希算法。在使用一致哈希算法后,哈希表槽位数(大小)的改变平均只需要对 K/n个关键字重新映射,其中K是关键字的数量, n是槽位数量。然而在传统的哈希表中,添加或删除一个槽位的几乎需要对 ...
HBase Rowkey 设计指南
HBase Rowkey 设计指南
我们常说看一张 HBase 表设计的好不好,就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么?RowKey 的特点如下:类似于 MySQL、Oracle中的主键,用于标示唯一的行;完全是由用 ...
分布式快照算法: Chandy-Lamport 算法
分布式快照算法: Chandy-Lamport 算法
Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?简单来说就是用来在缺乏 ...
HBase 协处理器入门及实战
HBase 协处理器入门及实战
HBase 和 MapReduce 有很高的集成,我们可以使用 MR 对存储在 HBase 中的数据进行分布式计算。但是在很多情况下,例如简单的加法计算或者聚合操作(求和、计数等),如果能够将这些计算推送到 RegionServer,这将大 ...
这可能是搭建Zookeeper集群介绍最全的文章
这可能是搭建Zookeeper集群介绍最全的文章
怎么搭建单机无安全校验的就不说了,百度一搜一大堆。这里我就说说怎么搭建一个生产环境可用的Zookeeper集群。Docker方式不太建议,要考虑的东西比较多,如果要用Docker方式还是比较建议自建镜像,假如是Docker专家 ...
大数据开发者应该知道的分布式系统 CAP 理论
大数据开发者应该知道的分布式系统 CAP 理论
无论你是一个系统架构师,还是一个普通开发,当你开发或者设计一个分布式系统的时候,CAP理论是无论如何也绕不过去的。本文就来介绍一下到底什么是CAP理论,如何证明CAP理论,以及CAP的权衡问题。CAP理论概述CAP理论 ...
深入理解Flink核心技术
深入理解Flink核心技术
Flink的核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布,数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以方便用户编写分布式任务:1. DataSet API, 对静 ...
Kafka 的七年之痒
Kafka 的七年之痒
Kafka 是 2010 年左右在 LinkedIn 研发的一套流数据处理平台。当时 LinkedIn 也和很多大的互联网公司一样,分很多的组,有很多的产品,每天收集非常多的数据。这些数据都是实时生成的,比如用户活跃度、日志,我们有 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2019-7-18 16:12 , Processed in 0.116947 second(s), 16 queries .

    华东15选5除八走势图 新彩票走势网七星彩走势图 福彩七乐彩双期走势图 体彩排列3出号频率表楚天风采22选5除三走势图 体彩七星彩质合走势图 福彩双色球斜连走势图 浙江体彩20选5双期走势图 体彩超级大乐透走势图 福彩3D走势图 体彩排列3走势图 齐鲁风采23选5走势图 福彩双色球蓝球除五走势图 南粤风采36选7走势图 浙江体彩6 1走势图 体彩排列3走势图 浙江体彩6 1号码分布 楚天风采22选5除三走势图 南粤风采36选7走势图 楚天风采22选5走势图 体彩排列3奇偶走势图