大数据技能图谱,各项流行的技术

大数据处理框架 Spark     - RDD     - Spark SQL     - Spark Streaming     - MLLib Hadoop     - HDFS (分布式文件系统)     - Mapreduce(计算框架)     - Yarn(资源管理平台)     - Pig(piglatin 语句到 mapreduce 的映射)     - Hive(数据仓库,提供 SQL)     - Mahout(机器学习算法的 mapreduce 实现库) Kafka Kafka简介 分布式消息队

Elasticsearch 2.2.0 插件篇:插件清单

在Elasticsearch中非常多的插件,这些插件主要分成以下几类:API插件,报警插件,分析插件,发现插件,管理和站点插件,映射器插件,脚本插件,安全插件,快照/恢复插件,传输插件。有很多新版本都不支持,本文介绍的插件基本都可以在新版本上使用。

实时计算架构简介

公司的实时计算分享,笔记记录一下

性能测试艺术

目录[-] 为什么要进行性能测试? 最终用户眼中的性能 性能度量  性能标准  糟糕的性能:为何如此普遍?      <a href="#

Storm简介

Storm简介 Storm基本概念 • Storm使用场景 • Storm分组机制 实现一个实时计算系统  低延迟。都说了是实时计算系统了,延迟是一定要低的。  高性能。性能不高就是浪费机器,浪费机器是要受批评的哦。  分布式。系统都是为应用场景而生的,如果你的应用场景、你的数据和计算单机就能搞定,那么不用考虑这些复杂的问题了。我们所说的是单机搞不定的情况。  可扩展。伴随着业务的发展,我们的数据量、计算量可能会越来越大,所以希望这个系统是可扩展的。  容错。这是分布式系统中通用问题。一个节点挂了不能影响我的应用。 实现一个实时计算系统 容易在上面开发应用程序。亲,你设计的系统需要应用程序开发人员考虑各个处理组件的分布、消息的传递吗?如果是,那有点麻烦啊,开发人员可能会用不好,也不会想去用。  消息不丢失。用户发布的一个宝贝消息不能在实时处理的时候给丢了,对吧?更严格

使用Docker构建持续集成与自动部署的Docker集群

让我们来使用Docker来构建我们的持续集成系统 自动部署集群管理 集中式日志管理和主机监控系统本文结合作者的实践 介绍了构建的整个步骤和遇到的问题

Elasticsearch Api

ElasticSearch 是开源搜索平台领域的一个新成员。 ElasticSearch(简称 ES) 是一个基于 Lucene 构建的开源,分布式,RESTful 搜索引擎。 设计用于云计算中,能够达到搜索实时、稳定、可靠和快速,并且安装使用方便。 支持通过 HTTP 请求,使用 JSON 进行数据索引。

使用开源软件快速搭建数据分析平台

本文介绍了如何使用开源软件迅速的搭建一个数据分析平台,包含数据导入,变形,分析,预测,可视化。

java如何用70行代码实现深度神经网络算法

大部分机器学习资料很少告诉你该算法的计算过程和程序落地是怎么样的,本文是70行java代码实现的反向多层(BP)神经网络算法,也就是深度学习。

cuda之两个数求和运算

本博文主要介绍了使用cuda进行两个数相加的程序以及内存管理。