scala实战之SparkSQL应用实例(单表count和groupby多来源表join等)

前面几篇博客说了如何读取mysql数据库中的表到DataFrame中以及如何将结果写入到mysql中 今天这个实例主要实现应用sparksql完成用户日志数据的提取并转换成DataFrame(我们将其定义为表 user)另外我们要从mysql数据库中load一个用户配置表(这里定义为userinfo)我们将这两个表根据imei号进行join获得用户完整的信息数据 具体的环境见http://blog.csdn.net/zfszhangyuan/article/details/52593521 spark用的是1.5.2版本 看代码吧 package spark_sql import java.text.SimpleDateFormat import org.

spark学习之路------spark安装和部署

学习一门语言,或者学习一种应用,都学要把运行环境给搭建起来,这就是基础,可不能绕过啊 一、安装VMWare,步骤略,网上好多啊,而且我用的是vm virtualbox Ubuntu(我用的centos),安装3台,一台Master,另外2台Slave

IntelliJ IDEA开发Spark的Maven项目

基于IntelliJ IDEA开发Spark的Maven项目——<a class="replace_word" href="http://lib.csdn.net/base/scala" style="color:rgb(223,52,52); text-decoration:none; font-weight:bold" t

我的Spark源码核心SparkContext走读全纪录

我的Spark源码核心SparkContext走读全纪录Dirver Program(SparkConf)  package org.apache.spark.SparkConfMaster        package org.apache.spark.deploy.masterSparkContext  package org.apache.spark.SparkContextStage         package org.apache.spark.scheduler.StageTask          package org.apache.spark.scheduler.Task  DAGScheduler  package org.apache.spark.scheduler   TaskScheduler package org.apache.spark.scheduler.TaskSchedulerT

记载我的spark源码阅读火花

记载我的spark源码阅读火花知识点:1、seq:列表<span style="color:rgb(51,51,51);font-family

Spark的transformation 和 action的操作学习笔记

一、spark的transformation 和 action区别Spark有一些基本的transformation 和 action的操作,其中transformation形成各类型的RDD,action不形成RDD,而是对RDD进行累加、合并、保存操作。<span style="font-family:Arial;font-size:14px;line-height:26px;background-color:rgb(255,255,2

Spark学习资料

官网 http://spark.apache.org/docs/1.6.2/index.html 视频 DataBricks出品的Spark入门视频(强推): https://www.edx.org/course/introduction-spark-uc-berkeleyx-cs105x https://www.edx.org/cours

基于Spark分析寻医问药网的问答数据

下面一系列将会基于两个节点的yarn,spark来分析寻医问药网上面的问答数据: 第一次分析(updated in 2016.9.19 by RichardMore): scala val in = sqlContext.jsonFile("hdfs:///user/miaofu/healthcare/2016-05-01/content.txt") warning: there were 1 deprecation warning(s); re-run with -deprecation for details 16/09/19 15:05:17 INFO BlockManagerInfo: Removed broadcast_2_piece0 on master:41990 in memory (size: 1867.0 B, free: 511.5

Spark1.4源码走读笔记之模式匹配

RDD里的模式匹配:def hasNext: Boolean = (thisIter.hasNext, otherIter.hasNext) match {          case (true, true) = true          case (false, false) = false          case _ = throw new SparkException("Can only zip RDDs with " +            "same number of elements