全文搜索
标题搜索
全部时间
1小时内
1天内
1周内
1个月内
默认排序
按时间排序
为您找到相关结果263,307个

大数据之Spark基础环境_数据库其它_脚本之家

Spark是Apache顶级的开源项目,主要用于处理大规模数据的分析引擎,该引擎的核心数据结构是RDD弹性分布式数据集,这是一种分布式内存抽象,程序员可以使用RDD在大规模集群中做内存运算,并具有一定的容错方式; Spark保留了MapReduce的分布式并行计算的优点,还改进了其较为明显的缺陷,中间数据存储在内存中,大大提高了运行速度,...
www.jb51.net/article/2802...htm 2024-10-9

Spark学习笔记(一)Spark初识【特性、组成、应用】_java_脚本之家

SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。 SparkSQL:Spark Sql 是Spark来操作结构化数据的程序包,可以让我使用SQL语句的方式来查询数据,Spark支持 多种数据源,包含Hive表,parquest以及JSON等内容。 SparkStreaming: 是Spark提供的...
www.jb51.net/article/1803...htm 2024-10-8

SpringBoot使用Spark过程详解_java_脚本之家

String file = "D:\\TEMP\\testcsv.csv"; String code = "gbk"; JavaRDD<String> gbkRDD = javaSparkContext.hadoopFile(file, TextInputFormat.class, LongWritable.class, Text.class).map(p -> new String(p._2.getBytes(), 0, p._2.getLength(), code)); JavaRDD<String> gbkWordsRDD = gbk...
www.jb51.net/article/275367.htm 2024-9-30

Spark中的数据读取保存和累加器实例详解_相关技巧_脚本之家

//1.创建SparkConf并设置App名称 val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[1]") //2.创建SparkContext,该对象是提交Spark App的入口 val sc: SparkContext = new SparkContext(conf) //3.1 读取输入文件 val inputRDD: RDD[String] = sc.textFile("input/...
www.jb51.net/article/266514.htm 2022-11-2

Spark 数据倾斜及其解决方案_主机测评网

1、通过 Spark Web UI 通过Spark Web UI 来查看当前运行的 stage 各个 task 分配的数据量(Shuffle Read Size/Records),从而进一步确定是不是 task 分配的数据不均匀导致了数据倾斜。 知道数据倾斜发生在哪一个 stage 之后,接着我们就需要根据 stage 划分原理,推算出来发生倾斜的那个 stage 对应代码中的哪一部分,...
zhuji.jb51.net/shujuku/26...html 2024-8-21

剖析阿里巴巴的云梯YARN集群技术使用_建站经验_网站运营_脚本之家

基于YARN的Spark作业首先由客户端生成作业信息,提交给ResourceManager,ResourceManager在某一 NodeManager汇报时把AppMaster分配给NodeManager,NodeManager启动 SparkAppMaster,SparkAppMaster启动后初始化作业,然后向ResourceManager申请资源,申请到相应资源后 SparkAppMaster通过RPC让NodeManager启动相应的SparkExecutor,SparkExecutor向 ...
www.jb51.net/yunying/4258...html 2024-10-9

使用Apache Spark进行Java数据分析的步骤详解_java_脚本之家

一、Apache Spark简介 Apache Spark是一个开源的大数据处理框架,它提供了丰富的API来支持各种数据处理任务。Spark的核心组件包括Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图计算库)。在Java中,我们主要使用Spark Core和Spark SQL来进行数据分析。 二、设置环境 要在Java项目中使用Apache Spark,你需要完...
www.jb51.net/program/3251085...htm 2024-10-9

Apache Spark详解(推荐)_Linux_脚本之家

conf.setAppName("My Spark App") conf.set("spark.executor.memory", "4g") # 设置执行器内存为4GB sc = SparkContext(conf=conf) 2.使用spark-defaults.conf文件: Spark提供了一个默认配置文件spark-defaults.conf,你可以在该文件中设置配置参数,这些参数将应用于所有Spark应用程序。
www.jb51.net/server/3242755...htm 2024-10-9

SpringBoot对接Spark过程详解_java_脚本之家

spark-sql:spark 的 sql 库,如:sparkSession janino: Janino 是一个极小、极快的 开源Java 编译器,若不添加,spark 获取 MySQL 或 JSON 数据时会报错 org.springframework.web.util.NestedServletException: Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/codehaus/janino/Internal...
www.jb51.net/article/275362.htm 2024-9-26

大数据Spark Sql中日期转换FROM_UNIXTIME和UNIX_TIMESTAMP的使用...

%x 年,其中的星期一是周的第一天,4 位,与 %v 使用 %Y 年,4 位 %y 年,2 位 到此这篇关于大数据Spark Sql中日期转换FROM_UNIXTIME和UNIX_TIMESTAMP的使用的文章就介绍到这了,更多相关Spark Sql 日期转换内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
www.jb51.net/article/239100.htm 2022-2-28