RDD编程初级实践

1 篇文章 0 订阅
订阅专栏

1.pyspark交互式编程

请到教材官网的“下载专区”的“数据集”中下载chapter4-data1.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,DataBase,90

Jim,Algorithm,60

Jim,DataStructure,80

……

请根据给定的实验数据,在pyspark中通过编程来计算以下内容:

(1)该系总共有多少学生;

(2)该系共开设了多少门课程;

(3)Tom同学的总成绩平均分是多少;

(4)求每名同学的选修的课程门数;

(5)该系DataBase课程共有多少人选修;

(6)各门课程的平均分是多少;

(7)使用累加器计算共有多少人选了DataBase这门课。

2.编写独立应用程序实现数据去重

对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。

输入文件A的样例如下:

20170101    x

20170102    y

20170103    x

20170104    y

20170105    z

20170106    z

输入文件B的样例如下:

20170101    y

20170102    y

20170103    x

20170104    z

20170105    y

根据输入的文件A和B合并得到的输出文件C的样例如下:

20170101    x

20170101    y

20170102    y

20170103    x

20170104    y

20170104    z

20170105    y

20170105    z

20170106    z

3.编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。下面是输入文件和输出文件的一个样例,供参考。

Algorithm成绩:

小明 92

小红 87

小新 82

小丽 90

Database成绩:

小明 95

小红 81

小新 89

小丽 85

Python成绩:

小明 82

小红 83

小新 94

小丽 91

平均成绩如下:

    (小红,83.67)

    (小新,88.33)

    (小明,89.67)

    (小丽,88.67)

 

  • 实验结果与分析
  1. pyspark交互式编程

0.先启动pyspark

7ccccb13729746cfae60f05845fff136.png

 

(1)该系总共有多少学生;

73e25fdde776455783f0e07c403e1a4c.png

 

总共265名学生

 

(2)该系共开设了多少门课程;

 

取出第二列课程数据,进行去重操作

3e5192958fd344969511dae3ce4961e9.png

 

(3)Tom同学的总成绩平均分是多少;

先取出tom同学的成绩

88c092cd64684466b4a2706c2f27b874.png

再取出成绩列,统计课程数量,再对分数用reduce函数求和,最后求出平均分。

7d2ae7e8cc6b469aaaca7d2445f5b7df.png

(4)求每名同学的选修的课程门数;

取出每位同学的名字并且通过map函数形成键值对形式,键为名字,值为1.

再用reducebykey函数应用于键值对数据,得到聚合的结果。

 

 

 

(5)该系DataBase课程共有多少人选修;

直接用filter函数将数据库课程过滤出

42b22201414643319cb0294a3971aef8.png

 

 

(6)各门课程的平均分是多少;

为每门课程的分数后面新增一列1,表示1个学生选择了该课程。

格式如('ComputerNetwork', (44, 1))

再按课程名聚合课程总分和选课人数。格式如('ComputerNetwork', (7370, 142))

最后:课程总分/选课人数 = 平均分,并利用round(x,2)保留两位小数

48690f3d970e4454b6b1d8adbfa9d61d.png

 

2.编写独立应用程序实现数据去重

实现两个文件合并并且去重:

在mycode/data目录下创建两个txt文件

bea2cb32365f4416ab4eeaeb8afa4dce.png

 

在当前目录下创建py文件,填写如下内容实现两个文件的合并去重

cf575a8f1a3a44e493d9886680948396.png

 

在当前目录下运行

11f7eb44445b4e53ac43333c7706b093.png

 

结果如下:

6e3fbc31790b4734b10ca1b042368112.png

 

 

3.编写独立应用程序实现求平均值问题

多个文件合并实现求平均值:

在data目录下创建三个成绩的文件

065a8c65e1e241c7a9ccb40ec61d0d3d.png

 

在data目录下创建mean.py文件,并添加如下代码:

c77972ca4e0142f7a10767e47a1c8066.png

 

 

运行

6ae8867f55014c498344ded89bc510ed.png

 

成功

81128aa9da0d4a88a84af324bb41ea78.png

 

 

实验1 Spark编程实验
qq_45875597的博客
05-12 1111
1.pyspark编程 根据提供文件chapter4-data1.txt,该数据集包含某系成绩数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,DataStructure,80 …… 根据给定的实验数据,在pyspark中通过编程来计算以下内容: (1)该总共有多少学生;
Spark编程基础(二)
Python_Apple的博客
04-05 5258
Spark编程基础(Python版) RDD编程初级实践 一、实验目的 (1)熟悉SparkRDD基本操作及键值对操作; (2)熟悉使用RDD编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu18.4 Spark版本:2.4.0 Python版本:3.7.0 三、实验内容和要求 1.pyspark交互式编程 下载chapter4-data1.txt,该数据集包含了某大学计算机系的成绩数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataSt
RDD编程初级实践(基于python)
Baiyu9527的博客
06-07 682
RDD编程初级实践(基于python)1.需求描述1.1pyspark交互式编程1.2编写独立应用程序实现数据去重1.3编写独立应用程序实现求平均值问题2.环境介绍3.实验及数据来源分析3.1pyspark交互式编程3.2编写独立应用程序实现数据去重3.3编写独立应用程序实现求平均值问题4.实验步骤4.1pyspark交互式编程4.2编写独立应用程序实现数据去重4.3编写独立应用程序实现求平均值问题 1.需求描述 (1)熟悉SparkRDD基本操作及键值对操作; (2)熟悉使用RDD编程解决实际具体问题的
RDD编程初级实践数据集
06-05
本教程将通过“RDD编程初级实践数据集”来深入理解RDD及其操作。 1. **RDD的基本概念** - **定义**:RDDSpark中的基本数据结构,表示一个只读、分区的数据集。 - **特点**:分布式、不可变、分区、容错。 2. *...
RDD编程初级实践数据集.rar
06-08
实践数据集"RDD编程初级实践数据集.rar"旨在帮助初学者掌握RDD的基本操作以及如何在实际问题中运用RDD的键值对操作。 首先,RDDSpark对数据的一种分布式内存抽象,它可以看作是不可变、分区的记录集合。RDD的...
spark Core中RDD数值型算子
派大星的博客
08-23 375
转换算子和行动算子
SparkRDD算子使用IDEA-Scala操作练习:根据磁盘文件数据集data01.txt,该数据集包含了某大学计算机系的成绩,计算下列问题。
每天八杯水的博客
12-19 4334
SparkRDD算子使用IDEA-Scala操作练习:根据磁盘文件数据集data01.txt,该数据集包含了某大学计算机系的成绩,计算下列问题。 (1)该系总共有多少学生; (2)该系共开设来多少门课程; (3)Tom同学的总成绩平均分是多少; (4)求每名同学的选修的课程门数; (5)该系DataBase课程共有多少人选修; (6)各门课程的平均分是多少; (7)使用累加器计算共有多少人选了DataBase这门课。
大数据技术——RDD编程初级实践
weixin_44428549的博客
06-19 1892
RDD编程初级实践1、 需求描述2、 环境介绍3、 数据来源描述4、 数据上传及上传结果查看5、 数据处理过程描述1.pyspark交互式编程2.编写独立应用程序实现数据去重3.编写独立应用程序实现求平均值问题6、 经验总结 1、 需求描述 在当今社会,随着大数据的快速发展情况下,大数据已经完全融入到我们的生活中。为了适应各种信息化技术的快速发展,我作为计算机专业的学生,学习大数据这项技术是必不可少的。这次的实验是RDD编程初级实践,我们需要熟悉SparkRDD基本操作和键值对操作同时还要熟悉使用RDD
RDD编程初级实践(期末大作业)
weixin_45730377的博客
06-05 3167
文章目录1.pyspark交互式编程(1)该系总共有多少学生;(2)该系共开设了多少门课程;(3)Tom同学的总成绩平均分是多少;(4)求每名同学的选修的课程门数;(5)该系DataBase课程共有多少人选修;(6)各门课程的平均分是多少;(7)使用累加器计算共有多少人选了DataBase这门课。2.编写独立应用程序实现数据去重1.环境准备2.假设当前目录为/usr/local/spark/mycode/remdup,在当前目录下新建一个remdup.py文件,复制下面代码;3.在目录/usr/local/
Pyspark交互式编程
zbb50351772的博客
05-09 4170
大数据学习笔记02 Pyspark交互式编程 有该数据集Data01.txt数据集包含了某大学计算机系的成绩数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Jim,DataBase,90 Jim,Algorithm,60...... 根据给定的数据集,在pyspark中通过编程来完成以下内容: 该系总共有多少学生; (提前启动好pyspark) lines = sc.textFile("file:///usr/local/spark/sparksqld
2021-06-10
Sunshine_PUBG的博客
06-10 1754
1、需求描述 在如今的技术水平上,大数据处理技术对于日常生活是非常重要的。此次实验目的是为了让我们更加熟悉SparkRDD基本操作及键值对操作;熟悉使用RDD编程解决实际具体问题的方法。为此设定以下需求: 1.pyspark交互式编程 提供分析数据data.txt,该数据集包含了某大学计算机系的成绩数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,Dat
spark scala dataframe 保留2位小数
q954103的博客
06-24 7584
df = df.selectExpr("round(money,2) as money" ,"created_ts","updated_ts"); df = df.selectExpr("cast(money as decimal(20,2)) as money" ,"created_ts","updated_ts");
PySpark空间计算学习总结—(6)PySpark实战例一处理7500w人口大数据
Ocean111best的博客
03-31 768
一、前沿说明 需求:目前手上有 7500w 条全国人口数据(点数据,有四个字段,分别是时间、经度、维度、标记),csv 格式。现在要找到哪些数据在广东省内。 分析:可以将人口数据与广东省行政区进行求交集,即点数据和面数据求交集,则可以得出在广东省境内的人口数据。 方法:这里用 GDAL 中的 ogr 求交集方法。首先读取广东省行政区划数据(广东省行政区划数据为 shp 格式,是一个面数据),构造成...
rdd编程初级实践实验建议
最新发布
05-12
以下是一个RDD编程初级实践实验建议: 1. 数据集准备:选择一个你熟悉的数据集,如电影评分数据集,将其存储为文本文件,每行表示一个数据记录。 2. RDD创建:使用SparkContext对象创建一个RDD,读取数据集文件...
写文章

热门文章

  • 数据分析第五章课后实训--应用Matplotlib、seaborn、pyecharts库可视化分析(答案到任务三) 13748
  • 基于Python的疫情数据可视化(matplotlib,pyecharts动态地图,大屏可视化) 6721
  • python数据分析与应用:第六章课后实训--应用sklearn分析竞标数据(全) 5712
  • 基于spark对美国新冠肺炎疫情数据分析 3264
  • python数据分析与应用:使用scikit-learn构建模型分析 第六章实训(1,2) 3231

分类专栏

  • rdd 1篇

最新评论

  • spark法律服务大数据智能推荐(自己动手做的,完整过程+源码)

    2301_76196949: 这个是用spark-shell做的吗,还是什么

  • 基于spark法律服务大数据智能推荐

    m0_52555571: 你好博主 实现以上的项目 需要搭建哪些环境呀

  • 数据分析第五章课后实训--应用Matplotlib、seaborn、pyecharts库可视化分析(答案到任务三)

    2301_77525386: 请问找到任务四代码了吗求

  • 数据分析第五章课后实训--应用Matplotlib、seaborn、pyecharts库可视化分析(答案到任务三)

    2301_78872865: 找到了吗,我想要4的代码

最新文章

  • 基于大数据的电商产品评论数据分析与可视化--Python
  • 客户购买行为预测--Python数据分析
  • 面向计算机类岗位人才需求分析研究 --基于前程无忧招聘网站的数据经验证据
2024年3篇
2023年27篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家果洛玻璃钢雕塑造型广东玻璃钢装饰雕塑厂家宜宾玻璃钢广场雕塑厂家特色玻璃钢雕塑生产厂家马玻璃钢雕塑视频白城玻璃钢商场美陈高邮玻璃钢南瓜屋雕塑宁波商场主题创意商业美陈北京玻璃钢仿铜雕塑太湖石玻璃钢雕塑公司上海商场美陈研发商场母亲节美陈点江西公园玻璃钢雕塑图片合肥梅州玻璃钢卡通雕塑定制邵阳玻璃钢动物雕塑嘉兴玻璃钢卡通雕塑价格范围包头学校玻璃钢雕塑制作自贡创意成都商场美陈广东走廊商场美陈厂家直销工业玻璃钢雕塑摆件厂家直销天津玻璃钢卡通雕塑价格临汾园林玻璃钢雕塑定制成都卡通玻璃钢动物长颈鹿雕塑运动商场春季美陈图片滁州儿童玻璃钢雕塑设计鹰潭环保玻璃钢雕塑生产厂家青岛玻璃钢雕塑开发区在哪里广东户外商场美陈多少钱延边玻璃钢雕塑推荐喷泉雕塑鸭子玻璃钢雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化