pyspark是spark的python API,本质上其实没有差别,只是开发的语言换了一下,书写的语法不一样而已,所以有Spark的Scala基础的朋友,只需要解决Python语言的书写,其他的就没有问题了
想用pyspark开发需要准备一些东西
1、JAVAJDK
2、Hadoop
3、Spark
4、PyCharm ---开发工具自定义
5、findspark、pyspark、py4j三个pyspark开发用的包
上面的东西前三个我就不演示了,大家在本地准备好并且配置好环境变量就可以了,我这里主要是告诉大家怎么样配置pyspark的开发环境
1、打开PyCharm,准备好要开发pyspark的python项目
点击下图中的选项,打开界面
打开File-->settings
界面,找到如下配置项,并点击右侧的Add
任然是在File-->settings
界面,进入如下配置项,并点击右侧的加号
import findspark
findspark.init()
from pyspark import *
import os
os.environ['JAVA_HOME'] = 'D:\javagj\javajdk'
conf = SparkConf().setMaster(value='local')
con = SparkContext(conf=conf).getOrCreate()
firstRDD = con.parallelize( c = ["123","123","123","456","7"])
mapRDD = firstRDD.map(f = lambda word : (word ,1))
result = mapRDD.reduceByKey(func= lambda w1 , w2 : w1 + w2 )
result.foreach( f = lambda a : print(a))
con.stop()
最后记住一个相当重要的事情,pyspark支持的python环境,截止到2021-9月最高支持python3.7的环境,再高了就不支持了会一直报错
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- ovod.cn 版权所有 湘ICP备2023023988号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务