太详细了,在 Windows 上安装 PySpark 保姆级教程
创始人
2024-04-22 17:43:50
0

在本文中,我将和大家一起学习如何在 Windows 上安装和运行 PySpark,以及如何使用 Web UI 启动历史服务器和监控 Jobs。

安装 Python 或 Anaconda 发行版

https://www.python.org/downloads/windows/

Python.orgAnaconda 发行版 下载并安装 Python, 其中包括 Python、Spyder IDE 和 Jupyter notebook。我建议使用 Anaconda,因为它很受机器学习和数据科学社区的欢迎和使用。

https://www.anaconda.com/

推荐使用 Anaconda 安装 PySpark 并运行 Jupyter notebook。

技术提升

本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

方式①、添加微信号:dkl88191,备注:来自CSDN +研究方向
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

安装 Java 8

要运行 PySpark 应用程序,需要 Java 8 或更高版本,因此从 Oracle 下载 Java 版本并将其安装在系统上。

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

安装后设置 JAVA_HOME 和 PATH 变量。

JAVA_HOME = C:\Program Files\Java\jdk1.8.0_201  
PATH = %PATH%;C:\Program Files\Java\jdk1.8.0_201\bin  

在 Windows 上安装 PySpark

PySpark 是一个用 Python 编写的 Spark 库,用于使用 Apache Spark 功能运行 Python 应用程序。所以没有 PySpark 库可供下载。一切只需要 Spark。按照以下步骤在 Windows 上安装 PySpark。

1. 在Spark下载页面,选择 Download Spark (第3点) 链接进行下载。如果你想使用其他版本的 Spark 和 Hadoop,请从下拉列表中选择你想要的版本,第 3 点上的链接会更改为所选版本,并为你提供更新的下载链接。

https://spark.apache.org/downloads.html

2. 下载后,解压二进制文件并将底层文件夹复制 spark-3.0.0-bin-hadoop2.7c:\apps

3. 现在设置以下环境变量。

SPARK_HOME  = C:\apps\spark-3.0.0-bin-hadoop2.7  
HADOOP_HOME = C:\apps\spark-3.0.0-bin-hadoop2.7  
PATH=%PATH%;C:\apps\spark-3.0.0-bin-hadoop2.7\bin  

如果你还不知道如何在 Windows 上添加或编辑环境变量,请按照以下步骤操作。

1.打开编辑系统环境变量窗口,在高级选项卡下选择环境变量

编辑系统环境变量

2.在以下环境变量屏幕上,通过选择新建选项添加 SPARK_HOMEHADOOP_HOMEJAVA_HOME

3. 这将打开用户变量窗口,可以在其中输入变量名称和值。

4.现在编辑PATH变量

5. 通过选择新建选项添加 Spark、Java 和 Hadoop bin 路径。

在 Windows 上安装 winutils.exe

从winutils 下载 winutils.exe 文件 ,并将其复制到%SPARK_HOME%\bin文件夹中。Winutils 对于每个 Hadoop 版本都不同,因此请从下载正确的版本。

https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe

PySpark shell

现在打开命令提示符并键入 pyspark 命令以运行 PySpark shell。应该在下面看到类似的内容。

Spark-shell 还创建了一个 Spark 上下文 Web UI,默认情况下,它可以从 http://localhost:4041/ 访问。

Web UI

Apache Spark 提供了一套 Web UI(Jobs, Stages, Tasks, Storage, Environment, Executors, and SQL)来监控 Spark 应用程序的状态。

Spark Web UI

历史服务器

历史服务器,记录你通过 spark-submit、pyspark shell 提交的所有 PySpark 应用程序。在开始之前,首先需要设置以下配置 spark-defaults.conf

spark.eventLog.enabled true  
spark.history.fs.logDirectory file:///c:/logs/path  

现在,通过运行在 Linux 或 Mac 上启动历史服务器。

$SPARK_HOME/sbin/start-history-server.sh  

如果在 Windows 上运行 PySpark,可以通过启动以下命令来启动历史服务器。

$SPARK_HOME/bin/spark-class.cmd org.apache.spark.deploy.history.HistoryServer  

默认情况下,历史服务器监听 18080 端口,你可以使用http://localhost:18080/从浏览器访问它。

相关内容

热门资讯

安卓se系统怎么启用,确保应用... 你有没有发现,你的安卓手机最近有点儿“懒”呢?运行速度慢,反应迟钝,是不是想给它来个“大变身”呢?别...
微软怎么使用安卓系统,技术融合... 你有没有想过,那个以Windows系统著称的微软,竟然也会和安卓系统玩起“亲密接触”?没错,就是那个...
安卓系统耗电特别快,快速诊断与... 手机电量总是不够用?安卓系统耗电特别快,是不是你也遇到了这样的烦恼?别急,今天就来跟你聊聊这个话题,...
安卓机 桌面 系统菜单,功能解... 你有没有发现,你的安卓手机桌面系统菜单,其实就像一个隐藏的宝藏库呢?里面藏着各种各样的功能,等着你去...
安卓ios系统怎么安装,安卓与... 你有没有想过,你的手机里那些好玩的应用是怎么来的呢?是不是觉得安装个软件就像变魔术一样简单?其实,这...
珍奥助手安卓系统下载,轻松体验 你有没有听说最近有个超级好用的助手软件——珍奥助手?没错,就是那个能让你手机生活变得更加便捷的小帮手...
安卓换ios系统.数据,数据迁... 你有没有想过,手机系统就像是我们生活中的衣服,有时候换一件新衣服,整个人都焕然一新呢?没错,今天咱们...
安卓系统提示怎么关,轻松关闭功... 手机屏幕上突然弹出一个安卓系统的提示,让你不禁皱起了眉头。别急,别慌,今天就来手把手教你如何轻松关闭...
安卓系统如何刷回flyme系统... 你是不是也和我一样,对安卓手机的Flyme系统情有独钟呢?有时候,因为一些原因,我们可能需要将手机刷...
手机订餐系统源码安卓,基于手机... 你有没有想过,每天忙碌的生活中,点外卖已经成为了一种不可或缺的享受?而这一切的背后,离不开那些默默无...
顾问营销系统安卓版,助力企业高... 你有没有想过,在这个信息爆炸的时代,如何让你的产品在众多竞争者中脱颖而出呢?别急,今天我要给你介绍一...
安卓系统连接雅马哈音箱,打造个... 你有没有想过,家里的安卓手机和雅马哈音箱也能来个甜蜜的“牵手”呢?没错,今天就要来给你揭秘,如何让这...
安卓系统文件日志查看,揭秘系统... 手机里的安卓系统文件日志,听起来是不是有点儿高深莫测?别担心,今天我就要带你一探究竟,揭开这些神秘日...
努比亚升级安卓p系统,畅享智能... 你知道吗?最近手机界可是热闹非凡呢!努比亚这个品牌,竟然悄悄地给他们的手机升级了安卓P系统。这可不是...
仿苹果装安卓系统,揭秘仿苹果装... 你有没有想过,如果你的苹果手机突然变成了安卓系统,那会是怎样的场景呢?想象你那熟悉的iOS界面,突然...
安装安卓13子系统,全新功能与... 你听说了吗?安卓13子系统终于来了!这可是安卓系统的一大革新,让我们的手机体验更加丰富多元。今天,就...
安卓系统内核日志保存,深度洞察... 你有没有想过,当你手机里的安卓系统在默默运行时,它其实就像一个勤劳的小蜜蜂,不停地记录着它的“工作日...
安卓系统可以调用dll,安卓系... 你知道吗?安卓系统竟然能调用DLL文件,这可是个让人眼前一亮的小秘密呢!想象你手中的安卓设备,不仅能...
安卓通讯 录系统代码,基于安卓... 你有没有想过,你的手机里那个默默无闻的通讯录系统,其实背后有着一套复杂的代码在支撑呢?今天,就让我带...
安卓系统版本对应关系,安卓系统... 你有没有发现,每次手机更新系统,那感觉就像给手机换了个新衣裳,焕然一新呢!不过,你知道吗?安卓系统的...