太详细了,在 Windows 上安装 PySpark 保姆级教程
创始人
2024-04-22 17:43:50
0

在本文中,我将和大家一起学习如何在 Windows 上安装和运行 PySpark,以及如何使用 Web UI 启动历史服务器和监控 Jobs。

安装 Python 或 Anaconda 发行版

https://www.python.org/downloads/windows/

Python.orgAnaconda 发行版 下载并安装 Python, 其中包括 Python、Spyder IDE 和 Jupyter notebook。我建议使用 Anaconda,因为它很受机器学习和数据科学社区的欢迎和使用。

https://www.anaconda.com/

推荐使用 Anaconda 安装 PySpark 并运行 Jupyter notebook。

技术提升

本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

方式①、添加微信号:dkl88191,备注:来自CSDN +研究方向
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

安装 Java 8

要运行 PySpark 应用程序,需要 Java 8 或更高版本,因此从 Oracle 下载 Java 版本并将其安装在系统上。

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

安装后设置 JAVA_HOME 和 PATH 变量。

JAVA_HOME = C:\Program Files\Java\jdk1.8.0_201  
PATH = %PATH%;C:\Program Files\Java\jdk1.8.0_201\bin  

在 Windows 上安装 PySpark

PySpark 是一个用 Python 编写的 Spark 库,用于使用 Apache Spark 功能运行 Python 应用程序。所以没有 PySpark 库可供下载。一切只需要 Spark。按照以下步骤在 Windows 上安装 PySpark。

1. 在Spark下载页面,选择 Download Spark (第3点) 链接进行下载。如果你想使用其他版本的 Spark 和 Hadoop,请从下拉列表中选择你想要的版本,第 3 点上的链接会更改为所选版本,并为你提供更新的下载链接。

https://spark.apache.org/downloads.html

2. 下载后,解压二进制文件并将底层文件夹复制 spark-3.0.0-bin-hadoop2.7c:\apps

3. 现在设置以下环境变量。

SPARK_HOME  = C:\apps\spark-3.0.0-bin-hadoop2.7  
HADOOP_HOME = C:\apps\spark-3.0.0-bin-hadoop2.7  
PATH=%PATH%;C:\apps\spark-3.0.0-bin-hadoop2.7\bin  

如果你还不知道如何在 Windows 上添加或编辑环境变量,请按照以下步骤操作。

1.打开编辑系统环境变量窗口,在高级选项卡下选择环境变量

编辑系统环境变量

2.在以下环境变量屏幕上,通过选择新建选项添加 SPARK_HOMEHADOOP_HOMEJAVA_HOME

3. 这将打开用户变量窗口,可以在其中输入变量名称和值。

4.现在编辑PATH变量

5. 通过选择新建选项添加 Spark、Java 和 Hadoop bin 路径。

在 Windows 上安装 winutils.exe

从winutils 下载 winutils.exe 文件 ,并将其复制到%SPARK_HOME%\bin文件夹中。Winutils 对于每个 Hadoop 版本都不同,因此请从下载正确的版本。

https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe

PySpark shell

现在打开命令提示符并键入 pyspark 命令以运行 PySpark shell。应该在下面看到类似的内容。

Spark-shell 还创建了一个 Spark 上下文 Web UI,默认情况下,它可以从 http://localhost:4041/ 访问。

Web UI

Apache Spark 提供了一套 Web UI(Jobs, Stages, Tasks, Storage, Environment, Executors, and SQL)来监控 Spark 应用程序的状态。

Spark Web UI

历史服务器

历史服务器,记录你通过 spark-submit、pyspark shell 提交的所有 PySpark 应用程序。在开始之前,首先需要设置以下配置 spark-defaults.conf

spark.eventLog.enabled true  
spark.history.fs.logDirectory file:///c:/logs/path  

现在,通过运行在 Linux 或 Mac 上启动历史服务器。

$SPARK_HOME/sbin/start-history-server.sh  

如果在 Windows 上运行 PySpark,可以通过启动以下命令来启动历史服务器。

$SPARK_HOME/bin/spark-class.cmd org.apache.spark.deploy.history.HistoryServer  

默认情况下,历史服务器监听 18080 端口,你可以使用http://localhost:18080/从浏览器访问它。

相关内容

热门资讯

电视安卓系统哪个品牌好,哪家品... 你有没有想过,家里的电视是不是该升级换代了呢?现在市面上电视品牌琳琅满目,各种操作系统也是让人眼花缭...
安卓会员管理系统怎么用,提升服... 你有没有想过,手机里那些你爱不释手的APP,背后其实有个强大的会员管理系统在默默支持呢?没错,就是那...
安卓系统软件使用技巧,解锁软件... 你有没有发现,用安卓手机的时候,总有一些小技巧能让你玩得更溜?别小看了这些小细节,它们可是能让你的手...
安卓系统提示音替换 你知道吗?手机里那个时不时响起的提示音,有时候真的能让人心情大好,有时候又让人抓狂不已。今天,就让我...
安卓开机不了系统更新 手机突然开不了机,系统更新还卡在那里,这可真是让人头疼的问题啊!你是不是也遇到了这种情况?别急,今天...
安卓系统中微信视频,安卓系统下... 你有没有发现,现在用手机聊天,视频通话简直成了标配!尤其是咱们安卓系统的小伙伴们,微信视频功能更是用...
安卓系统是服务器,服务器端的智... 你知道吗?在科技的世界里,安卓系统可是个超级明星呢!它不仅仅是个手机操作系统,竟然还能成为服务器的得...
pc电脑安卓系统下载软件,轻松... 你有没有想过,你的PC电脑上安装了安卓系统,是不是瞬间觉得世界都大不一样了呢?没错,就是那种“一机在...
电影院购票系统安卓,便捷观影新... 你有没有想过,在繁忙的生活中,一部好电影就像是一剂强心针,能瞬间让你放松心情?而我今天要和你分享的,...
安卓系统可以写程序? 你有没有想过,安卓系统竟然也能写程序呢?没错,你没听错!这个我们日常使用的智能手机操作系统,竟然有着...
安卓系统架构书籍推荐,权威书籍... 你有没有想过,想要深入了解安卓系统架构,却不知道从何下手?别急,今天我就要给你推荐几本超级实用的书籍...
安卓系统看到的炸弹,技术解析与... 安卓系统看到的炸弹——揭秘手机中的隐形威胁在数字化时代,智能手机已经成为我们生活中不可或缺的一部分。...
鸿蒙系统有安卓文件,畅享多平台... 你知道吗?最近在科技圈里,有个大新闻可是闹得沸沸扬扬的,那就是鸿蒙系统竟然有了安卓文件!是不是觉得有...
宝马安卓车机系统切换,驾驭未来... 你有没有发现,现在的汽车越来越智能了?尤其是那些豪华品牌,比如宝马,它们的内饰里那个大屏幕,简直就像...
p30退回安卓系统 你有没有听说最近P30的用户们都在忙活一件大事?没错,就是他们的手机要退回安卓系统啦!这可不是一个简...
oppoa57安卓原生系统,原... 你有没有发现,最近OPPO A57这款手机在安卓原生系统上的表现真是让人眼前一亮呢?今天,就让我带你...
安卓系统输入法联想,安卓系统输... 你有没有发现,手机上的输入法真的是个神奇的小助手呢?尤其是安卓系统的输入法,简直就是智能生活的点睛之...
怎么进入安卓刷机系统,安卓刷机... 亲爱的手机控们,你是否曾对安卓手机的刷机系统充满好奇?想要解锁手机潜能,体验全新的系统魅力?别急,今...
安卓系统程序有病毒 你知道吗?在这个数字化时代,手机已经成了我们生活中不可或缺的好伙伴。但是,你知道吗?即使是安卓系统,...
奥迪中控安卓系统下载,畅享智能... 你有没有发现,现在汽车的中控系统越来越智能了?尤其是奥迪这种豪华品牌,他们的中控系统简直就是科技与艺...