常见的收集数据的方法(收集数据的方法有哪些)
admin
2023-09-18 14:08:17
0

在大数据时代,除了企业、公司和个人,互联网也是一个非常重要的数据来源。随着信息化社会的快速发展,互联网中可以获取的数据也越来越多,并且多数网站所提供的数据并非一两个页面所能容纳的,如股票行情数据,由于上市交易的股票数量众多,所以网站提供的数据通常都会有几十个网页,甚至更多。

虽然通过【数据】选项卡的【从网站】功能可以获取单个网页中的数据,但是这样的操作显然无法胜任收集大量网页数据的任务。批量收集网站数据,又被称为网络数据抓取,有时也被简称为“网抓”。用于网抓的工具或软件通常被称为网络爬虫(Web Crawler)。

以某网站的“个股市盈率”网页为例,如图 2-139 所示,每个页面中有 50 行数据,共有 64 个网页。让我们使用Power Query的方式实现抓取前 5 个网页的数据。

图 2-139 个股市盈率网页

步骤 1

单击【数据】选项卡的【自网站】按钮,在弹出的【从 Web】对话框的【URL】文本框中输入这一地址内容再进行下一步操作:“http://data.10jqka.com.cn/market/ggsyl/fifield/syl/order/desc/page/1”单击【确定】按钮关闭【从 Web】对话框,如图 2-140 所示。

图 2-140 在【从 Web】对话框中输入 URL82

步骤 2

Excel 查询数据之后,将弹出【导航器】对话框,在对话框左侧单击【Table 0】,在对话框右侧的【表视图】中将显示相应的数据内容,单击【转换数据】按钮,如图 2-141 所示。

图 2-141 在【导航器】对话框中选择表格

步骤 3

在弹出的【Table 0 – Power Query 编辑器】窗口中,单击【开始】选项卡的【高级编辑器】按钮,在弹出的【高级编辑器】对话框中修改公式(区分字母大小写),单击【完成】按钮关闭对话框,如图 2-142 所示。

图 2-142 修改 Power Query 公式

步骤 4

在【查询设置】窗格的【名称】文本框输入“GetWebPage”修改查询名称,单击【开始】选项卡的【关闭并上载】按钮关闭编辑器窗口,如图 2-143 所示。

图 2-143 修改查询名称并上载

步骤 5

在 Excel 的【查询 & 连接】窗格中查询名称“GetWebPage”之前显示“fx”标识,说明这是一个自定义函数。依次单击【数据】选项卡→【获取数据】下拉按钮→【自其他源】→【空白查询】命令,如图 2-144 所示。

图 2-144 新建空白查询

步骤 6

在弹出的【查询 1 – Power Query 编辑器】窗口的公式栏中输入“={1..5}”,按< Enter > 键完成输入,在编辑器将新建一个列表,包含 1 到 5 的数字。

步骤 7

依次单击【转换】选项卡→【到表】按钮,在弹出的【到表】对话框中保持默认设置,单击【确定】按钮关闭对话框,如图 2-145 所示。

图 2-145 列表数据转换

步骤 8

在【查询 1 – Power Query 编辑器】窗口中单击【添加列】选项卡的【调用自定义函数】按钮,在弹出的【调用自定义函数】对话框中调整设置,在【新列名】文本框中输入“Web”作为名称,在【功能查询】组合框中选中“GetWebPage”,在【PageIndex】标签之下右侧组合框中选中“Column1”,单击【确定】按钮关闭对话框,如图 2-146 所示。

图2-146 设置调用自定义函数

步骤 9

此时将弹出黄色的数据隐私提示栏,单击【继续】按钮,在弹出的【隐私级别】对话框中,选中【忽略此文件的隐私级别检查。忽略隐私级别可能会向未经授权的用户公开敏感数据或机密数据。】复选框,单击【保存】按钮关闭对话框,如图 2-147 所示。

图 2-147 忽略隐私级别检查

步骤 10

单击“Web”列标题右侧的展开按钮,在弹出的对话框中取消选中【使用原始列名作为前缀】复选框,单击【确定】按钮展开“Web”列,如图 2-148 所示。

图 2-148 展开“Web”列

步骤 11

在【查询 1 – Power Query 编辑器】窗口中依次单击【开始】选项卡→【关闭并上载】下拉按钮→【关闭并上载至 …】命令,在弹出的【导入数据】对话框中选中【表】单选按钮,保持默认选中的【新工作表】单选按钮,单击【确定】按钮关闭对话框,如图 2-149 所示。

图2-149 关闭并上载至工作表

批量采集的网站数据将上载到Excel新建工作表中,共有250行数据(5×50行/页),如图2-150所示。

如果【查询&连接】任务窗格中显示“已加载250行。N个错误”,错误的原因可能是部分指标数据未从网站上成功获取(比如该指标在网站上为空)。

图 2-150 上载到工作表中的数据

还想要学习其他数据处理与分析的技巧吗?快来看看应用大全吧!

相关内容

热门资讯

济南高中学校2026年综合评价... 自2026年起,济南在普通高中学校试点综合评价招生,5月7日,各高中学校2026年综合评价招生简章陆...
明确9种禁止性情形 严防商业贿... 记者刚刚从国家药监局获悉,《医药代表管理办法》今天由七部门联合公告发布。据了解,为规范药品学术推广行...
八部门发文改革完善儿童用药供应... 国家卫生健康委、工业和信息化部等八部门今天发布《关于改革完善儿童用药供应保障机制的实施意见》,对20...
现实版《三体》红岸基地,中国深... 这里是现实版《三体》红岸基地,中国深空“最强瞭望台”聆听40亿公里外信号。66米口径亚洲最大天线藏于...
中国海警舰艇编队5月7日在我钓... 5月7日,中国海警1306舰艇编队在我钓鱼岛领海内巡航。这是中国海警依法开展的维权巡航活动。
受贿1.34亿余元 安徽省政协... 2026年5月7日,福建省漳州市中级人民法院公开宣判安徽省政协原党组成员、副主席周喜安受贿一案,以受...
中东媒体称美伊已就缓解美国海上... 据中东媒体7日援引消息人士的话报道,伊朗和美国已就缓解美国海上封锁以换取霍尔木兹海峡逐步重新开放达成...
荷航一空乘人员疑似感染汉坦病毒... 荷兰卫生部5月7日表示,一名荷兰女子因出现汉坦病毒感染的疑似症状,已被送往阿姆斯特丹的一家医院接受治...
外交部:中方赞赏法方推动流失文... 5月7日,外交部发言人林剑主持例行记者会。有记者问,法国国民议会以141票赞成、0票反对的投票结果,...
“洪迪厄斯”号邮轮涉汉坦病毒病... “洪迪厄斯”邮轮当地时间6日,英国卫生安全局发布声明表示,两名曾搭乘“洪迪厄斯”邮轮的英国乘客已返回...
外交部:敦促日本执政当局正视问... 5月7日,外交部发言人林剑主持例行记者会。有记者问,距日本首相高市早苗去年11月7日在国会发表的涉台...
新疆维吾尔自治区政协原党组成员... 经中共中央批准,中央纪委国家监委对新疆维吾尔自治区政协原党组成员、副主席金之镇严重违纪违法问题进行了...
第三轮第六批中央生态环境保护督... 为深入贯彻党的二十大和二十届历次全会精神,认真落实四中全会部署,贯彻落实习近平生态文明思想和习近平总...
英国计划接回涉疫邮轮上的本国公... △“洪迪厄斯”邮轮当地时间6日,英国卫生安全局发布声明表示,两名曾搭乘“洪迪厄斯”邮轮的英国乘客已返...
韩前总理韩德洙“从事内乱重要任... △韩国前国务总理韩德洙(资料图)当地时间7日上午,韩国首尔高等法院就前总理韩德洙涉嫌在尹锡悦发动紧急...
美法官公布一份“爱泼斯坦遗书” 美国一名联邦地区法院法官6日公开一张纸条,据称是臭名昭著的已故美国富商爱泼斯坦所写遗书。其中一句话写...
距离达成停战协议还有多远?美称... 近日,美方持续释放关于结束伊朗战事的信号。美国总统特朗普6日数次表示,对美国同伊朗达成协议表示乐观,...
消息人士称伊朗预计将于7日回应... △伊朗首都德黑兰(资料图)当地时间5月6日,据一位地区消息人士表示,伊朗预计将于5月7日向调解人提交...
美对伊战事或为白宫记协晚宴枪手... 当地时间5月6日,总台记者获悉,美国国土安全部在一份情报评估中指出,美国对伊朗发起的军事行动可能是白...
以总理称以军袭击贝鲁特 黎真主... △以色列方面发布的图片当地时间6日,以色列总理内塔尼亚胡和以国防部长卡茨发表联合声明称,以军在黎巴嫩...