常见的收集数据的方法(收集数据的方法有哪些)
admin
2023-09-18 14:08:17
0

在大数据时代,除了企业、公司和个人,互联网也是一个非常重要的数据来源。随着信息化社会的快速发展,互联网中可以获取的数据也越来越多,并且多数网站所提供的数据并非一两个页面所能容纳的,如股票行情数据,由于上市交易的股票数量众多,所以网站提供的数据通常都会有几十个网页,甚至更多。

虽然通过【数据】选项卡的【从网站】功能可以获取单个网页中的数据,但是这样的操作显然无法胜任收集大量网页数据的任务。批量收集网站数据,又被称为网络数据抓取,有时也被简称为“网抓”。用于网抓的工具或软件通常被称为网络爬虫(Web Crawler)。

以某网站的“个股市盈率”网页为例,如图 2-139 所示,每个页面中有 50 行数据,共有 64 个网页。让我们使用Power Query的方式实现抓取前 5 个网页的数据。

图 2-139 个股市盈率网页

步骤 1

单击【数据】选项卡的【自网站】按钮,在弹出的【从 Web】对话框的【URL】文本框中输入这一地址内容再进行下一步操作:“http://data.10jqka.com.cn/market/ggsyl/fifield/syl/order/desc/page/1”单击【确定】按钮关闭【从 Web】对话框,如图 2-140 所示。

图 2-140 在【从 Web】对话框中输入 URL82

步骤 2

Excel 查询数据之后,将弹出【导航器】对话框,在对话框左侧单击【Table 0】,在对话框右侧的【表视图】中将显示相应的数据内容,单击【转换数据】按钮,如图 2-141 所示。

图 2-141 在【导航器】对话框中选择表格

步骤 3

在弹出的【Table 0 – Power Query 编辑器】窗口中,单击【开始】选项卡的【高级编辑器】按钮,在弹出的【高级编辑器】对话框中修改公式(区分字母大小写),单击【完成】按钮关闭对话框,如图 2-142 所示。

图 2-142 修改 Power Query 公式

步骤 4

在【查询设置】窗格的【名称】文本框输入“GetWebPage”修改查询名称,单击【开始】选项卡的【关闭并上载】按钮关闭编辑器窗口,如图 2-143 所示。

图 2-143 修改查询名称并上载

步骤 5

在 Excel 的【查询 & 连接】窗格中查询名称“GetWebPage”之前显示“fx”标识,说明这是一个自定义函数。依次单击【数据】选项卡→【获取数据】下拉按钮→【自其他源】→【空白查询】命令,如图 2-144 所示。

图 2-144 新建空白查询

步骤 6

在弹出的【查询 1 – Power Query 编辑器】窗口的公式栏中输入“={1..5}”,按< Enter > 键完成输入,在编辑器将新建一个列表,包含 1 到 5 的数字。

步骤 7

依次单击【转换】选项卡→【到表】按钮,在弹出的【到表】对话框中保持默认设置,单击【确定】按钮关闭对话框,如图 2-145 所示。

图 2-145 列表数据转换

步骤 8

在【查询 1 – Power Query 编辑器】窗口中单击【添加列】选项卡的【调用自定义函数】按钮,在弹出的【调用自定义函数】对话框中调整设置,在【新列名】文本框中输入“Web”作为名称,在【功能查询】组合框中选中“GetWebPage”,在【PageIndex】标签之下右侧组合框中选中“Column1”,单击【确定】按钮关闭对话框,如图 2-146 所示。

图2-146 设置调用自定义函数

步骤 9

此时将弹出黄色的数据隐私提示栏,单击【继续】按钮,在弹出的【隐私级别】对话框中,选中【忽略此文件的隐私级别检查。忽略隐私级别可能会向未经授权的用户公开敏感数据或机密数据。】复选框,单击【保存】按钮关闭对话框,如图 2-147 所示。

图 2-147 忽略隐私级别检查

步骤 10

单击“Web”列标题右侧的展开按钮,在弹出的对话框中取消选中【使用原始列名作为前缀】复选框,单击【确定】按钮展开“Web”列,如图 2-148 所示。

图 2-148 展开“Web”列

步骤 11

在【查询 1 – Power Query 编辑器】窗口中依次单击【开始】选项卡→【关闭并上载】下拉按钮→【关闭并上载至 …】命令,在弹出的【导入数据】对话框中选中【表】单选按钮,保持默认选中的【新工作表】单选按钮,单击【确定】按钮关闭对话框,如图 2-149 所示。

图2-149 关闭并上载至工作表

批量采集的网站数据将上载到Excel新建工作表中,共有250行数据(5×50行/页),如图2-150所示。

如果【查询&连接】任务窗格中显示“已加载250行。N个错误”,错误的原因可能是部分指标数据未从网站上成功获取(比如该指标在网站上为空)。

图 2-150 上载到工作表中的数据

还想要学习其他数据处理与分析的技巧吗?快来看看应用大全吧!

相关内容

热门资讯

受贿数额特别巨大 江苏省南京市... 记者今天(13日)从最高人民检察院获悉,江苏省南京市人大常委会原党组书记、主任龙翔涉嫌贪污、受贿、滥...
美国国务院要求美国公民立即离开... 据美国媒体12日报道,美国国务院要求美国公民立即离开伊朗。
查获作案工具及嫌疑人DNA 调... 当地时间1月12日,根据调查人员透露的消息,警方曾发现一处隐藏的作案工具库,这一发现表明卢浮宫盗抢案...
地缘政治动荡推动黄金、白银价格... 美联储独立性受到挑战和中东地区地缘政治局势动荡,推动避险需求涌入贵金属市场。纽约商品交易所2月黄金期...
特朗普:对伊朗所有的贸易伙伴征... △美国总统特朗普(资料图)当地时间1月12日,美国总统唐纳德·特朗普在其社交媒体“真实社交”发文称,...
闫学晶致歉、中戏澄清,“新疆班... 近日,演员闫学晶因直播“哭穷”引发争议。事后,她连夜道歉,反思自己“环境变了,听着掌声、捧着鲜花,慢...
巴基斯坦开伯尔-普什图省发生爆... 总台记者获悉,当地时间1月12日,巴基斯坦开伯尔-普什图省发生一起爆炸事件,造成6名警察死亡。
遇到心搏骤停者,你会心肺复苏和... 心搏骤停,是指由于各种原因导致的心脏搏动突然停止,瞬间丧失了收缩、舒张功能,导致以脑为代表的全身组织...
济南城市发展集团有限公司党委副... 据济南市纪委监委消息:济南城市发展集团有限公司党委副书记、董事胡娟涉嫌严重违纪违法,目前正接受济南市...
商务部通报中欧电动汽车案磋商进... 为落实中欧领导人会晤共识,妥善解决欧盟对华电动汽车案,中欧双方本着相互尊重的态度,进行了多轮磋商。双...
政府投资基金“投向哪 怎么投”... 今天(12日),国家发展改革委、财政部、科技部、工业和信息化部联合发布《关于加强政府投资基金布局规划...
海底捞“小便门”两名当事人均登... 2026年1月12日,《人民法院报》2版刊登了海底捞“小便门”当事人吴某及其父母的致歉声明。此前的1...
海南患者福音!双目录落地,创新... 南海网、新海南客户端1月11日消息(记者苏桂除)随着新版基本医保目录和首版商保创新药目录自2026年...
婚礼电子请柬“访客记录”付费可... 您收到过婚礼电子请柬吗?现在,越来越多的新人选择用H5网页链接的方式,在朋友圈、亲友群里分享喜讯。环...
打着高校旗号的“教授内推”“付... 寒假临近,一些打着高校名义的“教授内推”“‘寒假学堂’营”“招生咨询”等信息层出不穷,这些信息靠谱吗...
广东汕头突发山火已扑灭 无人员... 今天(1月12日),总台记者从广东省汕头市濠江区应急管理局获悉,广东汕头濠江区礐石街道突发山火已扑灭...
层层加码、过度摊派……新表象老... 原标题:新表象老病根,这些形式主义得治(金台视线)近年来,从中央到地方,各级狠抓整治形式主义为基层减...
约旦称空袭叙利亚境内“伊斯兰国... 当地时间11日,总台记者获悉,约旦军方消息称,当地时间10日晚,约旦武装部队通过皇家空军对极端组织“...
“小学生在学校跳蚤市场50元淘... 近日,网传一小女孩在学校跳蚤市场以50元淘到茅台酒,此事引发关注。1月11日,红星新闻记者从当地相关...
应对“蹭穿”,网售服装用上大吊... 经营演出服装王先生曾一次卖出了40件演出服,但这些衣服很快全部被退了回来,且明显被穿过。购买这些汉服...