常见的收集数据的方法(收集数据的方法有哪些)
admin
2023-09-18 14:08:17
0

在大数据时代,除了企业、公司和个人,互联网也是一个非常重要的数据来源。随着信息化社会的快速发展,互联网中可以获取的数据也越来越多,并且多数网站所提供的数据并非一两个页面所能容纳的,如股票行情数据,由于上市交易的股票数量众多,所以网站提供的数据通常都会有几十个网页,甚至更多。

虽然通过【数据】选项卡的【从网站】功能可以获取单个网页中的数据,但是这样的操作显然无法胜任收集大量网页数据的任务。批量收集网站数据,又被称为网络数据抓取,有时也被简称为“网抓”。用于网抓的工具或软件通常被称为网络爬虫(Web Crawler)。

以某网站的“个股市盈率”网页为例,如图 2-139 所示,每个页面中有 50 行数据,共有 64 个网页。让我们使用Power Query的方式实现抓取前 5 个网页的数据。

图 2-139 个股市盈率网页

步骤 1

单击【数据】选项卡的【自网站】按钮,在弹出的【从 Web】对话框的【URL】文本框中输入这一地址内容再进行下一步操作:“http://data.10jqka.com.cn/market/ggsyl/fifield/syl/order/desc/page/1”单击【确定】按钮关闭【从 Web】对话框,如图 2-140 所示。

图 2-140 在【从 Web】对话框中输入 URL82

步骤 2

Excel 查询数据之后,将弹出【导航器】对话框,在对话框左侧单击【Table 0】,在对话框右侧的【表视图】中将显示相应的数据内容,单击【转换数据】按钮,如图 2-141 所示。

图 2-141 在【导航器】对话框中选择表格

步骤 3

在弹出的【Table 0 – Power Query 编辑器】窗口中,单击【开始】选项卡的【高级编辑器】按钮,在弹出的【高级编辑器】对话框中修改公式(区分字母大小写),单击【完成】按钮关闭对话框,如图 2-142 所示。

图 2-142 修改 Power Query 公式

步骤 4

在【查询设置】窗格的【名称】文本框输入“GetWebPage”修改查询名称,单击【开始】选项卡的【关闭并上载】按钮关闭编辑器窗口,如图 2-143 所示。

图 2-143 修改查询名称并上载

步骤 5

在 Excel 的【查询 & 连接】窗格中查询名称“GetWebPage”之前显示“fx”标识,说明这是一个自定义函数。依次单击【数据】选项卡→【获取数据】下拉按钮→【自其他源】→【空白查询】命令,如图 2-144 所示。

图 2-144 新建空白查询

步骤 6

在弹出的【查询 1 – Power Query 编辑器】窗口的公式栏中输入“={1..5}”,按< Enter > 键完成输入,在编辑器将新建一个列表,包含 1 到 5 的数字。

步骤 7

依次单击【转换】选项卡→【到表】按钮,在弹出的【到表】对话框中保持默认设置,单击【确定】按钮关闭对话框,如图 2-145 所示。

图 2-145 列表数据转换

步骤 8

在【查询 1 – Power Query 编辑器】窗口中单击【添加列】选项卡的【调用自定义函数】按钮,在弹出的【调用自定义函数】对话框中调整设置,在【新列名】文本框中输入“Web”作为名称,在【功能查询】组合框中选中“GetWebPage”,在【PageIndex】标签之下右侧组合框中选中“Column1”,单击【确定】按钮关闭对话框,如图 2-146 所示。

图2-146 设置调用自定义函数

步骤 9

此时将弹出黄色的数据隐私提示栏,单击【继续】按钮,在弹出的【隐私级别】对话框中,选中【忽略此文件的隐私级别检查。忽略隐私级别可能会向未经授权的用户公开敏感数据或机密数据。】复选框,单击【保存】按钮关闭对话框,如图 2-147 所示。

图 2-147 忽略隐私级别检查

步骤 10

单击“Web”列标题右侧的展开按钮,在弹出的对话框中取消选中【使用原始列名作为前缀】复选框,单击【确定】按钮展开“Web”列,如图 2-148 所示。

图 2-148 展开“Web”列

步骤 11

在【查询 1 – Power Query 编辑器】窗口中依次单击【开始】选项卡→【关闭并上载】下拉按钮→【关闭并上载至 …】命令,在弹出的【导入数据】对话框中选中【表】单选按钮,保持默认选中的【新工作表】单选按钮,单击【确定】按钮关闭对话框,如图 2-149 所示。

图2-149 关闭并上载至工作表

批量采集的网站数据将上载到Excel新建工作表中,共有250行数据(5×50行/页),如图2-150所示。

如果【查询&连接】任务窗格中显示“已加载250行。N个错误”,错误的原因可能是部分指标数据未从网站上成功获取(比如该指标在网站上为空)。

图 2-150 上载到工作表中的数据

还想要学习其他数据处理与分析的技巧吗?快来看看应用大全吧!

相关内容

热门资讯

“驴友”庐山野游被困获救:追偿... 11月15日,记者从江西省应急管理厅了解到,庐山“9·27”驴友野游救援事件处理有了最新进展,当地政...
惜败!张伟丽不敌舍甫琴科 无缘... 北京时间11月16日中午,在美国纽约进行的UFC(终极格斗冠军赛)322联合主赛中,中国选手张伟丽经...
美联邦官员证实执法人员在夏洛特... 15日,美国联邦官员证实,已加强了在北卡罗来纳州夏洛特市针对非法移民的执法力度。当天,联邦执法人员在...
日本前首相:高市早苗应坚持“无... △日本首相高市早苗(资料图)日本前首相、立宪民主党党首野田佳彦15日说,首相高市早苗应当坚持“无核三...
招商局集团有限公司原副总经理李... 招商局集团有限公司原党委委员、副总经理李百安涉嫌严重违纪违法,目前正接受中央纪委国家监委纪律审查和监...
教育部发布留学预警:中国公民谨... 今日,教育部发布留学预警。近段时间以来,日本社会治安不靖,针对中国公民的违法犯罪案件多发,治安形势和...
南部战区组织轰炸机编队位南海进... 南部战区新闻发言人田军里空军大校表示,11月14日,中国人民解放军南部战区组织轰炸机编队位南海进行例...
高市早苗涉台错误言论引发多方批... 日本首相高市早苗日前在国会答辩时公然发表涉台露骨挑衅言论,暗示可能武力介入台海问题,性质影响极其恶劣...
中国海警舰艇编队11月16日在... 11月16日,中国海警1307舰艇编队在我钓鱼岛领海内巡航。这是中国海警依法开展的维权巡航活动。
御寒“神器”电加热衣走红 专家... 随着入冬气温不断降低,一些具有加热保暖功能的电加热衣也逐渐走红。这到底是一种怎样的御寒神器?记者在网...
全国冬小麦播种过八成 各地抢抓... 农业农村部最新农情调度显示,目前,全国冬小麦播种已过八成。其中黄淮海近八成半。分省看,河南近八成,安...
俄称控制一定居点 乌军称打击俄... 当地时间15日,俄罗斯国防部发布战报称,俄军对保障乌克兰国防工业体系运行的能源设施、军用机场、乌国家...
加拿大本拿比市就歧视华裔历史正... 当地时间11月15日,加拿大不列颠哥伦比亚省大温哥华地区本拿比市就历史上针对华裔的歧视进行正式道歉。...
美国加州南部海域疑似偷渡船倾覆... 当地时间15日凌晨,美国加利福尼亚州南部海域发生一起疑似偷渡船倾覆事故。警方说,事故已导致4人死亡、...
乌克兰总统宣布启动国有能源企业... 当地时间11月15日,乌克兰总统泽连斯基通过社交媒体宣布,启动国有能源企业全面改革,同步推进财务审计...
继三大航司后,多家航司同日发布... 14日晚,外交部和中国驻日本使领馆就中国公民前往日本发布郑重提醒。15日,多家航司发出通知,公布了涉...
神舟二十二号飞船发射任务已启动... 神舟二十号乘组已平安返回地球,根据计划安排,后续将择机发射神舟二十二号飞船。据介绍,目前已启动神舟二...
航行警告!黄海中部连续三天24... 据中国海事局网站消息,盐城海事局发布航行警告,11月17日至19日,每日0时到24时,黄海中部部分海...
中国南极考察队成功救援1名俄南... 应俄罗斯方面请求,中国第42次南极考察队“雪鹰601”飞机,于11月14日成功将一名俄罗斯和平站病员...
王济生诗歌 紫竹院菊韵(诗三首... 1.双清秋尽黄花艳冷香朔风中紫竹邀仙子高洁见双清2.七彩碧波渺渺过旧船,紫竹浓处听潺潺。行宫百菊正浓...