您的位置：首页 >综合 >

当前聚焦：爬虫技术是什么技术？网络爬虫抓取个人信息怎么抓？

来源：环球信息网时间：2022-07-06 11:10:03

01 爬虫是什么

网络爬虫（又被称为网页蜘蛛、网络机器人，在FOAF社区中，更经常地称为网页追逐者）是一种按照一定的规则，自动抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

【资料图】

网络爬虫通过爬取互联网上网站服务器的内容来工作。它是用计算机语言编写的程序或脚本，用于自动从Internet上获取信息或数据，扫描并抓取每个所需页面上的某些信息，直到处理完所有能正常打开的页面。

作为搜索引擎的重要组成部分，爬虫首要的功能就是爬取网页数据（如图2-1所示），目前市面流行的采集器软件都是运用网络爬虫的原理或功能。

▲图2-1 网络爬虫象形图

02 爬虫的意义

现如今大数据时代已经到来，网络爬虫技术成为这个时代不可或缺的一部分，企业需要数据来分析用户行为、自己产品的不足之处以及竞争对手的信息等，而这一切的首要条件就是数据的采集。

网络爬虫的价值其实就是数据的价值，在互联网社会中，数据是无价之宝，一切皆为数据，谁拥有了大量有用的数据，谁就拥有了决策的主动权。网络爬虫的应用领域很多，如搜索引擎、数据采集、广告过滤、大数据分析等。

1）抓取各大电商网站的商品销量信息及用户评价来进行分析，如图2-2所示。

▲图2-2 电商网站的商品销售信息

2）分析大众点评、美团网等餐饮类网站的用户消费、评价和发展趋势，如图2-3所示。

▲图2-3 餐饮类网站的用户消费信息

3）分析各个城市中学区房的比例，以及学区房比普通二手房价格高出多少，如图2-4所示。

▲图2-4 学区房的比例与价格对比

以上数据是通过前嗅ForeSpider数据采集软件爬下来的，有兴趣的读者可以尝试自己爬一些数据。

03 爬虫的原理

我们通常会将网络爬虫的组成模块分为初链接库、网络抓取模块、网页处理模块、网页分析模块、DNS模块、待抓取链接队列、网页库等，网络爬虫的各系模块可形成一个循坏体系，从而不断地进行分析和抓取。

爬虫的工作原理可以很简单地解释为先找到目标信息网，然后页面抓取模块，接着页面分析模块，最后数据存储模块。其具体详情如图2-5所示。

▲图2-5 爬虫原理图

爬虫工作基本流程：

首先在互联网中选出一部分网页，以这些网页的链接地址作为种子URL；将这些种子URL放入待抓取的URL队列中，爬虫从待抓取的URL队列依次读取；将URL通过DNS解析；把链接地址转换为网站服务器对应的IP地址；网页下载器通过网站服务器对网页进行下载；下载的网页为网页文档形式；对网页文档中的URL进行抽取；过滤掉已经抓取的URL；对未进行抓取的URL继续循环抓取，直至待抓取URL队列为空。 04 爬虫技术的类型

聚焦网络爬虫是“面向特定主题需求”的一种爬虫程序，而通用网络爬虫则是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

增量抓取意即针对某个站点的数据进行抓取，当网站的新增数据或者该站点的数据发生变化后，自动地抓取它新增的或者变化后的数据。

Web页面按存在方式可以分为表层网页（surface Web）和深层网页（deep Web，也称invisible Web pages或hidden Web）。

表层网页是指传统搜索引擎可以索引的页面，即以超链接可以到达的静态网页为主来构成的Web页面。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。

关于爬虫技术类型的更详细讲解请戳详解4种类型的爬虫技术。

标签：

热门资讯

不愧是抗皱标杆！-郑明明润妍抗皱套组成分干货整理 现在发现胶原蛋白流失速度也太快了...
“本草帝国”牌口罩：瘦脸美颜引领后疫情时代“口罩时尚” 要说现在什么是最日常，最不可或缺...
贵阳东大肛肠医院：惊！患者长期腹胀、腹泻，检查发现胃部竟长了100多枚息肉 35岁女性患者，长期腹部隐胀，经常...
婴幼儿玩具哪个好？懂儿童的Hape，更值得信赖 消费者在商店给孩子选购玩具的时候...

观察

图片新闻

大运河文化溢出效应初现多品类产品辐射不同人群 7月2日，北京市委书记蔡奇到城市副...
星纪时代收购魅族科技79.09%控股权仍将独立品牌运营 7月4日，湖北星纪时代科技有限公司...
市场主体执行包装“瘦身”新规形成食品行业绿色生产 今年5月24日，市场监管总局发布了...
咖啡广受消费者喜爱夏日咖啡消费提示请收好 泡一杯咖啡，品咂它的苦涩与醇厚，...

精彩新闻

视焦点讯！受大风天气影响 7月6日新疆部分列车停轮停运 记者从中国铁路乌鲁木齐局集团有限...
全球观察：微软将不再为 Games with Gold 用户提供免费 Xbox 360 游戏 IT之家7月6日消息，据TheVerge消息...
全球今热点：天津首个百亿级城市更新项目迎来“开门四喜” 7月5日，记者从天津港保税区城市更...
百事通！鲶鱼被炖？特斯拉今年股价已跌40% 全球销冠也被比亚迪抢走了 鲶鱼被炖？特斯拉今年股价已跌40%...
今日热讯：青海公布第一批涉企收费目录清单 为切实推进涉企收费治理长效机制的...
全球快讯:7月5日山东省无新增本土确诊病例、本土无症状感染者 2022年7月5日0时至24时，山东省报...
今日快看!苹果发布Apple TV Siri Remote遥控器固件更新，版本代号10M1103 IT之家7月6日消息，今日，苹果发布...
世界通讯！消息称 Bungie 正与网易合作开发安卓、iOS 版《命运》手游 IT之家7月6日消息，据报道，Bungie...
今日要闻!部分经营者和创作者开始行动 “剧本杀”告别野蛮生长 “剧本杀”告别野蛮生长合肥本地的...
每日看点！湖北首款全碳纤维复合材料轻型飞机首飞成功 IT之家7月6日消息，据湖北日报报道...
“未维修”却要价千余元格力电器发布虚假售后电话引关注？ 7月5日，格力电器发布声明称，近日...
环球动态:（财经·行情）美元指数5日大幅上涨 新华社纽约7月5日电（记者刘亚南）...
连亏三年 “内衣第一股”都市丽人成立电商公司 连亏三年，内衣第一股都市丽人盯上...
市值暴跌90% 涂鸦智能在美国资本市场大幅下跌？ 去年3月，涂鸦智能登陆纽交所，今...
7月中旬至8月中旬鞍山暑期旅游报价新鲜出炉基本与往年持平 暑假即将来临，暑期旅游报价也新鲜...
太原六项措施激发双创活力促进市场主体倍增 7月5日，记者从太原市政府新闻办召...
创新高地逐渐隆起！我市20亿元科技专项资金投入支持科技创新 7月5日，从市财政局获悉，围绕科技...
本月起太原市取消城乡居民医保“两病”门诊用药保障机制 7月5日，市医保局发布消息，本月起...
西山煤电：2022年起煤矿单班入井人数每年减少10%以上 7月4日，山西焦煤西山煤电马兰矿18...
世界快报:国际油价5日暴跌 新华社纽约7月5日电（记者刘亚南）...
注意！7月6日起长沙城区民办学校、子弟学校征集志愿录取 7月6日起，长沙市城区民办学校、子...
严肃招生纪律长沙市教育局发布紧急通知 长沙市教育局今日发布通知称，近日...
最新消息！常益长高铁益阳至长沙段预计6月底开通运营 近日，多位市民反映，常益长高铁益...
受强降雨影响广铁部分列车停运铁路部门提醒：办理停运列车车票退票免收手续费 记者今日从广铁获悉，受强降雨影响...
经营渐显疲态长沙美食广场如何维持“流量王”的名声？ 7月4日傍晚，五一商圈内的行人渐渐...
北京启动职业本科试点职教学生成长通道将更加畅通 7月5日，2022年北京市职业教育工作...
三年内产业规模突破100亿元海南游艇产业驶入发展快车道 接二连三的政策利好，正在助推海南...
蜜芽9月10日关闭App 曾被资本捧红的赛道为何高光褪色如此之快？ 线下门店业务离场还不到两年，蜜芽...
98股披露上半年业绩预告通威股份预计净利超百亿元 7月5日，随着通威股份(600438)、东...
排队超一年！传神语联IPO又撤单了刚回复举报信事件 已有过一次IPO撤单经历的传神语联...
年内93家小贷公司退出市场！海南取消5家试点资格 小贷行业的清理整顿仍在持续进行中...
土耳其发现大量稀土资源储量足以满足全球1000年需求 稀土，也被称为21世纪的黄金，是一...
环球精选！美国重返月球计划，NASA 称上周发射的 Capstone立方体卫星已失联 IT之家7月6日消息，据央视新闻，美...
世界球精选！微软将 Beta 预览通道一分为二，推送 22621/22622版 Win11 更新 IT之家7月6日消息，微软今日宣布，...
前沿资讯!董明珠：格力电器专利数量突破 10 万件 IT之家7月6日消息，据“董明珠自媒...
每日简讯：苏宁易购回应“破产清算”传闻：谣言，目前经营一切正常 IT之家7月6日消息，今日凌晨，苏宁...
观速讯丨安徽省启动供应链金融助微行动计划将覆盖百万小微市场主体 7月5日，由安徽省地方金融监管局、...
今日精选：消息称 R 星已搁置多个复刻项目，全力冲刺《GTA6》的开发 IT之家7月6日消息，去年11月，R星...
天天热点！【一城百面】重庆方言喜剧人创意舞台传承巴渝文化 “有客到，茶两位，好喜剧，嘿扯馆...
天天播报:北京7月5日新增5例本土确诊病例和1例本土无症状感染者 据北京市卫健委通报，7月5日0时至2...
天天实时：上海昨日新增9例本土确诊病例新增15例本土无症状感染者 上海市卫健委今早（7月6日）通报：...
今日视点：北京地铁3号线首列车正式下线 昨天（7月5日），北京地铁3号线电...
当前最新：【暖新闻·江西2022】守护花开！助力贫困学子圆梦大学 “我们上学无忧了，谢谢你们。”日...
世界观点：受“暹芭”影响江西部分乡镇出现洪涝灾害 （记者邓玉玲）受台风“暹芭”影响...
今热点：小米 12S / Pro 今日开售：首发骁龙 8 +，3999 元起 IT之家7月6日消息，小米12S与小米1...
全球球精选！俄罗斯新法案：尚未设立办事处的外国科技公司将面临严厉处罚 IT之家7月6日消息，俄罗斯立法部门...
【环球热闻】天津全年募集不少于2.6万个就业见习岗 近日，天津市多部门联合印发《百万...
视讯！【航拍赣鄱】“渔光互补”开辟生态惠民新路径 季夏时节，临湖而立，旭日伴着微风...
世界今头条！微星发布新款一体机，最高可选 i7-1260P 移动处理器 IT之家7月5日消息，据Tom sHard...
最资讯丨苹果 iOS/iPadOS 15.6 开发者预览版 Beta 5 发布 【点此直达描述文件下载】IT之家7...