百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

扒一扒,爬虫框架你都知道哪些?(爬虫框架 python)

ccwgpt 2024-10-10 04:53 20 浏览 0 评论

Nutch 官网: http://nutch.apache.org/

Nutch是一个成熟的、可生产的Web爬虫程序,用Java编写的开源网络爬虫,适用于分布式文件系统,也可以说Nutch 是一个分布式爬虫框架。

在爬取海量数据的项目上,它无疑是最好的选择。

Nutch 最特色的地方就是搜索,可拔插的索引存在于Apache Solr、Elastic Search、SolrCloud等等,可以自动发现网页超链接,减少很多维护工作,比如检查坏链接,为所有访问过的页面建立拷贝进行搜索,Solr是一个开源的全文搜索框架,通过Solr我们能够搜索Nutch已经访问过的网页,而Apache Nutch对于Solr已经支持得很好,这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网络应用以及依赖于Apache Lucene来进行索引的麻烦。只需要下载一个二进制的发行版即可

缺点:

a 不适合精准数据爬取,会将大量时间浪费在计算上,杀鸡焉用牛刀!

b 海量数据存储依赖 hadoop,集群运行时间较慢,耗时长

WebMagic 网址: http://webmagic.io/

简单灵活的Java爬虫框架,提供多线程和分布式支持

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy,但是实现方式更Java化一些

  • PageProcessor 负责解析页面,抽取有用信息,以及发现新的链接。需要自己定义。
  • Scheduler 负责管理待抓取的URL,以及一些去重的工作。一般无需自己定制
  • Pipeline 负责抽取结果的处理,包括计算、持久化到文件、数据库等。
  • Downloader 负责从互联网上下载页面,以便后续处理。一般无需自己实现。

Crawler4j

crawler4j是Java实现的开源网络爬虫,轻量级多线程网络爬虫

创建Crawler类,继承 WebCrawler,重写shouldVisitvisit方法

Heritrix

是由Java开发的开源Web爬虫系统,用来获取完整的、精确的站点内容的深度复制

由核心类(core classes)和插件模块(pluggable modules)构成

中央控制器 CrawlController 是核心组件,决定了整个抓取任务的开始与结束

用户在 Heritrix web UI 控制台设置抓取任务后,heritrix首先构造XMLSettingsHandler对象,然后调用CrawlController的构造函数,构造一个CrawlController实例并初始化,这样,CrawlController就具备了运行条件。

此时,只需调用 requestCrawlStart()方法就可以启动线程池和Frontier,以便向线程池中工作线程提供抓取用的URL链接

WebCollector

WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架(内核)

源码中集成了 Jsoup,可进行精准的网页解析。2.x 版本中集成了 selenium,可以处理 JavaScript 生成的数据

WebCollector目前有单机版和Hadoop版(WebCollector-Hadoop),单机版能够处理千万级别的URL,对于大部分的精数据采集任务,这已经足够了

以上框架都是基于JAVA 语言的,下面隆重介绍基于Python语言的框架Scrapy

Scrapy

Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试

入门教程文档: https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

创建一个新的Scrapy项目:

scrapy startproject tutorial

该命令将会创建包含下列内容的 tutorial 目录:

tutorial/
 scrapy.cfg
 tutorial/
 __init__.py
 items.py
 pipelines.py
 settings.py
 spiders/
 __init__.py
 ...	

这些文件分别是

scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.

结合上一篇帖子里的项目我们全面介绍一下Scrapy:

Scrapy整体架构大致如下:

编写爬虫代码开始--begin!!!

定义 Item

Item 是保存爬取到的数据的容器;其使用方法和python字典类似,

import scrapy
class ItcastItem(scrapy.Item):
 name = scrapy.Field()
 level = scrapy.Field()
 info = scrapy.Field()

爬虫(Spider)

为了创建一个Spider,您必须继承 scrapy.Spider 类, 且定义以下三个属性:

name: 用于区别Spider。名字必须是唯一的。

start_urls: 包含了Spider在启动时进行爬取的url列表。 因此,第一个被获取到的页面将是其中之一。 后续的URL则从初始的URL获取到的数据中提取。

parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

编写item pipeline

每个item pipeline组件都需要调用 process_item(item, spider) 方法,这个方法必须返回一个 Item (或任何继承类)对象, 或是抛出 DropItem 异常,被丢弃的item将不会被之后的pipeline组件所处理

配置文件settings.py

进入项目的根目录,执行下列命令启动spider

scrapy crawl itcast

代码的执行结果上一篇帖子有图片介绍。

有关技术和业务方面的问题欢迎私信讨论,希望大家多多关注!

相关推荐

盲盒小程序背后的技术揭秘:如何打造个性化购物体验

在2025年的今天,盲盒小程序作为一种新兴的购物方式,正以其独特的魅力和个性化体验吸引着越来越多的消费者。这种将线上购物与盲盒概念相结合的应用,不仅为消费者带来了未知的惊喜,还通过一系列技术手段实现了...

小程序·云开发已支持单日亿级调用量,接口可用率高达99.99%

2019-10-1914:1210月19日,由腾讯云与微信小程序团队联合举办的“小程序·云开发”技术峰会在北京召开。会上,微信小程序团队相关负责人表示“小程序·云开发”系统架构已经支持每天亿级别的...

程序员副业开启模式:8个GitHub上可以赚钱的小程序

前言开源项目作者:JackonYang今天推荐的这个项目是「list-of-wechat-mini-program-list」,开源微信小程序列表的列表、有赚钱能力的小程序开源代码。这个项目分为两部分...

深度科普:盲盒小程序开发的底层逻辑

在当下的数字化浪潮中,盲盒小程序以其独特的趣味性和互动性,吸引着众多消费者的目光。无论是热衷于收集玩偶的年轻人,还是享受拆盒惊喜的上班族,都对盲盒小程序情有独钟。那么,这种备受欢迎的盲盒小程序,其开发...

微信小程序的制作步骤

SaaS小程序制作平台,作为数字化转型时代下的创新产物,不仅将易用性置于设计的核心位置,让非技术背景的用户也能轻松上手,快速制作出功能丰富、界面精美的小程序,更在性能和稳定性方面投入了大量精力,以确保...

携程开源--小程序构建工具,三分钟搞定

前言今天推荐的这个项目是「wean」,一个小程序构建打包工具。在wean之前,大量小程序工具使用webpack进行打包,各种loader、plugin导致整个开发链路变长。wean旨在解...

校园小程序的搭建以及营收模式校园外卖程序校园跑腿校园圈子系统

校园小程序的架构设计主要包括云端架构和本地架构两部分。云端架构方面,采用Serverless架构可以降低技术门槛,通过阿里云、腾讯云等平台提供的云服务,可以实现弹性扩容和快速部署。例如,使用云数据库、...

盲盒小程序开发揭秘:技术架构与实现原理全解析

在2025年的今天,盲盒小程序作为一种结合了线上购物与趣味性的创新应用,正受到越来越多用户的喜爱。其背后的技术架构与实现原理,对于想要了解或涉足这一领域的人来说,无疑充满了神秘与吸引力。本文将为大家科...

月活百万的小程序架构设计:流量暴增秘籍

从小程序到"大"程序的蜕变之路当你的小程序用户量从几千跃升至百万级别时,原有的架构就像一件不合身的衣服,处处紧绷。这个阶段最常遇到的噩梦就是服务器崩溃、接口超时、数据丢失。想象一下,在...

认知智能如何与产业结合?专家学者共探理论框架与落地实践

当前,以大模型为代表的生成式人工智能等前沿技术加速迭代,如何将认知智能与产业结合,成为摆在各行各业面前的一个问题。论坛现场。主办方供图7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议在...

现代中医理论框架

...

认知行为(CBT)中的ABC情绪理论

情绪ABC理论是由美国心理学家阿尔伯特·艾利斯(AlbertEllis1913-2007)创建的理论,A表示诱发性事件(Activatingevent),B表示个体针对此诱发性事件产生的一些信...

说说卡伦霍妮的理论框架,对你调整性格和人际关系,价值很大

01自在今天我主要想说下霍妮的理论框架。主要说三本书,第一本是《我们时代的神经症人格》,第二本是《我们内心的冲突》,第三本是《神经症与人的成长》。根据我的经验,三本书价值巨大,但并不是每个人都能读进去...

供应链管理-理论框架

一个最佳价值的供应链,应该是一个具有敏捷性、适应性和联盟功能(3A)的供应链,其基本要素包括战略资源、物流管理、关系管理以及信息系统,目标是实现速度、质量、成本、柔性的竞争优势。篇幅有...

微信WeUI设计规范文件下载及使用方法

来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。WeUI是一套同微信原生视觉体验一致的基础样式库,由微信官方设计团队为微信Web开发量身设计,可以令用户的使用感知...

取消回复欢迎 发表评论: