这个标签下收录了 3 篇内容,包含博客记录与知识库条目。
这篇文章记录的是一套大规模无状态爬虫系统的设计。 先说明一下参与边界:这套系统不是我一个人独立设计完成的。我主要负责爬虫端的核心设计和实现,另一位同事是项目主要负责人,他有十余年的架构设计经验,整体系统设计、调度中心以及很多关键取舍都由他主...
这是一组爬虫和 JS 逆向相关的面试题。 这类面试不会只问“会不会用 requests”,更常见的是从一个具体业务场景开始追问:怎么登录、怎么抓动态接口、怎么处理反爬、百万级数据怎么调度、数据怎么进入后续处理链路。 这篇文章按面试题复盘的方...
通过一个公开练习站点示例,学习 Scrapy 项目创建、数据解析、分页抓取、Item 与 Pipeline 的基础用法。