如何使用Shell构建多进程的CommandlineFu爬虫(shell,编程语言)

如何使用Shell构建多进程的CommandlineFu爬虫

导读：本文共4354.5字符，通常情况下阅读需要15分钟。同时您也可以点击右侧朗读，来听本文内容。按键盘←（左） →（右）方向键可以翻页。

摘要： CommandlineFu是一个记录脚本片段的网站，每个片段都有对应的功能说明和对应的标签。我想要做的就是尝试用 shell 写一个多进程的爬虫把这些代码片段记录在一个 org 文件中。参数定义这个脚本需要能够通过-n参数指定并发的爬虫数（默认为 CPU 核的数量），还要能通过-f指定保存的 org 文件路径（默认输出到 stdout）。#!/usr/bin/e... ...

音频解说

这里要解决的是上面提到的第三个问题:多进程对管道进行读写时如何保障不出现乱序?为此，我们需要在写入文件时对文件加锁，然后在写完文件后对文件解锁，在 shell 中我们可以使用flock来对文件进行枷锁。关于 flock 的使用方法和注意事项，请参见另一篇博文 Linux shell flock 文件锁的用法及注意事项。

由于需要在flock子进程中使用函数extract_views_from_browse_page，因此需要先导出该函数：

由于网络问题，使用 curl 获取内容可能失败，需要重复获取：

collector 用来从种子 URL 中抓取待爬的 URL，写入管道文件中，写操作期间管道文件同时作为锁文件：

这里要注意的是，在找不到下一页 URL 后，我们用一个 for 循环往队列里写入了 =proc_num= 个空行，这一步的目的是让后面解析代码片段的爬虫进程能够正常退出，而不至于被阻塞。

我们需要从脚本片段的页面中抽取标题、代码片段、描述说明以及标签信息，同时将这些内容按 org 模式的格式写入存储文件中。

这里抽取信息的方法跟上面的类似，不过代码片段和描述说明中可能有一些 HTML 代码，因此通过 pandoc 将之转换为 org 格式的内容。

注意***输出 org 模式的格式并写入存储文件中的代码不要写成下面这样：

它的意思是使用flock对cat命令进行加锁，再把flock整个命令的结果通过重定向输出到存储文件中，而重定向输出的这个过程是没有加锁的。

spider 从管道文件中读取待抓取的 URL，然后实施真正的抓取动作。

这里要注意的是，为了防止发生死锁，从管道中读取 URL 时设置了超时，当出现超时就意味着生产进程赶不上消费进程的消费速度,因此消费进程休眠一秒后再次检查队列中的 URL。

通过重新定义extract_views_from_browse_page、 extract_nextpage_from-browse_page、 view_page_handler这几个函数，以及提供一个新的种子 URL，我们可以很容易将其改造成抓取其他网站的多进程爬虫。

例如通过下面这段代码，就可以用来爬取xkcd上的漫画：

本文：如何使用Shell构建多进程的CommandlineFu爬虫的详细内容，希望对您有所帮助，信息来源于网络。

如何使用Shell构建多进程的CommandlineFu爬虫(shell,编程语言)

目录

25 人围观 / 0 条评论 ↓快速评论↓

搜索

最新文章

猜你喜欢

特价优惠

标签

流量统计