有没有前后端分离的python爬虫系统推荐?

您好(✪▽✪)!很高兴回答您的题!

在传统的Web应用开发中,大多数的程序员会将浏览器作为前后端的分界线。将浏览器中为用户进行页面展示的部分称之为前端,而将运行在服务器,为前端提供业务逻辑和数据准备的所有代码统称为后端。所谓前后端分离的开发,就是前后端工程师约定好数据交互接口,并行的进行开发和测试,后端只提供数据,不负责将数据渲染到页面上,前端通过HTTP请求获取数据并负责将数据渲染到页面上,这个工作是交给浏览器中的JavaScript代码来完成。

使用前后端分离开发有诸多的好处,下面我们简要的说下这些好处:

提升开发效率。前后端分离以后,可以实现前后端代码的解耦,只要前后端沟通约定好应用所需接口以及接口参数,便可以开始并行开发,无需等待对方的开发工作结束。在这种情况下,前后端工程师都可以只专注于自己的开发工作,有助于打造出更好的团队。除此之外,在前后端分离的开发模式下,即使需求发生变更,只要接口与数据格式不变,后端开发人员就不需要修改代码,只要前端进行变动即可。

增强代码的可维护性。前后端分离后,应用的代码不再是前后端混合,只有在运行期才会有调用依赖关系,这样的话维护代码的工作将变得轻松愉快很多,再不会牵一发而动全身。当你的代码变得简明且整洁时,代码的可读性和可维护性都会有质的提升。

支持多终端和服务化架构。前后端分离后,同一套数据接口可以为不同的终端提供服务,更有助于打造多终端应用;此外,由于后端提供的接口之间可以通过HTTP(S)进行调用,有助于打造服务化架构(包括微服务)。

接下来我们就用前后端分离的方式来改写之前的**应用。

返回JSON格式的数据

刚才说过,在前后端分离的开发模式下,后端需要为前端提供数据接口,这些接口通常返回JSON格式的数据。在Django项目中,我们可以先将对象处理成字典,然后就可以利用Django封装的JsonResponse向浏览器返回JSON格式的数据,具体的做法如下所示。

def show_subjects(request):

queryset = Subject.objects.all()

subjects = []

for subject in queryset:

subjects.append({

‘no’: subject.no,

‘n**e’: subject.n**e,

‘intro’: subject.intro,

‘isHot’: subject.is_hot

})

return JsonResponse(subjects, safe=False)

上面的代码中,我们通过循环遍历查询学科得到的QuerySet对象,将每个学科的数据处理成一个字典,在将字典保存在名为subjects的列表容器中,最后利用JsonResponse完成对列表的序列化,向浏览器返回JSON格式的数据。由于JsonResponse序列化的是一个列表而不是字典,所以需要指定safe参数的值为False才能完成对subjects的序列化,否则会产生TypeError异常。

可能大家已经发现了,自己写代码将一个对象转成字典是比较麻烦的,如果对象的属性很多而且某些属性又关联到一个比较复杂的对象时,情况会变得更加糟糕。为此我们可以使用一个名为bp**ppers的三方库来简化将对象转成字典的操作,这个三方库本身也提供了对Django框架的支持。

安装三方库bp**ppers。

pip install bp**ppers

编写映射器(实现对象到字典转换)。

from bp**ppers.djangomodel import ModelMapper

from poll2.models import Subject

class SubjectMapper(ModelMapper):

class Meta:

model = Subject

修改视图函数。

def show_subjects(request):

queryset = Subject.objects.all()

subjects = []

for subject in queryset:

subjects.append(SubjectMapper(subject).as_dict())

return JsonResponse(subjects, safe=False)

配置URL映射,然后访问该接口,可以得到如下所示的JSON格式数据。

[

{

“no”: 101,

“n**e”: “Python全栈+人工智能”,

“intro”: “Python是一种计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于**的、大型项目的开发。”,

“create_date”: “2017-08-01”,

“is_hot”: true

},

// 此处省略下面的内容

]

如果不希望在JSON数据中显示学科的成立时间,我们可以在映射器中排除create_date属性;如果希望将是否为热门学科对应的键取名为isHot(默认的名字是is_hot),也可以通过修改映射器来做到。具体的做法如下所示:

from bp**ppers import RawField

from bp**ppers.djangomodel import ModelMapper

from poll2.models import Subject

class SubjectMapper(ModelMapper):

isHot = RawField(‘is_hot’)

class Meta:

model = Subject

exclude = (‘create_date’, ‘is_hot’)

再次查看学科接口返回的JSON数据。

[

{

“no”: 101,

“n**e”: “Python全栈+人工智能”,

“intro”: “Python是一种计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于**的、大型项目的开发。”,

“isHot”: true

},

// 此处省略下面的内容

]

关于bp**ppers详细的使用指南,请参考它的官方文档,这个官方文档是用日语书写的,可以使用浏览器的翻译功能将它翻译成你熟悉的语言即可。

使用Vue.js渲染页面

关于Vue.js的知识,我们在第21天到第30天的内容中已经介绍过了,这里我们不再进行赘述。如果希望全面的了解和学习Vue.js,建议阅读它的官方教程或者在YouTube上搜索Vue.js的新手教程(Crash Course)进行学习。

重新改写subjects.html页面,使用Vue.js来渲染页面。

<!DOCTYPE html>

<html lang=”en”>

<head>

<meta charset=”UTF-8″>

<title>学科</title>

</head>

<body>

<h1>所有学科</h1>

<hr>

<div id=”app”>

<div v-for=”subject in subjects”>

<h3>

<a :href=”getTeachersHref(subject.no)”>{{ subject.n**e }}</a>

<img v-if=”subject.isHot” src=”/static/i**ges/hot.png” width=”32″>

</h3>

<p>{{ subject.intro }}</p>

</div>

</div>

<script src=”https://cdn.bootcss.com/vue/2.6.10/vue.min.js”></script>

<script>

const app = new Vue({

el: ‘#app’,

data: {

subjects: []

},

created() {

fetch(‘/subjects/’)

.then(resp => resp.json())

.then(json => this.subjects = json)

},

methods: {

getTeachersHref(sno) {

return `/static/teachers.html/?sno=${sno}`

}

}

})

</script>

</body>

</html>

总之,前后端分离的开发需要将前端页面作为静态资源进行部署,项目实际上线的时候,我们会对整个Web应用进行动静分离,静态资源通过Nginx或Apache服务器进行部署,生成动态内容的Python程序部署在uWSGI或者Gunicorn服务器上,对动态内容的请求由Nginx或Apache路由到uWSGI或Gunicorn服务器上。

其实Python做爬虫的开源项目还挺多的,列举几个供你参考。

Crawlab

技术:Golang + Vue

有点:不局限于 scrapy,可以运行任何语言和框架的爬虫,精美的 UI 界面,天然支持分布式爬虫,支持节点管理、爬虫管理、任务管理、定时任务、结果导出、数据统计、消息通知、可配置爬虫、在线编辑代码等功能

缺点:暂时不支持爬虫版本管理

评分:14.2K

有没有前后端分离的python爬虫系统推荐?

有没有前后端分离的python爬虫系统推荐?

有没有前后端分离的python爬虫系统推荐?

有没有前后端分离的python爬虫系统推荐?

有没有前后端分离的python爬虫系统推荐?

Scrapydweb

技术:Python Flask + Vue

优点:精美的 UI 界面,内置了 scrapy 日志解析器,有较多任务运行统计图表,支持节点管理、定时任务、邮件提醒、移动界面,算是 scrapy-based **能完善的爬虫管理平台

缺点:不支持 scrapy 以外的爬虫,Python Flask 为后端,性能上有一定局限性

评分:1.2K

有没有前后端分离的python爬虫系统推荐?

Gerapy

技术:Python Django + Vue

优点:Gerapy 是崔庆才大神开发的爬虫管理平台,安装部署非常简单,同样基于 scrapyd,有精美的 UI 界面,支持节点管理、代码编辑、可配置规则等功能

缺点:同样不支持 scrapy 以外的爬虫,而且据使用者反馈,1.0 版本有很多 bug,期待 2.0 版本会有一定程度的改进

评分:1.9K

有没有前后端分离的python爬虫系统推荐?

有没有前后端分离的python爬虫系统推荐?

有没有前后端分离的python爬虫系统推荐?

有没有前后端分离的python爬虫系统推荐?

SpiderKeeper

技术:Python Flask

优点:基于 scrapyd,开源版 Scrapyhub,非常简洁的 UI 界面,支持定时任务

缺点:可能有些过于简洁了,不支持分页,不支持节点管理,不支持 scrapy 以外的爬虫

评分:2.9K

有没有前后端分离的python爬虫系统推荐?

有没有前后端分离的python爬虫系统推荐?

有没有前后端分离的python爬虫系统推荐?

Awesome-Spider

这里面收集了很多现成的爬虫。最后请良性的使用爬虫技术,技术是无辜的,它没有辨别能力的。斟酌使用!

如果你觉得对你有帮助,或还有其它想了解,欢迎留言关注@杰森***。

我手上有py重构的系统,但是还不能开源。

原创文章,作者:秒收号,如若转载,请注明出处:https://www.miaoshou.cc/5191.html

(0)
上一篇 2021年6月24日 15:07
下一篇 2021年6月24日 15:16

相关推荐