• Stars
    star
    337
  • Rank 125,272 (Top 3 %)
  • Language
    Java
  • Created about 7 years ago
  • Updated about 2 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

一个基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入线上生产使用。

JAVA爬虫框架实战

基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能,教程学习地址)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入生产试用中。

后台管理统计系统源码

体验系统地址:http://182.92.82.188:8280/manage/login.jsp

体验账号/密码,test1001/a12345678

后台系统源码:https://github.com/hemin1003/aylson-parent

关于我

欢迎交流问题,可加我的个人QQ 469580884,或群号 751925591,一起探讨交流问题

我的博客地址

个人域名

感谢

如果觉得内容赞,您可以请我喝一杯咖啡:
    



参考项目资料如下:

欢迎使用 Gather Platform 数据采集与分析平台


Readme in English

详细使用方法请参考 在线文档

Build Status

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能

  • 根据配置的模板进行数据采集,支持Ajax网页采集
  • 在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间
  • 动态字段抽取与静态字段植入
  • 已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据
  • 对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词
  • 含有相关文章推荐,文章中人物、地点之间的关联关系分析

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集.、

不需要进行任何编码就可以完成一个功能强大的爬虫.

show

Windows/Mac/Linux 全平台支持

本系统需要如下依赖:

  • JDK 8 及以上
  • Tomcat 8.3 及以上

可选依赖组件:

 - Elasticsearch 5.0

部署、使用方法、二次开发手册、常见问题等全部迁移至在线文档

More Repositories

1

spring-boot-study

SpringBoot框架源码实战(已更新到springboot2版本实现)~基本用法,Rest,Controller,事件监听,连接数据库MySQL,jpa,redis集成,mybatis集成(声明式与xml两种方式~对应的添删查改功能),日志处理,devtools配置,拦截器用法,资源配置读取,测试集成,Web层实现请求映射,security安全验证,rabbitMq集成,kafka集成,分布式id生成器等。项目实战:https://github.com/hemin1003/yfax-parent 已投入生产线上使用
Java
537
star
2

yfax-parent

SprintBoot开发的Rest API接口项目实战,集成了拦截器,日志处理,mysql,mybatis, oauth2.0, spring secutity等,已投入生产线上使用。应用了https://github.com/hemin1003/spring-boot-study 所含功能。配套的后台管理系统实战见:https://github.com/hemin1003/aylson-parent
Java
291
star
3

spring-cloud-study

SpringCloud源码实战微服务框架(202003更新到SpringCloud的Greenwich版本,即基于SpringBoot2.1.7版本,以及新增SpringCloud Alibaba从入门到精通教程),涉及内容:配置中心,注册中心,服务提供者,服务消费者,熔断器,配置服务,API Gateway,API网关限流ratelimit,服务链路追踪zipkin,hystrix监控,监控聚合中心turbine等
Java
233
star
4

aylson-parent

一个SpringMVC4+EasyUI的后台管理系统,已投入生产线上使用。下载导入SQL脚本,开箱即用,五分钟完成部署。
JavaScript
147
star
5

dubbo-spring-study

构建 Zookeeper + Dubbo + Spring Boot 的分布式调用入门学习项目实战。旧搭建教程地址:http://blog.csdn.net/hemin1003/article/details/64439876 / 最新搭建教程(201908更新):https://blog.csdn.net/hemin1003/article/details/96483573。Alibaba dubbo框架架构学习,二次开发等:https://github.com/hemin1003/alibaba-dubbo-study
Java
58
star
6

aylson-parent-new

一个SpringMVC4+EasyUI的后台管理系统,重新整理简洁版:后台管理系统模板
JavaScript
27
star
7

vue-apps

使用vue.js+nodejs开发的微信端实例项目实战,配合vue-router和webpack等,正式环境已运营地址(微信中打开):http://ktz.aylsonclub.com/home
Vue
19
star
8

awesome-project

个人项目开源汇总说明,希望能有借鉴意义,对大家有所帮助。项目实战中,这一套架构功能,除了IOS和Android,其他的都来自于我一个人开发(也有基于别人平台二次开发的功能),同时还包括测试、线上运维、集成、部署等,整理好来与大家分享、探讨,希望抛砖引玉,对大家能有所帮助,不喜勿喷哈,O(∩_∩)O谢谢
18
star
9

java-study

JAVA相关技术实现,文件流操作,常用的设计模式,数据结构实现,算法应用和案例,JAVA8一些新特性新功能(Lambda用法,Steam API用法),一致性hash算法代码实现,ELK集成,Hadoop HDFS实现等
Java
11
star
10

alibaba-dubbo-study

alibaba dubbo框架架构学习,二次开发等
Java
5
star
11

redisdemo

Redis For Java 练习代码 ,安装、配置,数据类型使用,发布订阅,数据备份和恢复,以及安全和集群功能,安全和集群功能,主从复制,Sentinel使用,Redis持久化配置等
Java
3
star
12

Conference-Track-Management

背包问题应用,经典的背包问题算法
Java
2
star
13

blogweb

使用GitHub pages + Hexo 快速搭建个性化博客,访问地址:https://hemin1003.github.io/
JavaScript
2
star
14

php-study

PHP学习代码
PHP
1
star
15

md-news-web

JavaScript
1
star
16

html

项目已废弃
JavaScript
1
star
17

hadoop-study

java操作hadoop hdfs api的用法,mapreduce基本用法、编码规范,自定义数据类型(序列化、反序列化机制),自定义排序算法,Partitioner自定义实现等
Java
1
star
18

dcos

A book about DC/OS to record my own experience
GCC Machine Description
1
star
19

cakephp

cakephp框架学习
PHP
1
star
20

go-study

Go语言练习代码
Go
1
star