java 简易实现网络爬虫

什么是网络爬虫?

维基百科

网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

百度百科

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

java网络爬虫练习项目

一个比较简单的java练习项目。

需要知识

项目思路

慕课网的猿问页面,寻找一个你喜欢的问题页面,利用http请求获取问题页面的源码,然后通过正则表达式,不断爬取相关问题页面。

项目介绍

该项目存在三个类 Imooc.java : imooc问题bean类 Spider.java: 封装用来爬取页面的方法类 Main.java: 运行起始页面

项目源码

IMOOCSpider项目已上传到我的github上—-传送门 欢迎Star

下载下来后导入eclipse即可运行。

项目运行结果

结果.png