当前位置:科技动态 > java怎么写网络爬虫

java怎么写网络爬虫

  • 发布:2023-10-04 13:10

网络爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

package com.cellstrain.icell.util; import www.sychzs.cn.*; import www.sychzs.cn.*; import java.util.regex.Matcher; import java.util.regex.Pattern; /**  * java实现爬虫  */ public class Robot {     public static void main(String[] args) {         URL url = null;         URLConnection urlconn = null;         BufferedReader br = null;         PrintWriter pw = null; //        String regex = "http://[\\w+\\.?/?]+\\.[A-Za-z]+";         String regex = "https://[\\w+\\.?/?]+\\.[A-Za-z]+";//url匹配规则         Pattern p = Pattern.compile(regex);         try {             url = new URL("https://www.sychzs.cn/cn");//爬取的网址、这里爬取的是一个生物网站             urlconn = url.openConnection();             pw = new PrintWriter(new FileWriter("D:/SiteURL.txt"), true);//将爬取到的链接放到D盘的SiteURL文件中             br = new BufferedReader(new InputStreamReader(                     urlconn.getInputStream()));             String buf = null;             while ((buf = br.readLine()) != null) {                 Matcher buf_m = p.matcher(buf);                 while (buf_m.find()) {                     pw.println(buf_www.sychzs.cn());                 }             }             System.out.println("爬取成功^_^");         } catch (MalformedURLException e) {             e.printStackTrace();         } catch (IOException e) {             e.printStackTrace();         } finally {             try {                 br.close();             } catch (IOException e) {                 e.printStackTrace();             }             pw.close();         }     } }

登录后复制

以上就是java怎么写网络爬虫的详细内容,更多请关注其它相关文章!

相关文章