Java

Java 网络爬虫基础入门

钱洋 · 机器学习博士

639人已买
详情
目录(14)

课程介绍

大数据环境下,数据分析已由业务驱动转变为数据驱动,网络数据资源呈指数级增长,且散落在不同的数据源之中。对大多数企业和研究者而言,用“数据说话”仿佛成了大数据时代的重要武器。网络爬虫作为网络数据获取的重要技术,受到了越来越多数据需求者的青睐和追捧。

作为网络爬虫的入门教程,本达人课采用 Java 开发语言,内容涵盖了网络爬虫的原理以及开发逻辑,Java 网络爬虫基础知识,网络抓包介绍,jsoup 的介绍与使用,HttpClient 的介绍与使用等内容。本课程在介绍网络爬虫基本原理的同时,注重具体的代码实现,加深读者对爬虫的理解,加强读者的实战能力。

本达人课共计14课,主要包含五大部分。

第一部分(第01-03课),主要介绍网络爬虫的原理、开发逻辑以及 Java 网络爬虫基础知识,网络抓包等内容。

第二部分(第04-06课),主要介绍现有的一些页面内容获取及页面解析工具。包括 jsoup、HttpClient、URLConnection。

第三部分(第07-08课),针对已获得的页面内容,带大家选择合适的解析工具进行页面解析,包括 HTML、XML、JSON 主流数据格式的解析。

第四部分(第09-11课),针对已解析的内容,介绍如何封装数据并存储数据。包括通过 MySQL 数据库存储数据,以及文本文件存储和 Excel 格式存储。

第五部分(第12-14课),以典型网站为案例,开启实战演练。

作者介绍

钱洋,机器学习方向博士生,CSDN 博客专家,主要从事文本挖掘方面的研究。目前,正参与几个大数据相关项目的研究工作。乐于分享自己的经验,擅长撰写技术类博客。

购买须知

  • 本课程内容版权归北京码字科技发展有限公司独家所有,未经授权,不得转载。
  • 本课程为虚拟产品,一经付费概不退款,敬请谅解。
  • 如您有任何使用疑问,可添加 GitChat 小助手(微信 ID: GitChatty2)进行咨询。

推荐达人课

查看更多
长按图片分享或保存x