1.首先,什么时候我们需要爬虫呢?
当我们需要某网站上的海量数据的时候,会发现,如果人工去把几百页,每页几十条到几百条的数据一条一条地复制下来,就太费时费力了,甚至根本就不可能。但是你做研究却需要这样的大量数据的支持。这个时候就可以用到爬虫了。
2.爬虫是什么原理呢?
爬虫我也给不出精确的定义,按照我自己的理解,爬虫就是让电脑程序模仿人去网页上查询信息的过程,来帮助人们自动地迅速地获取网页信息的一个技术。常用的方法就是让电脑程序去扫描网页的源代码,按照你的指示去寻找对应的内容(比如你需要所有标签p的内容,或者你需要某个class的内容)。爬虫时还经常涉及翻页,那你也需要去翻看网页源代码,找到各个页的网址的关系(通常网址的前面都是一样的,就是后面的一个数字在不断递增),然后告诉程序按照这样的规律去爬所有的页面。这样每一页的所有你需要的内容就到手了。
我个人觉得爬虫最耗时的过程倒是不写代码,而是分析网页源代码的HTML结构,找到你需要的内容对应的精确的标签。这样你的爬虫程序才能有的放矢地迅速获取你想要的内容。
3.用什么去爬虫?
我个人也是个菜鸟,对于我这个菜鸟来说,Python简直就是简单好用让人感动!而且我用PyCharm的IDE自带很多工具包,我写爬虫就用BeautifulSoup包,十分的简单,爬一般的网站的文本数据,10-20行代码肯定没问题。你可以去了解一下BeautifulSoup,相信学起来很有趣味的!嘻嘻~~
祝你学得开心~欢迎互相交流哦!