标签: 爬虫

python爬虫

python爬虫学习笔记(三)——股票数据定向爬虫

功能描述目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中技术路线:requests      ­bs4­       re候选数据网站的选择新浪股票:http://finance.sina.com.cn/stock/(数据保存在js中,本源码无法爬取)百度股票:https://gupiao.baidu.com/stock/(已挂)候选数据网站的选择选取原则:股票信息静态存在于HTML页面中,非js代码生成,没有Robots协议限制选取方法:浏览器F12,源代码查看等选取心态:不要纠结于某个网站,多找信息源尝试程序的结构设计步骤1:从东方财富网获取股票列表(2020年也改存在js了)我们这里选取其他网页(天天基金网)步骤2:根据股票列表逐个到百度股票获取个股信息步骤3:将结果存储到文件

python爬虫

python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)

功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。理解:淘宝的搜索接口翻页的处理技术路线:requests­     re程序的结构设计步骤1:提交商品搜索请求,循环获取页面步骤2:对于每个页面,提取商品名称和价格信息步骤3:将信息输出到屏幕上