爬取网页中表格类信息数据并存储到excel表中

需要的工具：

Python3
requests
BeautifulSoup
openpyxl
re
PIL
urllib
pytesseract

本文两个例子的完整代码：https://github.com/huanyouchen/python-spider

本文目标

爬取网页中表格类的信息，并将这些信息存储到excel中。

实例1

目标URL： http://permit.mep.gov.cn/permitExt/outside/Publicity

全国排污许可证许可信息公开的相关信息

该网站展示的是全国排污许可证管理信息平台-公开端中许可信息公开的相关信息，目标是获取所有公开页面的表格中的省/直辖市、地市、许可证编号、单位名称、行业类别、有效期限、发证日期、查看链接，并将所有信息写入excel中。

实例2

目标URL： http://info.425500.cn/category-1-0-0-0-p1.html

江华地区物品交易平台的交易信息

该网站展示的是江华地区物品交易平台的交易信息，目标是获取每单交易的标题，发布时间，浏览次数，所在区域，联系电话，和交易详细链接，并将所有信息写入excel中。

爬取结果

实例1的结果

全国排污许可证许可信息公开的相关信息爬取结果

实例2的结果

江华地区物品交易平台的交易信息爬取结果

过程分析

完整代码在本文开头已经给出地址，需要自取。下面分析部分内容。

实例1分析

在get_end_page_num()函数中，获取最后一页的页码，需要用正则表达式来提取出第一个数字，也就是2019，表示一共有2019个页面。

1 2	# 获取最后一页页码 end_page_num = re.findall('\d+', end_page_text)[0]

获取表格数据核心代码:

trs = soup.find('div', class_='tb-con').find_all('tr')[1:]
# 存储该页表格数据
page_data = []
for tr in trs:
    row_data = []
    for td in tr:
        # 过滤掉'\n'字符和最后一个空的链接内容
        if td.string != '\n' and td.string:
            row_data.append(td.string)
    link = 'http://permit.mep.gov.cn' + \
            tr.select('td.bgcolor1 > a')[0]['href']
    row_data.append(link)
    page_data.append(row_data)
data += page_data
print("读取第%s页数据成功" % page_num)

在表格中，tr代表一行，td代表一列，外层循环获取每一行，内层循环获取每一行的每一列。
row_data存储一行中各列的数据，也就是省/直辖市、地市、许可证编号等，但是最后一列是超链接，需要单独处理一下然后存入到row_data中。
page_data存储的是每页的表格数据，也就是把这一页中的所有行数据row_data存到一起。
最后的data存储所有页page_data的数据。

本文使用openpyxl操作excel。将数据存入excel中：

for i in range(2, len(data) + 2):
    # 编号
    sheet.cell(row=i, column=1, value=i-1)
    for j in range(1, 8):
        try:
            sheet.cell(row=i, column=j+1, value=data[i-2][j-1])
            # 最后一个单元格链接单独处理
            sheet.cell(row=i, column=9, value=('=HYPERLINK("%s")' % (data[i-2][7])))
        except Exception as e:
            print("第" + i + "行", "第" + j + "列数据写入出错")
            print(e)
wb.save("全国排污许可证管理信息平台许可公开信息.xlsx")  # EXCEL保存

存入excel表格中也需要用两个循环，i表示行递增，j表示每一行的列，将data中的数据依次存入即可。

其中有一个小知识点，爬到的查看链接是URL，需要用把url用超链接的形式写入Excel中，具体用法是在value里面加入=HYPERLINK：

1	sheet.cell(row=i, column=9, value=('=HYPERLINK("%s")' % (data[i-2][7])))

实例2分析

实例2比实例1复杂一点，主要有两点。

第一点，获取电话号码，该网站的电话号码不是文本形式，而是一个图片，用Chrome开发者工具查看相关源码如下：

1
2
3

<li>联系方式：<span class="cBlack">
 <img align="absmiddle" src="../public/ajax.aspx?action=drawinfoimage&amp;in=8SwlFtKb9u10iAntlNhdM8Vg==&amp;size=16">
                </span> </li>

电话图片的地址为： http://info.425500.cn/public/ajax.aspx?action=drawinfoimage&in=8SwlFtKb9u10iAntlNhdM8Vg==&size=16

思路是提取出电话图片的地址url，然后用urllib中的urlretrieve把图片下载到本地，然后使用Tesseract识别图片中的文字，将识别出来的结果返回得到文本形式的电话号码，然后写入excel中。

关于Tesseract的下载和使用： http://huanyouchen.github.io/2018/05/10/install-Tesseract-and-use-it-with-py/

这部分的实现代码:

def img_to_str(image_path):
    # 识别图片上的电话
    return pytesseract.image_to_string(Image.open(image_path))

tel_img_down_path = './telImg/'
if not os.path.exists(tel_img_down_path):
    os.mkdir(tel_img_down_path)
tel_img_src = soup.select("div.newscontent2 > div.nc2-content > ul > li > span.cBlack > img")[0].get("src")
tel_img_src_full = "http://info.425500.cn" + tel_img_src[2:]
tel_img_title = title + '.png'
# 将电话图片下载到指定文件夹，用tesseract识别出电话号码
urllib.request.urlretrieve(tel_img_src_full,
                            os.path.join(tel_img_down_path, tel_img_title))
tel = img_to_str(tel_img_down_path + tel_img_title)

另一个点是对浏览次数的获取。浏览次数相关页面源码如下:

1
2
3

<span class="left news-span2">浏览
<script src="../public/ajax.aspx?action=addnum&amp;id=6581&amp;t=1"></script>114次
</span>

浏览次数使用后台脚本计算后返回给前端页面中的，先用Dev工具中的Network找到这段脚本：

后台累加浏览次数脚本

该脚本地址为：http://info.425500.cn/public/ajax.aspx?action=addnum&id=6576&t=1

其中id为该次交易信息的id号，这个id号在本物品交易详情的url中，比如这个哈士奇出售的交易详情url: http://info.425500.cn/info-6576.html

思路是首先从物品交易详情页面的url中提取出该物品交易id号，将这个id号作为参数传入后台累加浏览次数脚本的url中，用request请求该脚本链接，然后用正则表达式提取出返回信息中的浏览次数。

这部分实现代码：

info_id = re.findall('\d+', link.split('/')[-1])[0]  # 通过网址获取交易编号
# 交易信息浏览次数是通过后台脚本处理的:http://info.425500.cn/public/ajax.aspx?action=addnum&id=交易编号&t=1
info_id_add_url = 'http://info.425500.cn/public/ajax.aspx?action=addnum&id=%s&t=1' % info_id
view_num = requests.get(info_id_add_url).text
view_num = "浏览了" + re.findall('\d+', view_num)[0] + "次"   # 正则取出交易浏览次数