爬取网页中表格类信息数据并存储到excel表中
需要的工具:
- Python3
- requests
- BeautifulSoup
- openpyxl
- re
- PIL
- urllib
- pytesseract
本文两个例子的完整代码:https://github.com/huanyouchen/python-spider
需要的工具:
本文两个例子的完整代码:https://github.com/huanyouchen/python-spider
django版本:2.0.4
mysql版本:5.7.22-0ubuntu0.16.04.1
pymysql版本:0.8.1
django连接MySQL数据库过程如下:
首先安装PyMySQL: pip install pymysql
系统: ubuntu16.04 64位
Python3.5版本
tensorflow: 1.8(CPU版本)
bazel: bazel-0.13.1
注意:本文安装的是TensorFlow的CPU版本, 不是GPU版本的
官网方法在Ubuntu上通过pip或者Virtualenv安装TensorFlow: https://www.tensorflow.org/install/install_linux
mysql存储的时候报错:
1 | pymysql.err.DataError: (1406, "Data too long for column 'songlist_url' at row 1") |
查看网上资料有说因为数据库中设置的字符长度不够,我加长了以后依然会报错。另一种说法是由于输入了中文,编码出现了问题。
查看MySQL的status;
,发现:
1 | Server characterset: latin1 |
导入BeautifulSoup: from bs4 import BeautifulSoup
报错信息:
class TreeBuilderForHtml5lib(html5lib.treebuilders._base.TreeBuilder):
AttributeError: ‘module’ object has no attribute ‘_base’
系统中同时存在python2.7
, python3.5
, python3.6
多个版本的Python,,而pip install安装时需要指定安装在某个Python下,,方法如下:
1 | sudo python3.5 -m pip install openpyxl |