Python
Python入门系列
Python字典
Python语法
Python代码规范与命名规则
uWSGI和WSGI之间的关系
Python字符编码
Python正则表达式
Python异常处理
Python循环控制
Python文件读写操作
Python模块和函数
Python类
Python格式处理
Python单元测试
Pythonweb采集
python的jQuery-Ajax使用
python的日志
Python变量-字符-数字
Python数组-元祖-字典-集合
Python输入输出
Python安装部署
centos下使用yum安装pip
Python原理说明
Python服务维护
Python模块
Python常用方法
Python新闻
Python使用案例
socket实现客户端和服务端
python射击游戏
将json转换成execl
Python连接Mysql测试
python发送文件
窗口实例化
Python_小说下载脚本
python代码编写规范
本文档使用 MrDoc 发布
-
+
home page
Pythonweb采集
## 一.访问页面 ```python import webbrowser webbrowser.open('http://www.baidu.com/') pip3 install requests import requests res = requests.get('http://www.gutenberg.org/cache/epub/1112/pg1112.txt') res.status_code == requests.codes.ok #返回真假 len(res.text) #变量保存 print(res.text[:250]) res.raise_for_status() #下载出错抛出异常,成功则不返回 playFile = open('a.txt', 'wb') #写入二进制文件,保存Unicode编码 for chunk in res.iter_content(100000): #指定字节数 playFile.write(chunk) playFile.close() ``` ```pyhon pip3 install sqlalchemy import sqlalchemy as sa conn = sa.create_engine('sqlite://') meta = sa.MetaData() zoo = sa.Table('zoo', meta, sa.Column('critter', sa.String, primary_key=True), sa.Column('count', sa.Integer), sa.Column('damages', sa.Float) ) meta.create_all(conn) conn.execute(zoo.insert(('bear', 2, 1000.0))) conn.execute(zoo.insert(('weasel', 1, 2000.0))) result = conn.execute(zoo.select()) #类似select * rows = result.fetchall() print(rows) #web import urllib.request as ur url = 'http://www.iheartquotes.com/api/v1/random' conn = ur.urlopen(url) print(conn) data = conn.read() #获取网页数据 print(data) conn.status #状态码 print(conn.getheader('Content-Type')) #数据格式 for key, value in conn.getheaders(): #查看所有http头 print(key, value) pip3 install requests import requests url = 'http://www.iheartquotes.com/api/v1/random' resp = requests.get(url) resp <Response [200]> print(resp.text) ``` ## 二.页面过滤 ```python pip3 install beautifulsoup4 import requests,bs4 res = requests.get('http://nostarch.com') res.raise_for_status() noStarchSoup = bs4.BeautifulSoup(res.text) exampleFile = open('example.html') exampleSoup = bs4.BeautifulSoup(exampleFile) soup.select('p #author') soup.select('p')[0] #只取第一个放里面 xx.get('id') #返回id的值 ``` ## 三.CSS选择器例子  ## 四.实际例子 example.html ```python <!-- This is the example.html example file. --> <html><head><title>The Website Title</title></head> <body> <p>Download my <strong>Python</strong> book from <a href="http:// inventwithpython.com">my website</a>.</p> <p class="slogan">Learn Python the easy way!</p> <p>By <span id="author">Al Sweigart</span></p> </body></html> ``` ```python #过滤文件的id import bs4 exampleFile = open('example.html') #打开到对象 exampleSoup = bs4.BeautifulSoup(exampleFile,features="html.parser") elems = exampleSoup.select('#author') #找寻id元素,返回列表 tag对象到变量 print(type(elems)) print(type(elems[0])) print(len(elems)) #看有几个匹配结果 print(elems[0].getText()) #返回第一个结果 print(str(elems[0])) #返回字符串,包含标签和文本 print(elems[0].attrs) #返回字典ID和值 ``` ```python #循环输出 import bs4 exampleFile = open('example.html') #打开到对象 exampleSoup = bs4.BeautifulSoup(exampleFile,features="html.parser") elems = exampleSoup.select('p') for i in range(len(elems)): print(str(elems[i])) print(elems[i].getText()) ```
日行一善
April 23, 2021, 8:57 a.m.
Share documents
Collection documents
Last
Next
Scan wechat
Copy link
Scan your mobile phone to share
Copy link
关于 MrDoc
觅思文档MrDoc
是
州的先生
开发并开源的在线文档系统,其适合作为个人和小型团队的云笔记、文档和知识库管理工具。
如果觅思文档给你或你的团队带来了帮助,欢迎对作者进行一些打赏捐助,这将有力支持作者持续投入精力更新和维护觅思文档,感谢你的捐助!
>>>捐助鸣谢列表
微信
支付宝
QQ
PayPal
QQ粉丝交流群:882382311
Markdown文件
share
link
type
password
Update password