做个记录
保存还没写,写好还要可视化读出来。。真为自己智商捉急啊,才这几行。写不下去了。
import requests
import re
#获取单页
def get_one_page(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
#提取内容
def parse_one_page(html):
pattern = re.compile('</dd>.*?board-index-.*?>(.*?)</i>.*?data-src="(.*?.jpg).*?alt.*?name.*?href="(.*?)title="(.*?)".*?star">'
'(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>' , re.S)
items = re.findall(pattern , html)
for item in items:
#yield返回一个列表
yield {
'页数' : item[0],
'图片' : item[1],
'链接' : item[2],
'标题' : item[3],
'主演' : item[4].strip()[3:],
'上映时间' : item[5][5:],
'评分': item[6] + item[7]
}
def main(page):
url = 'http://maoyan.com/board/4?offset=' + str(page)
html = get_one_page(url)
get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__ == '__main__':
for i in range(10):
main(i*10)
结果是这样的,列表形式