import requests from bs4 import BeautifulSoup from openpyxl import Workbook from datetime import datetime # -----参考文档,三件套------- # https://docs.python-requests.org/en/latest/ # https://www.crummy.com/software/BeautifulSoup/bs4/doc/ # https://openpyxl.readthedocs.io/en/stable/ # https://docs.python.org/3/library/stdtypes.html#str.strip (切片) # -----参考文档,三件套------- # 5.1 新增时间格式规范化输出文件名 # 获取当前时间 now = datetime.now() # 将时间格式化为指定的字符串格式 formatted_time = now.strftime('%Y-%-m-%-d') # 创建一个Workbook对象,用于Excel的读写 wb = Workbook() # 添加一个Sheet页,并且指定Sheet名称 sheet = wb.active sheet.title = 'Sheet1' # 定义变量row,用于循环时控制每一行的写入位置 row = 1 # 添加表头 sheet['A1'] = '栏目' sheet['B1'] = '标题' sheet['C1'] = '时间' # 遍历页码1从2页 for page_num in range(1,3): # f-string url = f"https://www.chinanews.com.cn/scroll-news/news{page_num}.html" # 反爬通用套码 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } r = requests.get(url, headers=headers) r.encoding='utf-8' soup = BeautifulSoup(r.text, 'html.parser') # 遍历栏目、标题和时间 dangdu_lanmu = soup.find_all('div', class_='dd_lm') dangdu_biaoti = soup.find_all('div', class_='dd_bt') dangdu_time = soup.find_all('div', class_='dd_time') # 追加具体数据 for news_num in range(len(dangdu_lanmu)): sheet.append([dangdu_lanmu[news_num].text.strip('[]'), dangdu_biaoti[news_num].text, dangdu_time[news_num].text]) # row=row+1 row += 1 # 保存Excel文件 wb.save("chinanews_{}.xlsx".format(formatted_time))
python教程
chinanews新闻资讯Python爬虫
- python爬虫
-
Python好看视频地址解析下载代码
#encoding:utf-8# 好看视频下载 import socketfrom urllib.request import urlopenimport urllibimport reimport timefrom pyquery import PyQuery as pqimport requestsfrom tqdm import tqdm # 打印进度条的库import gzip print('程序开始运...
-
python美女写真图库爬虫
import requestsfrom lxml import etreeimport csvfrom time import sleepimport osfrom concurrent.futures import ThreadPoolExecutor headers = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit...
-
笔趣阁小说网Python爬虫分享
#[url=https://www.biquge.info/wanjiexiaoshuo/]https://www.biquge.info/wanjiexiaoshuo/[/url] 笔趣阁小说全本爬虫import timeimport requestsimport osimport randomfrom lxml import etreeimport webbrowserheader = { "User-Agent": "Mo...
-
Python爬取站长之家端口扫描接口
import requests,timeimport randomfrom bs4 import BeautifulSoupimport reimport threadingdef ports(hostm,port): url = 'http://tool.chinaz.com/port/' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT ...
-
python爬虫下载抖音用户所有短视频+无水印方法
这次分享下载抖音用户所有短视频方法,python爬虫批量抓取,无水印下载,希望和大家多多交流互相学习!获取用户链接方法1、首先在抖音上随机挑选一个小姐姐,用户主页右上角点开,获取分享链接python下载抖音视频截图得到类似分享链接:在抖音,记录美好生活! https:...
-
01Python获取彩云天气实时天气API源码 4周前
-
02基于Django的RustDesk Api&Web Server源码分享 1个月前
-
03批量修改照片文件大小Python脚本 2个月前
-
04文本段落自动分隔格式化Python脚本 2个月前
-
05利用ffmpeg提取视频第一帧保存成图片 2个月前
-
01123网盘解析下载python脚本 640热度
-
02Python自动下载歌曲宝音乐和歌词脚本 425热度
-
03Python和彩云自动签到云函数脚本分享 383热度
-
04Python无需认证QQ扫码登录脚本 351热度
-
05基于百度API文字转语音Python示例代码 312热度