最近有一个清洗数据的过程中有了需求,需要在获取网址的title 后筛选链接进行。但是本人不会编写python 脚本因此求助于chatgtp
您可以使用Python中的pandas
和BeautifulSoup
库来实现在Excel中批量获取网页标题。
以下是一个示例代码:
import pandas as pd
import requests
from bs4 import BeautifulSoup
# 读取Excel文件
df = pd.read_excel('文件名.xlsx')
# 创建一个空列表,用于存储网页标题
titles = []
# 循环遍历Excel中的每个网址,并获取其标题
for url in df['网址']:
try:
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
title = soup.title.string
titles.append(title)
except:
titles.append('')
# 将标题添加到Excel文件中
df['标题'] = titles
# 将数据保存到Excel文件中
df.to_excel('文件名.xlsx', index=False)
这段代码会读取一个名为文件名.xlsx
的Excel文件,并从中获取网址。然后,它会循环遍历每个网址,并使用requests
库获取网页内容。接下来,使用BeautifulSoup
库解析网页内容,并获取网页标题。最后,将标题添加到Excel文件中,并将数据保存到Excel文件中。