在excel批量获取网页title

最近有一个清洗数据的过程中有了需求,需要在获取网址的title 后筛选链接进行。但是本人不会编写python 脚本因此求助于chatgtp

您可以使用Python中的pandasBeautifulSoup库来实现在Excel中批量获取网页标题。

以下是一个示例代码:

import pandas as pd
import requests
from bs4 import BeautifulSoup

# 读取Excel文件
df = pd.read_excel('文件名.xlsx')

# 创建一个空列表,用于存储网页标题
titles = []

# 循环遍历Excel中的每个网址,并获取其标题
for url in df['网址']:
    try:
        response = requests.get(url)
        soup = BeautifulSoup(response.content, 'html.parser')
        title = soup.title.string
        titles.append(title)
    except:
        titles.append('')

# 将标题添加到Excel文件中
df['标题'] = titles

# 将数据保存到Excel文件中
df.to_excel('文件名.xlsx', index=False)

这段代码会读取一个名为文件名.xlsx的Excel文件,并从中获取网址。然后,它会循环遍历每个网址,并使用requests库获取网页内容。接下来,使用BeautifulSoup库解析网页内容,并获取网页标题。最后,将标题添加到Excel文件中,并将数据保存到Excel文件中。

相关推荐

用Python去除图片水印

大家好,我是小五? 前一阵给大家分享了,如何给图片加水印。评论区就有小伙伴问,可不可使用Python去除图片水 ...

批量加水印

为什么要使用此工具 工作的时候,尤其是自媒体工作者,必备水印添加工具以保护知识产权,网上有许多的在线 / 下载 ...