上一篇(利用爬虫&大模型获取行业动态 (一) 介绍了从资讯网站上获取最新消息链接的基本思路,本文将继续探讨如何加载获取到的链接网页内容,以及如何借助大模型的技术优势提取新闻的关键信息。
结合使用场景,我们可以借助大模型的能力提取新闻的关键信息,例如:
在获取到新闻链接后,下一步是提取网页中的有效内容。常见的方法有:
Html2Text 是一个简单的方法,用于将 HTML 内容转换为纯文本,但它的主要缺点是无法有效区分重要内容和非重要内容,如广告和导航栏。
我们看一下提取出来的前 300 个字符,发现开头很多内容都是无效信息。
近两年在大模型技术发展后,有很多开源工具提供了更好的网页内容提取方法,例如 Jina Reader,FireCrawl,Spider 等等。
其中 Jina Reader 的使用方法最为简单,在任何链接前面加上 https://r.jina.ai/
即可。
我们看一下 Jina Reader 提取出来的前 300 个字符,发现很规整的处理为标题、链接、正文三个部分,并去掉了无效信息。
在上一篇中,我们将爬取的新闻链接保存在了一个字典当中,因此在执行任务时可以将获取新闻内容的代码封装成一个函数,以便批量执行。
在获取到新闻内容之后,我们可以将其传入大模型进行处理,高效的阅读内容并提取关键标签和信息。
实现逻辑与以往介绍的案例无异,我们构建一个极简的任务做演示。
可以看到大模型基本上实现了给定的要求,当然实际应用中还需要对具体要求和提示词进行更多的优化,才能达到可在企业中起到真正作用的效果。