一个基于 .NET 的多平台热门新闻/热榜爬虫库,当前支持微博、知乎、B 站、百度、抖音、虎扑、头条、腾讯、掘金、澎湃、凤凰网、豆瓣等平台爬虫
一个基于 .NET 开箱即用的爬虫库,使用复杂度极低,预设多平台热榜爬虫,当前支持微博、知乎、B 站、百度、抖音、虎扑、头条、腾讯、掘金、澎湃、凤凰网、豆瓣、Csdn、博客园等平台爬虫,除了预设热榜数据爬取,也支持动态数据集爬取。项目开源,后续将增加更多平台及数据、视频爬取。
- 抓取间隔建议控制在五分钟以上,避免频繁抓取导致 IP 被封禁
- 爬取的数据仅限用于个人学习、研究或公益目的。不得用于商业售卖、攻击他人或任何非法活动,否则需自行承担法律责任。
安装(NuGet)推荐聚合包(含全部平台): dotnet add package Aneiang.Pa
按需引用单个包(示例): dotnet add package Aneiang.Pa.BaiDu
已发布包[td]| Package | 说明 | | Aneiang.Pa | 聚合包,包含全部平台实现 | | Aneiang.Pa.Core | 核心接口与模型、代理池功能 | | Aneiang.Pa.Dynamic | 动态爬虫 | | Aneiang.Pa.AspNetCore | ASP.NET Core Web API 扩展(提供 RESTful API 控制器) | | Aneiang.Pa.BaiDu | 百度热榜爬虫 | | Aneiang.Pa.Bilibili | B 站热搜爬虫 | | Aneiang.Pa.WeiBo | 微博热搜爬虫 | | Aneiang.Pa.ZhiHu | 知乎热榜爬虫 | | Aneiang.Pa.DouYin | 抖音热榜爬虫 | | Aneiang.Pa.HuPu | 虎扑热帖/热榜爬虫 | | Aneiang.Pa.TouTiao | 今日头条热榜爬虫 | | Aneiang.Pa.Tencent | 腾讯热榜爬虫 | | Aneiang.Pa.JueJin | 掘金热榜爬虫 | | Aneiang.Pa.ThePaper | 澎湃热榜爬虫 | | Aneiang.Pa.DouBan | 豆瓣热榜爬虫 | | Aneiang.Pa.IFeng | 凤凰网热榜爬虫 | | Aneiang.Pa.Csdn | CSDN热榜爬虫 | | Aneiang.Pa.CnBlog | 博客园热榜爬虫 |
代理池功能(Proxy Pool)支持配置多个代理服务器,自动轮询或随机选择代理进行请求,有效避免 IP 被封禁。 功能特性- ✅ 支持多个代理服务器配置
- ✅ 支持两种选择策略:轮询(RoundRobin)和随机(Random)
- ✅ 支持带认证的代理(http://user:password@host:port)
- ✅ 可通过配置文件或代码配置
- ✅ 未启用时自动退化为普通 HttpClient
代理选择策略- RoundRobin(轮询):按顺序依次使用代理服务器,确保负载均衡
- Random(随机):每次随机选择一个代理服务器
代理地址格式支持以下格式的代理地址: - http://host:port - HTTP 代理(无认证)
- http://user:password@host:port - HTTP 代理(带认证)
- https://host:port - HTTPS 代理
注意事项- 启用检查:如果 Enabled = true 但未配置代理列表,会抛出异常
- HttpClient 名称:默认 HttpClient 名称为 Aneiang.Pa.DefaultHttpClient,爬虫会自动使用该 HttpClient
- 代理优先级:如果在 AddNewsScraper 之前调用 AddPaDefaultHttpClientWithProxy,爬虫会使用配置的代理池
- 未启用时:当 Enabled = false 或代理列表为空时,会自动退化为普通 HttpClient,不影响正常使用
一个基于 .NET 的多平台热门新闻/热榜爬虫库,当前支持微博、知乎、B 站、百度、抖音、虎扑、头条、腾讯、 ...

链接: https://pan.baidu.com/s/1Ee_pagnRllD0ExEWKTcK0Q
提取码下载:
|