Google Ads和Discourse hub的爬虫机器人被CF拦截

Dummy · November 22, 2024, 8:02am

我的waf配置限制了只能国内ip访问，审核ads.txt的时候开了一个跳过规则可以通过，正式审核的时候再也跳不过，结果被拒绝。

有个疑问，如果论坛是拒绝匿名访问，机器人没被拦截的话，审核会不会通过？

这个discourse不知道是干嘛用的，需不需要想办法让它访问？

honeymoose · November 22, 2024, 1:09pm

discourse hub 应该是一个 APP。

你是不是在 discourse 网站上提交过你的网站，或者用了 discourse hub 的 APP。

建议还是最好让它们访问吧。

Dummy · November 22, 2024, 1:23pm

没有，最近两天才安装成功的，今天弄广告插件配置才发现它访问。

尽量试试怎么放它们通行，waf 配置能力有限。

honeymoose · November 22, 2024, 1:40pm

如果网站上没有什么敏感信息的话，基本上就全部放行吧。

记得博客园有发过这样这样一个帖子：

2022年之前的十多年，我们没有做任何SEO，但百度一直对园子很友好，好到成为一种烦恼。因为排名前，收录快，很多想推广的人想尽办法骗过审核开通博客发推广内容，以求快速被百度收录，甚至有人在淘宝开店专门卖已经开通博客的博客园账号，后来我们多次向淘宝投诉这个商品才被下架。

由于身在福中不知福，我们没有花心思去研究SEO，也懒得关注搜索排名与收录情况，而不少人误以为我们擅长SEO。

2022年春天，我们刚刚从2021年大半年的整改中恢复过来，百废待兴，那时最大的担心是怕审核工作做不到位带来合规风险，那时甚至希望百度搜索排名低一些，收录慢一些，因为越容易被搜索到，合规风险越大。再加上随着广告单子的突然减少，流量变现成烦恼，搜索流量反而成为成本负担。

当我们在被百度青睐所带来的幸福中不思进取时，追求持续创新的百度默默无闻地升级了蜘蛛系统。

我是有点不太明白，一个网站有必要和搜索较劲吗？

系统出问题，改改呀。

所以还是尽量不要有过多限制就好。

hex · November 22, 2024, 1:50pm

博客园是自己把自己给玩死的。

网站还是多开放流量好一些。

Dummy · November 22, 2024, 2:03pm

就怕觉得是敏感信息，不过还没开放注册，单纯是怕被国外的扫ip才屏蔽的而且怕被攻击，还没部署的时候天天被扫，直接屏蔽后少了很多。

我这个受众比较小，能搞就搞，不能搞就摆烂，还没到博客园的规模。

听说还可能会被墙，这个一年的玩具先用用。

honeymoose · November 22, 2024, 2:10pm

哈哈。

心态比较好，直接躺平。

现在就是各种限制太多了，网络生态不太好。

很多东西其实让市场去做就好了，办不下去了，自然就会想办法或者关闭了。

很多东西还没有开始办，就各种自我审查，自我阉割，一声叹息。

很怀念 2000 年左右的那个互联网环境，什么都可以说，什么都可以做，很多好的想法和创意都是那个年代弄的。

Dummy · November 22, 2024, 2:22pm

是的，就是环境不好，才想搭一个。

最近才发现我都还没了解到的那些论坛，一个个都中途关站了。

没人就自己玩，小白搭论坛，纯当练手，还能学到不少。

honeymoose · November 22, 2024, 2:27pm

是这样的。

抱着学习的心态去就好了。

Discourse 的备份机制还是挺好的，文件什么都基本上全部都是云备份，恢复也很快。

只要官方还一直在维护，通常都不会有什么太大问题，就是服务器挂了，从云备份上恢复起来也很快。

唯一感觉就是 Discourse 选的语言实在是太小众，有学习曲线。

Ruby 这网红语言这些年又在走下坡路，各种资料也更新得不那么频繁了。

VegaMonika · December 4, 2024, 12:08pm

(cf.client.bot) or (http.user_agent contains "duckduckgo") or (http.user_agent contains "facebookexternalhit") or (http.user_agent contains "Feedfetcher-Google") or (http.user_agent contains "LinkedInBot") or (http.user_agent contains "Mediapartners-Google") or (http.user_agent contains "msnbot") or (http.user_agent contains "Slackbot") or (http.user_agent contains "TwitterBot") or (http.user_agent contains "ia_archive") or (http.user_agent contains "yahoo") or (http.user_agent contains "Bingbot")

选择跳过，随后保存

1. `cf.client.bot`

Cloudflare 的验证请求：标识来自 Cloudflare 的已知爬虫流量，通常用于确定合法流量。

2. `http.user_agent contains "duckduckgo"`

DuckDuckGo 的爬虫：DuckDuckBot 用于抓取内容，为 DuckDuckGo 搜索引擎提供索引。

3. `http.user_agent contains "facebookexternalhit"`

Facebook 的爬虫：当链接分享到 Facebook 时，这个爬虫会抓取页面内容（如预览图、标题和描述）以生成分享摘要。

4. `http.user_agent contains "Feedfetcher-Google"`

Google Feedfetcher：Google 用于抓取 RSS 或 Atom feed 的爬虫，通常服务于 Google News 和 Google Reader。

5. `http.user_agent contains "LinkedInBot"`

LinkedIn 的爬虫：抓取页面内容以生成在 LinkedIn 上分享时的预览摘要。

6. `http.user_agent contains "Mediapartners-Google"`

Google 广告爬虫：专门抓取页面内容，用于分析和优化 Google AdSense 广告投放。

7. `http.user_agent contains "msnbot"`

Microsoft Bing 的爬虫：Bing 的早期版本爬虫，现在主要由 Bingbot 取代，但部分站点仍有请求。

8. `http.user_agent contains "Slackbot"`

Slack 的爬虫：当链接分享至 Slack 时，抓取页面以生成内容预览（标题、描述、图片）。

9. `http.user_agent contains "TwitterBot"`

Twitter 的爬虫：生成 Twitter 上的卡片预览（Card Preview）时抓取页面内容。

10. `http.user_agent contains "ia_archive"`

Internet Archive 的爬虫：用于 Wayback Machine 的网页存档和快照生成。

11. `http.user_agent contains "yahoo"`

Yahoo 的爬虫：为 Yahoo 搜索引擎抓取内容，可能包含 Slurp 爬虫。

luobo · December 6, 2024, 3:19am

我的论坛和博客，基本上都是我的一个小圈子里看，SEO对我来说卵用没有，收录了挺好，不收录我还乐意呢，省了很多流量费用。

拿隔壁的L站来说，名气大了之后DDoS就没停过

Dummy · December 6, 2024, 3:23am

我就很害怕这个，因为我手无缚鸡之力。

看了他们的评论后才设置的区域屏蔽。

honeymoose · December 6, 2024, 2:52pm

7 posts were split to a new topic: 网站的日活用户

Topic		Replies	Views
如何在 Cloudflare 中跳过 SEO 爬虫 Discourse discourse	1	41	December 26, 2024
Google ad 展示时有时无 Discourse discourse	13	432	October 31, 2023
Discourse 安装 Google Adsense Discourse discourse	27	1005	February 26, 2025
各位大哥，我发现一个奇怪的现象，是啥问题？ Discourse discourse	11	34	December 2, 2024
发现本站discourse突然多了很多话题和网友站务客服 discourse	40	292	November 5, 2024

Google Ads和Discourse hub的爬虫机器人被CF拦截

1. cf.client.bot

2. http.user_agent contains "duckduckgo"

3. http.user_agent contains "facebookexternalhit"

4. http.user_agent contains "Feedfetcher-Google"

5. http.user_agent contains "LinkedInBot"

6. http.user_agent contains "Mediapartners-Google"

7. http.user_agent contains "msnbot"

8. http.user_agent contains "Slackbot"

9. http.user_agent contains "TwitterBot"

10. http.user_agent contains "ia_archive"

11. http.user_agent contains "yahoo"

Related topics