Google Ads和Discourse hub的爬虫机器人被CF拦截

:rofl:我的waf配置限制了只能国内ip访问,审核ads.txt的时候开了一个跳过规则可以通过,正式审核的时候再也跳不过,结果被拒绝。

:thinking:有个疑问,如果论坛是拒绝匿名访问,机器人没被拦截的话,审核会不会通过?

这个discourse不知道是干嘛用的,需不需要想办法让它访问?

discourse hub 应该是一个 APP。

你是不是在 discourse 网站上提交过你的网站,或者用了 discourse hub 的 APP。

建议还是最好让它们访问吧。

没有,最近两天才安装成功的,今天弄广告插件配置才发现它访问。

尽量试试怎么放它们通行,waf 配置能力有限 :rofl:

如果网站上没有什么敏感信息的话,基本上就全部放行吧。

记得博客园有发过这样这样一个帖子:

2022年之前的十多年,我们没有做任何SEO,但百度一直对园子很友好,好到成为一种烦恼。因为排名前,收录快,很多想推广的人想尽办法骗过审核开通博客发推广内容,以求快速被百度收录,甚至有人在淘宝开店专门卖已经开通博客的博客园账号,后来我们多次向淘宝投诉这个商品才被下架。

由于身在福中不知福,我们没有花心思去研究SEO,也懒得关注搜索排名与收录情况,而不少人误以为我们擅长SEO。

2022年春天,我们刚刚从2021年大半年的整改中恢复过来,百废待兴,那时最大的担心是怕审核工作做不到位带来合规风险,那时甚至希望百度搜索排名低一些,收录慢一些,因为越容易被搜索到,合规风险越大。再加上随着广告单子的突然减少,流量变现成烦恼,搜索流量反而成为成本负担。

当我们在被百度青睐所带来的幸福中不思进取时,追求持续创新的百度默默无闻地升级了蜘蛛系统。

我是有点不太明白,一个网站有必要和搜索较劲吗?

系统出问题,改改呀。

所以还是尽量不要有过多限制就好。

1 Like

博客园是自己把自己给玩死的。

网站还是多开放流量好一些。

就怕觉得是敏感信息,不过还没开放注册,单纯是怕被国外的扫ip才屏蔽的 :rofl:而且怕被攻击,还没部署的时候天天被扫,直接屏蔽后少了很多。

我这个受众比较小,能搞就搞,不能搞就摆烂 :joy:,还没到博客园的规模。

听说还可能会被墙,这个一年的玩具先用用。

1 Like

哈哈。

心态比较好,直接躺平。

现在就是各种限制太多了,网络生态不太好。

很多东西其实让市场去做就好了,办不下去了,自然就会想办法或者关闭了。

很多东西还没有开始办,就各种自我审查,自我阉割,一声叹息。

很怀念 2000 年左右的那个互联网环境,什么都可以说,什么都可以做,很多好的想法和创意都是那个年代弄的。

1 Like

是的,就是环境不好,才想搭一个。

最近才发现我都还没了解到的那些论坛,一个个都中途关站了 。

:rofl:没人就自己玩,小白搭论坛,纯当练手,还能学到不少。

是这样的。

抱着学习的心态去就好了。

Discourse 的备份机制还是挺好的,文件什么都基本上全部都是云备份,恢复也很快。

只要官方还一直在维护,通常都不会有什么太大问题, 就是服务器挂了,从云备份上恢复起来也很快。

唯一感觉就是 Discourse 选的语言实在是太小众,有学习曲线。

Ruby 这网红语言这些年又在走下坡路,各种资料也更新得不那么频繁了。

1 Like
(cf.client.bot) or (http.user_agent contains "duckduckgo") or (http.user_agent contains "facebookexternalhit") or (http.user_agent contains "Feedfetcher-Google") or (http.user_agent contains "LinkedInBot") or (http.user_agent contains "Mediapartners-Google") or (http.user_agent contains "msnbot") or (http.user_agent contains "Slackbot") or (http.user_agent contains "TwitterBot") or (http.user_agent contains "ia_archive") or (http.user_agent contains "yahoo") or (http.user_agent contains "Bingbot")

选择跳过,随后保存

1. cf.client.bot

  • Cloudflare 的验证请求:标识来自 Cloudflare 的已知爬虫流量,通常用于确定合法流量。

2. http.user_agent contains "duckduckgo"

  • DuckDuckGo 的爬虫:DuckDuckBot 用于抓取内容,为 DuckDuckGo 搜索引擎提供索引。

3. http.user_agent contains "facebookexternalhit"

  • Facebook 的爬虫:当链接分享到 Facebook 时,这个爬虫会抓取页面内容(如预览图、标题和描述)以生成分享摘要。

4. http.user_agent contains "Feedfetcher-Google"

  • Google Feedfetcher:Google 用于抓取 RSS 或 Atom feed 的爬虫,通常服务于 Google News 和 Google Reader。

5. http.user_agent contains "LinkedInBot"

  • LinkedIn 的爬虫:抓取页面内容以生成在 LinkedIn 上分享时的预览摘要。

6. http.user_agent contains "Mediapartners-Google"

  • Google 广告爬虫:专门抓取页面内容,用于分析和优化 Google AdSense 广告投放。

7. http.user_agent contains "msnbot"

  • Microsoft Bing 的爬虫:Bing 的早期版本爬虫,现在主要由 Bingbot 取代,但部分站点仍有请求。

8. http.user_agent contains "Slackbot"

  • Slack 的爬虫:当链接分享至 Slack 时,抓取页面以生成内容预览(标题、描述、图片)。

9. http.user_agent contains "TwitterBot"

  • Twitter 的爬虫:生成 Twitter 上的卡片预览(Card Preview)时抓取页面内容。

10. http.user_agent contains "ia_archive"

  • Internet Archive 的爬虫:用于 Wayback Machine 的网页存档和快照生成。

11. http.user_agent contains "yahoo"

  • Yahoo 的爬虫:为 Yahoo 搜索引擎抓取内容,可能包含 Slurp 爬虫。
1 Like

我的论坛和博客,基本上都是我的一个小圈子里看,SEO对我来说卵用没有,收录了挺好,不收录我还乐意呢,省了很多流量费用。

拿隔壁的L站来说,名气大了之后DDoS就没停过

我就很害怕这个,因为我手无缚鸡之力 :rofl:

看了他们的评论后才设置的区域屏蔽。

7 posts were split to a new topic: 网站的日活用户