Discourse 中文搜索的时候不会统一简繁

在英文搜索的时候还是非常智能,中文搜索和传统论坛完全比不了,不知道有没有什么插件可以补足。

根据 Discourse 有关搜索的说法:Searching for content effectively - Using Discourse - Discourse Meta

同时,根据官方的说法:How is Discourse Search implemented? - Support - Discourse Meta

Discourse 基于 PostgreSQL 使用全文搜索。

ostgreSQL本身是支持全文检索的,提供两个数据类型(tsvector,tsquery),并且通过动态检索自然语言文档的集合,定位到最匹配的查询结果。其内置的默认的分词解析器采用空格进行分词,但是因为中文的词语之间没有空格分割,所以这种方法并不适用于中文。

要支持中文的全文检索需要额外的中文分词插件,zhparser就是其中一种,是基于Simple Chinese Word Segmentation(SCWS)中文分词库实现的一个PG 扩展。

PostgreSQL 默认情况下应该是没有为中文安装分词工具的。

可以参考下下面的扩展:GitHub - amutu/zhparser: zhparser is a PostgreSQL extension for full-text search of Chinese language

scws 中文分词词库:GitHub - hightman/scws: 开源免费的简易中文分词系统,PHP分词的上乘之选!

这个问题,主要是中文分词扩展的问题,只要扩展 PostgreSQL 中文全文搜索功能,通常能够提升搜索。

打开ai搜索试试?

我的网站是纯用爱发电,所以能省就省,我很担心这玩意的收费和给服务器性能的压力。

到现在还不知道你的网站的网址是什么 :grinning_face:

分享下吧。

用 AI,我这边只给管理员和高级用户生成内容和一些搜索来用,对普通用户,这个功能就禁用了。

指出上,还好。

没有感觉到特别多成本支出。

中文搜索一直是个大难题,主要是因为数据库原生对中文的支持度比较差,所以国内大多数涉及到数据库的业务都会有主键,或者索引。

想起telegram的中文搜索支持也是一坨💩