Sphinx vs. MySql - 搜索好友列表(效率/速度)

weixin_0010034

13人浏览 · 2022-09-10 01:20:55

weixin_0010034 · 2022-09-10 01:20:55 发布

问题:Sphinx vs. MySql - 搜索好友列表(效率/速度)

我正在将我的应用程序搜索从 MySQL 移植到 Sphinx,并且很难弄清楚这一点,或者它是否甚至需要移植(我真的想知道是否值得在这种特定情况下使用 sphinx 以提高效率/速度):

users
uid uname
  1    alex
  2    barry
  3    david

friends
uid | fid
  1     2
  2     1
  1     3
  3     1

详情如下:

- InnoDB

- users: uid 上的索引,uname 上的索引

- friends: uid,fid 上的组合索引

通常,用 mysql 搜索 alex 的所有朋友:

$uid = 1
$searchstr = "%$friendSearch%";
$query = "SELECT f.fid, u.uname FROM friends f 
          JOIN users u ON f.fid=u.uid
          WHERE f.uid=:uid AND u.uname LIKE :friendSearch";
$friends = $dbh->prepare($query);
$friends->bindParam(':uid', $uid, PDO::PARAM_INT);
$friends->bindParam(':friendSearch', $searchstr, PDO::PARAM_STR);
$friends->execute();

使用 sphinx vs mysql 找到 alex 的朋友是否更有效率,或者这是否有点矫枉过正?

如果 sphinx 会更快,因为列表中有数千人,索引查询会是什么样子?我将如何删除与 sphinx 不再存在的友谊,在这种情况下我可以举一个详细的例子吗?我应该更改此查询以使用 Sphinx 吗?

解答

好的,这就是我看到这个工作的方式。

我对 MongoDB 有完全相同的问题。 MongoDB“提供”了搜索功能,但就像 MySQL 一样,你永远不应该使用它们,除非你想被 IO、CPU 和内存问题所困扰,并且被迫使用比平时更多的服务器来处理你的索引。

如果使用 Sphinx(或其他搜索技术),整个想法是通过拥有高性能索引搜索器来降低每台服务器的成本。

然而,Sphinx 不是存储引擎。查询跨表的确切关系并不那么简单,他们已经用 SphinxQL 稍微修正了这一点,但由于全文索引的性质,它仍然不像你在 MySQL 中那样进行整体连接。

相反,我会将关系存储在 MySQL 中,但在 Sphinx 中有一个“用户”索引。

在我的网站中,我个人有 2 个索引:

main(包含用户、视频、频道和播放列表)
help(帮助系统搜索)

这些增量每分钟更新一次。由于实时索引有时仍然是实验性的,而且我个人已经看到了高插入/删除率的问题,所以我坚持进行增量更新。因此,我将使用增量索引来更新我网站的主要可搜索对象,因为这比实时索引(来自我自己的测试)占用的资源更少且性能更高。

请注意,为了通过 delta 处理删除以及您的 Sphinx 集合,您将需要一个 killlist 和某些过滤器用于您的 delta 索引。这是我的索引中的一个示例:

source main_delta : main
{
    sql_query_pre = SET NAMES utf8
    sql_query_pre =
    sql_query = \
        SELECT id, deleted,  _id, uid, listing, title, description, category, tags, author_name, duration, rating, views, type, adult, videos, UNIX_TIMESTAMP(date_uploaded) AS date_uploaded \
        FROM documents \
        WHERE id>( SELECT max_doc_id FROM sph_counter WHERE counter_id=1 ) OR update_time >( SELECT last_index_time FROM sph_counter WHERE counter_id=1 )

    sql_query_killlist = SELECT id FROM documents WHERE update_time>=( SELECT last_index_time FROM sph_counter WHERE counter_id=1 ) OR deleted = 1
}

这每分钟处理一次删除和添加,这对于真正的 Web 应用程序来说几乎是实时的。

所以现在我们知道如何存储我们的索引了。我需要谈谈关系。 Sphinx(即使它有 SphinxQL)不会跨数据进行整体连接,所以我个人建议在 Sphinx 之外进行关系,不仅如此,而且正如我所说,这个关系表会得到高负载,所以这可能会影响狮身人面像指数。

我会做一个查询来挑选所有的 id 并使用那组 id 使用 sphinx API 上的“过滤器”方法将主索引过滤到特定的文档 id。完成此操作后,您可以像往常一样在 Sphinx 中搜索。这是迄今为止我发现的处理此问题的最有效的方法。

始终要记住的关键是,Sphinx 是一种搜索技术,而 MySQL 是一种存储技术。记住这一点,你应该没问题。

编辑

正如@N.B 所说(我在回答中忽略了)Sphinx 确实有 SphinxSE。尽管它是原始的并且仍处于其开发的测试阶段(与实时索引相同),但它确实为 Sphinx 提供了一个实际的 MyISAM/InnoDB 类型的存储。这太棒了。但是有一些警告(与任何事情一样):

语言原始
关节原始

但是,它可以/可以完成您正在寻找的工作,因此请务必对其进行调查。

向你推荐>>>开发者社区

华为、百度、京东云现已入驻，来创建你的专属开发者社区吧！

更多推荐

111222342343

MySQL数据库

锁定 mySQL 表/行

问题:锁定 mySQL 表/行有人可以解释在 mysql 中锁定表和/或行的需要吗? 我假设它可以防止多次写入同一字段,这是最佳做法吗? 解答首先让我们看看一个好的文档这不是一个与 mysql 相关的文档,它是关于 postgreSQl 的,但它是我读过的关于事务的更简单明了的文档之一。阅读此链接http://www.postgresql.org/docs/8.4/static/mvcc.h

MySQL数据库

处理ON INSERT触发器时innodb表如何被锁定?

问题:处理ON INSERT触发器时innodb表如何被锁定? 我有两个 innodb 表: 文章 id | title | sum_votes ------------------------------ 1 | art 1 | 5 2 | art 2 | 8 3 | art 3 | 35 投票 id | article_id | vote ---------------------------