轻松上手,快乐学习!

MySQL 教程

MySQL 首页MySQL 介绍MySQL 安装MySQL 实例库下载MySQL 实例库导入MySQL SELECTMySQL DISTINCTMySQL ORDER BYMySQL WHEREMySQL ANDMySQL ORMySQL INMySQL BETWEENMySQL LIKEMySQL LIMITMySQL IS NULLMySQL 别名MySQL JOINSMySQL INNER JOINMySQL LEFT JOINMySQL RIGHT JOINMySQL CROSS JOINMySQL SELF JOINMySQL GROUP BYMySQL HAVINGMySQL ROLLUPMySQL 子查询MySQL 派生表MySQL EXISTSMySQL CTEMySQL 递归 CTEMySQL UNIONMySQL INTERSECTMySQL MINUSMySQL INSERTMySQL INSERT INTO SELECTMySQL INSERT IGNOREMySQL UPDATEMySQL UPDATE JOINMySQL DELETEMySQL ON DELETE CASCADEMySQL DELETE JOINMySQL REPLACEMySQL PREPAREMySQL 事务MySQL 表锁定MySQL USEMySQL 数据库管理MySQL CREATE DATABASEMySQL DROP DATABASEMySQL 存储引擎MySQL CREATE TABLEMySQL 序列MySQL ALTER TABLEMySQL RENAME TABLEMySQL DROP COLUMNMySQL ADD COLUMNMySQL DROP TABLEMySQL 临时表MySQL TRUNCATE TABLEMySQL 数据类型MySQL NOT NULLMySQL Primary KeyMySQL Foreign KeyMySQL UNIQUEMySQL CHECKMySQL 字符集MySQL 排序规则MySQL 导入 CSVMySQL 导出 CSVMySQL 自然排序MySQL 基础

MySQL 存储过程

MySQL 存储过程介绍MySQL 存储过程实例MySQL 存储过程变量MySQL 存储过程参数MySQL 存储过程返回多值MySQL IF 语句MySQL CASE 语句MySQL IF CASE 选择MySQL 存储过程循环MySQL 存储过程游标MySQL 存储过程列表MySQL 存储过程异常处理MySQL SIGNAL 和 RESIGNALMySQL 存储函数

MySQL 视图

MySQL 视图教程SQL 视图介绍MySQL 视图介绍MySQL 创建视图MySQL 可更新视图WITH CHECK OPTIONLOCAL&CASCADEDMySQL 视图管理

MySQL 触发器

MySQL 触发器SQL 触发器MySQL 触发器介绍MySQL 触发器的创建MySQL 创建多个触发器MySQL 触发器管理MySQL 计划事件MySQL事件修改

MySQL 索引

MySQL 索引MySQL 索引创建MySQL 索引删除MySQL 显示索引MySQL 唯一索引MySQL 前缀索引MySQL 隐形索引MySQL 降序索引MySQL 复合索引MySQL 聚集索引MySQL 索引基数MySQL USE INDEXMySQL 强制索引

MySQL 管理

MySQL 管理MySQL访问控制系统MySQL 用户创建MySQL 用户密码MySQL 权限授予MySQL 权限撤销MySQL 角色MySQL 删除用户MySQL 表维护mysqldump 备份工具MySQL 数据库列表MySQL 表列表MySQL 表字段列表MySQL 用户列表MySQL 进程列表MySQL 列生成比较MySQL中同一表中的连续行

MySQL 全文搜索

MySQL 全文搜索MySQL 全文搜索介绍FULLTEXT索引MySQL 自然语言全文搜索MySQL 布尔全文搜索MySQL查询扩展MySQL ngram

MySQL 高级

MySQL 函数MySQL 窗口函数

MySQL 技巧

MySQL 查找重复数据MySQL 删除重复数据MySQL UUIDMySQL 表的复制MySQL 复制库MySQL 变量MySQL SELECT INTO 变量MySQL 表的存储引擎MySQL 使用正则查询MySQL 添加序号MySQL 随机查询MySQL 查询第 N 高记录MySQL 重置自增值MySQL VS MariaDBMySQL 间隔值MySQL 获取当天日期MySQL NULL 映射MySQL 注释理解MySQL EXPLAINMySQL 技巧介绍MySQL COUNTMySQL 数据分层MySQL 两表比较Mysql Like 优化

MySQL 窗口函数

MySQL CUME_DIST() 函数MySQL DENSE_RANK() 函数MySQL FIRST_VALUE 函数MySQL LAG() 函数MySQL LAST_VALUE() 函数MySQL LEAD 函数MySQL NTH_VALUE 函数MySQL NTILE 函数MySQL PERCENT_RANK 函数MySQL RANK 函数MySQL ROW_NUMBER 函数

MySQL 应用

MySQL应用程序编程接口PHP MySQL教程PHP 数据库连接

MySQL 优化

mysqld 内存持续变高


MySQL ngram


简介:本教程向您展示如何使用MySQL ngram全文解析器来支持中文,日文,韩文等表意语言的全文搜索。


MySQL ngram全文解析器简介

内置的MySQL全文解析器使用空格确定单词的开头和结尾。当涉及到诸如中文,日文或韩文等的表意语言时,这是一个限制,因为这些语言不使用单词分隔符。

为了解决这个问题,MySQL提供了ngram全文解析器。从版本5.7.6开始,MySQL包含ngram全文解析器作为内置服务器插件,这意味着MySQL在MySQL数据库服务器启动时自动加载此插件。MySQL支持InnoDB和MyISAM存储引擎的ngram全文解析器。

根据定义,ngram是来自文本序列的许多字符的连续序列。ngram全文解析器的主要功能是将一系列文本标记为一个由n个字符组成的连续序列。

下面说明了ngram全文解析器如何为不同的n值标记一系列文本:

n = 1: 'm','y','s','q','l'
n = 2: 'my', 'ys', 'sq','ql' 
n = 3: 'mys', 'ysq', 'sql'
n = 4: 'mysq', 'ysql'
n = 5: 'mysql'

使用ngram解析器创建FULLTEXT索引

创建一个FULLTEXT索引,使用NGRAM全文解析器,你加WITH PARSER ngramCREATE TABLEALTER TABLECREATE INDEX声明。

例如,以下语句创建新posts表,并将titlebody列添加到FULLTEXT使用ngram全文解析器的索引。

DROP TABLE IF EXISTS posts;
CREATE TABLE posts (
    id INT PRIMARY KEY AUTO_INCREMENT,
    title VARCHAR(255),
    body TEXT,
    FULLTEXT ( title , body ) WITH PARSER NGRAM
)  ENGINE=INNODB CHARACTER SET UTF8MB4;

以下INSERT语句在posts表中插入一个新行:

SET NAMES utf8mb4;
 
INSERT INTO posts(title,body)
VALUES('MySQL全文搜索','MySQL提供了具有许多好的功能的内置全文搜索'),
      ('MySQL教程','学习MySQL快速,简单和有趣');

请注意,SET NAMES语句设置客户端和服务器将用于发送和接收数据的字符集; 在这种情况下,它是utf8mb4

要查看ngram如何标记文本,请使用以下语句:

SET GLOBAL innodb_ft_aux_table="mysqldemo/posts";
 
SELECT 
    *
FROM
    information_schema.innodb_ft_index_cache
ORDER BY doc_id , position;
+--------+--------------+-------------+-----------+--------+----------+
| WORD   | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID | POSITION |
+--------+--------------+-------------+-----------+--------+----------+
| my     |            2 |           3 |         2 |      2 |        0 |
| ys     |            2 |           3 |         2 |      2 |        1 |
| sq     |            2 |           3 |         2 |      2 |        2 |
| ql     |            2 |           3 |         2 |      2 |        3 |
| l全    |            2 |           2 |         1 |      2 |        4 |
| 全文   |            2 |           2 |         1 |      2 |        5 |
| 文搜   |            2 |           2 |         1 |      2 |        8 |
| 搜索   |            2 |           2 |         1 |      2 |       11 |
| ql     |            2 |           3 |         2 |      2 |       18 |
| ys     |            2 |           3 |         2 |      2 |       18 |
| my     |            2 |           3 |         2 |      2 |       18 |
| sq     |            2 |           3 |         2 |      2 |       18 |
| l提    |            2 |           2 |         1 |      2 |       22 |
| 提供   |            2 |           2 |         1 |      2 |       23 |
| 供了   |            2 |           2 |         1 |      2 |       26 |
| 了具   |            2 |           2 |         1 |      2 |       29 |
| 具有   |            2 |           2 |         1 |      2 |       32 |
| 有许   |            2 |           2 |         1 |      2 |       35 |
| 许多   |            2 |           2 |         1 |      2 |       38 |
| 多好   |            2 |           2 |         1 |      2 |       41 |
| 好的   |            2 |           2 |         1 |      2 |       44 |
| 的功   |            2 |           2 |         1 |      2 |       47 |
| 功能   |            2 |           2 |         1 |      2 |       50 |
| 能的   |            2 |           2 |         1 |      2 |       53 |
| 的内   |            2 |           2 |         1 |      2 |       56 |
| 内置   |            2 |           2 |         1 |      2 |       59 |
| 文搜   |            2 |           2 |         1 |      2 |       60 |
| 全文   |            2 |           2 |         1 |      2 |       60 |
| 搜索   |            2 |           2 |         1 |      2 |       60 |
| 置全   |            2 |           2 |         1 |      2 |       62 |
| my     |            2 |           3 |         2 |      3 |        0 |
| ys     |            2 |           3 |         2 |      3 |        1 |
| sq     |            2 |           3 |         2 |      3 |        2 |
| ql     |            2 |           3 |         2 |      3 |        3 |
| l教    |            3 |           3 |         1 |      3 |        4 |
| 教程   |            3 |           3 |         1 |      3 |        5 |
| 学习   |            3 |           3 |         1 |      3 |       12 |
| 习m    |            3 |           3 |         1 |      3 |       15 |
| my     |            2 |           3 |         2 |      3 |       18 |
| sq     |            2 |           3 |         2 |      3 |       18 |
| ql     |            2 |           3 |         2 |      3 |       18 |
| ys     |            2 |           3 |         2 |      3 |       18 |
| l快    |            3 |           3 |         1 |      3 |       22 |
| 快速   |            3 |           3 |         1 |      3 |       23 |
| 速,   |            3 |           3 |         1 |      3 |       26 |
| ,简   |            3 |           3 |         1 |      3 |       29 |
| 简单   |            3 |           3 |         1 |      3 |       32 |
| 单和   |            3 |           3 |         1 |      3 |       35 |
| 和有   |            3 |           3 |         1 |      3 |       38 |
| 有趣   |            3 |           3 |         1 |      3 |       41 |
+--------+--------------+-------------+-----------+--------+----------+
50 rows in set (0.02 sec)

此查询对于故障排除非常有用。例如,如果单词未包含在搜索结果中,则单词可能未被索引,因为它是一个停用词,或者可能是另一个原因。


设置ngram令牌大小

如您所见,前面的示例中,ngram中的令牌大小(n)默认为2.要更改令牌大小,请使用ngram_token_size配置选项,其值介于1和10之间。

请注意,较小的令牌大小会使较小的全文搜索索引成为可能,因此您可以更快地进行搜索。

因为ngram_token_size是只读变量,所以您只能使用两个选项设置其值:

首先,在启动字符串中:

mysqld --ngram_token_size=1

二,在配置文件中:

[mysqld]
ngram_token_size=1

ngram解析器短语搜索

MySQL将短语搜索转换为ngram短语搜索。例如,"abc"转换为"ab bc",返回包含"ab bc"和的文档"abc"

下面的示例显示了搜索短语搜索中的posts表:

SELECT 
    id, title, body
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('搜索' );
+----+-------------------+-------------------------------------------------------------+
| id | title             | body                                                        |
+----+-------------------+-------------------------------------------------------------+
|  1 | MySQL全文搜索      | MySQL提供了具有许多好的功能的内置全文搜索                          |
+----+-------------------+-------------------------------------------------------------+
1 row in set (7.74 sec)

用ngram处理搜索结果

自然语言模式

NATURAL LANGUAGE MODE搜索中,搜索项将转换为ngram值的并集。假设令牌大小为2或bigram,搜索项mysql将转换为my ys sqql

SELECT 
    *
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('简单和有趣' IN natural language MODE);
+----+-------------+-------------------------------------+
| id | title       | body                                |
+----+-------------+-------------------------------------+
|  2 | MySQL教程   | 学习MySQL快速,简单和有趣           |
+----+-------------+-------------------------------------+
1 row in set (0.01 sec)

布尔模式

BOOLEAN MODE搜索中,搜索项将转换为ngram短语搜索。例如:

SELECT 
    *
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('简单和有趣' IN BOOLEAN MODE);
+----+-------------+-------------------------------------+
| id | title       | body                                |
+----+-------------+-------------------------------------+
|  2 | MySQL教程   | 学习MySQL快速,简单和有趣           |
+----+-------------+-------------------------------------+
1 row in set (0.16 sec)

ngram通配符搜索

ngram FULLTEXT索引只包含ngrams ,因此它不知道术语的开头。执行通配符搜索时,可能会返回意外结果。

以下规则适用于使用ngram FULLTEXT搜索索引的通配符搜索:

如果通配符中的前缀术语短于ngram令牌大小,则查询将返回包含以前缀术语开头的ngram令牌的所有文档。例如:

SELECT 
    id, title, body
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('my*' );
+----+-------------------+-------------------------------------------------------------+
| id | title             | body                                                        |
+----+-------------------+-------------------------------------------------------------+
|  1 | MySQL全文搜索      | MySQL提供了具有许多好的功能的内置全文搜索                          |
|  2 | MySQL教程         | 学习MySQL快速,简单和有趣                                       |
+----+-------------------+-------------------------------------------------------------+
2 rows in set (4.40 sec)

如果通配符中的前缀术语长于ngram令牌大小,MySQL将把前缀术语转换为ngram短语并忽略通配符运算符。请参阅以下示例:

SELECT 
    id, title, body
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('mysqld*' );
+----+-------------------+-------------------------------------------------------------+
| id | title             | body                                                        |
+----+-------------------+-------------------------------------------------------------+
|  1 | MySQL全文搜索     | MySQL提供了具有许多好的功能的内置全文搜索                   |
|  2 | MySQL教程         | 学习MySQL快速,简单和有趣                                   |
+----+-------------------+-------------------------------------------------------------+
2 rows in set (0.01 sec)

在这个例子中,术语“ mysqld"被转换成ngram短语:"my" "ys" "sq" "ql" "ld"。因此,将返回包含这些短语之一的所有文档。


添加或修改 ngram 的索引

要向FULLTEXT现有表添加索引,可以使用ALTER TABLE或 CREATE INDEX。

ALTER TABLE posts ADD FULLTEXT INDEX ft_index (title,body) WITH PARSER ngram;

或者

CREATE FULLTEXT INDEX ft_index ON posts (title,body) WITH PARSER ngram;

处理停用词

ngram解析器排除包含禁用词列表中的停用词的令牌。例如,假设ngram_token_size为2且文档包含"abc"。ngram解析器将文档标记为"ab""bc"。如果"b"是一个停用词,ngram将排除两者"ab""bc"因为它们包含"b"

请注意,如果语言不是英语,则必须定义自己的禁用词列表。此外,长度大于的停用词将ngram_token_size被忽略。

在本教程中,您学习了如何使用MySQL ngram全文解析器来处理表意语言的全文搜索。