面试官:如何给字符串设计索引?
在数据库实战开发的过程中,我们经常会遇到一些这样那样的问题,然后要卡好半天,等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《面试官:如何给字符串设计索引?》,聊聊MySQL、字符串、索引、Java、数据库,希望可以帮助到正在努力赚钱的你。
01 前言
哈喽,好久没更新啦。因为最近在面试。用了两周时间准备,在 3 天之内拿了 5 个 offer,最后选择了广州某互联网行业独角兽 offer,昨天刚入职。这几天刚好整理下在面试中被问到有意思的问题,也借此机会跟大家分享下。
这家企业的面试官有点意思,一面是个同龄小哥,一起聊了两个小时(聊到我嘴都干了)。二面是个从阿里出来的架构师,他问了个场景题:
数据库有个字符串类型的字段,存的是 URL 怎么设计索引?
当时我给出拆分字段:url 的前半部分肯定区分度低,到了后半部分才高;我把区分度高和低的分别拆分为两个字段存储,并在区分度高的字段建立索引的具体答案,并提出了尽量提高区分度的思路。
面试官也认可了我的方向,但是问我还有没其他方案。当时没答出来,回去之后我自己查了下资料,这里也给大家分享下具体的设计方案。
国际惯例,先上思维导图:

02 整个字段加索引
先亮出表设计:
CREATE TABLE IF NOT EXISTS `t`( `id` INT(11) NOT NULL AUTO_INCREMENT, `url` VARCHAR(100) NOT NULL, PRIMARY KEY ( `id` ) )ENGINE=InnoDB DEFAULT CHARSET=utf8;
表数据:

其实这个问题 = 字符串怎么设计索引?,你可能会说直接执行下面的语句不就得了?
alter table t add index index_url(url);
我随意画了张图,在 MySQL index_url 的结构是这样的:

确实,这样是可以的。执行下面的查询语句只需要一次扫描操作即可。
select id,url from t where url='javafish/nhjj/mybatis';
但它还有个问题就是浪费存储空间,这种情况只适合存储数据较短且区分度足够高(这点是必须的,要不然我们也不会在区分度很低的字段建索引)的情况。你想想整个字段这么长,肯定贼费空间了。
那有没有不那么费空间的方法呢?我们自然就想到了 MySQL 的前缀索引。
03 前缀索引
针对上面的表数据,加下前缀索引,没必要整个字段加索引,因此可以这样建索引:
alter table t add index index_url(url(8));
此时,index_url 的结构是这样的:

select id,url from t where url='javafish/nhjj/mybatis';
执行同样的 sql 查询,它的流程是这样的:
- 从 index_url 索引树找到满足索引值是
select count(distinct url) as L from t;
可以这样批量操作:
SELECT count( DISTINCT LEFT ( url, 8 ) ) AS L8, count( DISTINCT LEFT ( url, 9 ) ) AS L9, count( DISTINCT LEFT ( url, 10 ) ) AS L10, count( DISTINCT LEFT ( url, 11 ) ) AS L11 FROM t;
结果是这样的:
我们选择前缀长度的原则是:区分度高 + 占用空间少;考虑这二者的因素,我会选择 10 作为前缀索引的长度。
3.2 前缀索引的不足
前缀索引虽好,但也有不足。比如我们上面说的长度选择不好就会导致扫描行数增多。
还有一点就是使用了前缀索引,当你优化 sql 时,就不能使用索引覆盖这个优化点了。不清楚索引覆盖的小伙伴建议看看这篇文章《MySQL 索引原理》
举个栗子:即使你将 index_url 的定义修改为 url (100) 的前缀索引,这时候虽然 index_url 已经包含了所有的信息,但 InnoDB 还是要回到 id 索引再查一下,因为系统并不确定前缀索引的定义是否截断了完整信息。
这也是你是否选择前缀索引的一个考虑点。
04 其他方式
上面的 url 都比较短,还可以用前缀索引。假设 url 突然变长(别问为啥,就是能变长变粗),长成这个样子:
由于前缀区分度实在不高,最起码长度 > 20 时,区分度才比较理想。索引选取的越长,占用的磁盘空间就越大,相同的数据页能放下的索引值就越少,搜索的效率也就会越低。
那还有别的方法既能保证区分度又能不占用那么多空间吗?
有的,比如:倒序存储以及加哈希字段
4.1 倒序存储
先说第一种,在存储 url 时,倒序存。这时候前缀的区分度就很高啦,利用倒序建立前缀索引。查询的时候可以利用 reverse 函数查:
select url from t where url = reverse('输入的 url 字符串');
4.2 哈希字段
在数据表里面加一个整形字段,用作 url 的校验码,同时在这上面建立索引。
alter table t add url_crc int unsigned, add index(url_crc);
插入的时候可以这样做:调用 MySQL 的 crc32 函数计算出一个校验码,并保存入库。
INSERT INTO t VALUE( 00000000007, 'wwww.javafish.top/article/erwt/spring', CRC32('wwww.javafish.top/article/erwt/spring'))
然后执行完之后就插入这么个结果啦。
不过有一点要注意,每次插入新记录时,都同时用 crc32 () 函数得到校验码填到这个新字段,可能存在冲突。
也就是说两个不同的 url 通过 crc32 () 函数得到的结果可能是相同的,所以查询语句 where 部分还要判断 url 的值是否相同:
select url from t where url_crc = crc32('输入的 url 字符串') and url = '输入的 url 字符串'
如此一来,就相当于把 url 的索引长度降低到 4 个字节,缩短存储空间的同时提高了查询效率。
4.3 二者对比
相同点:都不支持范围查询。
倒序存储的字段上创建的索引是按照倒序字符串的方式排序的,没有办法利用索引方式进行范围查询了。同样地,hash 字段的方式也只能支持等值查询。
它们的区别,主要体现在以下三个方面:
- 从占用的额外空间来看,倒序存储方式在主键索引上,不会消耗额外的存储空间,而 hash 字段方法需要增加一个字段。当然,倒序存储方式使用 4 个字节的前缀长度应该是不够的,如果再长一点,这个消耗跟额外这个 hash 字段也差不多抵消了。
- 在 CPU 消耗方面,倒序方式每次写和读的时候,都需要额外调用一次 reverse 函数,而 hash 字段的方式需要额外调用一次 crc32 () 函数。如果只从这两个函数的计算复杂度来看的话,reverse 函数额外消耗的 CPU 资源会更小些。
- 从查询效率上看,使用 hash 字段方式的查询性能相对更稳定一些。因为 crc32 算出来的值虽然有冲突的概率,但是概率非常小,可以认为每次查询的平均扫描行数接近 1。而倒序存储方式毕竟还是用的前缀索引的方式,也就是说还是会增加扫描行数。
05 总结
这篇文章聊了四种解决方法,每一种都有优缺点。没有办法判断哪一种最好,只有最合适的。在开发中,你也需要根据业务来选择,总的方向就是:提高区分度 &尽量 减少占用空间。
- 直接创建完整索引,这样可能比较占用空间;
- 创建前缀索引,节省空间,但会增加查询扫描次数,并且不能使用覆盖索引;
- 倒序存储,再创建前缀索引,用于绕过字符串本身前缀的区分度不够的问题;
- 创建 hash 字段索引,查询性能稳定,有额外的存储和计算消耗,跟第三种方式一样,都不支持范围扫描。
06 参考
- time.geekbang.org/column/article/71492
- cnblogs.com/Mr-Echo/p/12730797.html
07 大厂面试题 & 电子书
如果看到这里,喜欢这篇文章的话,请帮点个好看。
初次见面,也不知道送你们啥。干脆就送几百本电子书和2021最新面试资料吧。微信搜索JavaFish回复电子书送你 1000+ 本编程电子书;回复面试送点面试题;回复1024送你一套完整的 java 视频教程。
面试题都是有答案的,详细如下所示:有需要的就来拿吧,绝对免费,无套路获取。
终于介绍完啦!小伙伴们,这篇关于《面试官:如何给字符串设计索引?》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布数据库相关知识,快来关注吧!

- 上一篇
- Flink+Hologres助力伊的家电商平台建设新一代实时数仓

- 下一篇
- 《MySQL面试小抄》查询缓存机制终面
-
- 瘦瘦的奇迹
- 这篇文章太及时了,太细致了,写的不错,已收藏,关注老哥了!希望老哥能多写数据库相关的文章。
- 2023-02-25 21:44:22
-
- 数据库 · MySQL | 1天前 |
- MySQL设置中文界面,超简单教程来了!
- 332浏览 收藏
-
- 数据库 · MySQL | 1天前 | mysql 索引提示
- MySQL进阶必看!FORCE/USE/IGNOREINDEX用法大揭秘
- 182浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- 手把手教你写MySQL存储过程,小白也能轻松上手
- 163浏览 收藏
-
- 数据库 · MySQL | 1天前 | mysql group by
- MySQL分组查询优化:GROUPBY原理+索引优化超全解析
- 324浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- MySQL设置中文语言,轻松拥有中文界面
- 211浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- MySQL建库语句从入门到精通:创建数据库+设置字符集&排序规则(附实例)
- 176浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- 从零开始学MySQL数据库操作,小白轻松变大神!
- 496浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- MySQL插入日期到时间字段,轻松搞定日期格式
- 484浏览 收藏
-
- 数据库 · MySQL | 1天前 | mysql 数据压缩
- MySQL怎么实现高效压缩存储?表压缩+列式存储详细解读
- 272浏览 收藏
-
- 数据库 · MySQL | 1天前 | mysql JOIN优化
- MySQL优化JOIN操作:七大技巧教你提升关联查询速度
- 106浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- MySQL出现中文乱码?超详细解决方案一次性搞定
- 211浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- MySQL主从复制这样配!搞懂这些参数,replication稳了~
- 131浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 18次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 49次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 57次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 52次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 57次使用
-
- golang MySQL实现对数据库表存储获取操作示例
- 2022-12-22 499浏览
-
- 详解如何在Go语言中循环数据结构
- 2022-12-22 406浏览
-
- 详解Golang中字符串的使用
- 2023-01-01 370浏览
-
- 搞一个自娱自乐的博客(二) 架构搭建
- 2023-02-16 244浏览
-
- 深度解密Go语言中字符串的使用
- 2022-12-24 160浏览