Java集合去重技巧全解析
今日不肯埋头,明日何以抬头!每日一句努力自己的话哈哈~哈喽,今天我将给大家带来一篇《Java集合去重方法详解》,主要内容是讲解等等,感兴趣的朋友可以收藏或者有更好的建议在评论提出,我都会认真看的!大家一起进步,一起学习!
使用HashSet去重是Java中最高效的方式,其原理基于元素的hashCode()和equals()方法;对于自定义对象,必须正确重写这两个方法以确保去重成功,否则会因哈希冲突或比较失效导致重复元素存在。

在Java中,要实现集合的去重,最直接且高效的方式就是利用Set接口的实现类,尤其是HashSet。它天生就设计用来存储不重复的元素,其底层机制保证了元素的唯一性。
解决方案
利用HashSet进行去重是Java中最常见且性能优良的实践。其核心在于Set接口的特性:不允许包含重复元素。当你尝试向HashSet中添加一个已经存在的元素时,add()方法会返回false,且不会真的添加该元素。
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;
public class DeduplicationExample {
public static void main(String[] args) {
// 示例1: 去重字符串列表
List<String> stringList = new ArrayList<>();
stringList.add("Apple");
stringList.add("Banana");
stringList.add("Apple"); // 重复
stringList.add("Orange");
stringList.add("Banana"); // 重复
System.out.println("原始字符串列表: " + stringList); // 输出: [Apple, Banana, Apple, Orange, Banana]
Set<String> uniqueStrings = new HashSet<>(stringList);
System.out.println("去重后的字符串集合: " + uniqueStrings); // 输出: [Apple, Orange, Banana] (顺序可能不同)
// 如果需要返回List类型
List<String> distinctStringList = new ArrayList<>(uniqueStrings);
System.out.println("去重后的字符串列表 (List): " + distinctStringList); // 输出: [Apple, Orange, Banana] (顺序可能不同)
System.out.println("--------------------");
// 示例2: 去重自定义对象列表
List<Person> personList = new ArrayList<>();
personList.add(new Person("Alice", 30));
personList.add(new Person("Bob", 25));
personList.add(new Person("Alice", 30)); // 逻辑上重复,但需要正确实现hashCode和equals
personList.add(new Person("Charlie", 35));
personList.add(new Person("Bob", 25)); // 逻辑上重复
System.out.println("原始Person列表: " + personList);
Set<Person> uniquePersons = new HashSet<>(personList);
System.out.println("去重后的Person集合: " + uniquePersons);
// 注意:如果Person类没有正确重写hashCode()和equals(),这里可能不会去重成功
// 后面会详细讨论这一点
}
}
class Person {
String name;
int age;
public Person(String name, int age) {
this.name = name;
this.age = age;
}
// 为了演示去重,这里必须正确重写hashCode()和equals()
@Override
public boolean equals(Object o) {
if (this == o) return true;
if (o == null || getClass() != o.getClass()) return false;
Person person = (Person) o;
return age == person.age && name.equals(person.name);
}
@Override
public int hashCode() {
return name.hashCode() + age; // 简单的组合,实际应用中建议使用Objects.hash()
}
@Override
public String toString() {
return "Person{" +
"name='" + name + '\'' +
", age=" + age +
'}';
}
}这段代码展示了如何通过将一个包含重复元素的List直接传递给HashSet的构造器来快速完成去重。HashSet在内部会处理元素的唯一性,然后你可以选择将去重后的Set转换回List,如果你的业务逻辑需要。我个人在工作中,遇到大多数去重场景,HashSet几乎是首选,因为它在性能上表现均衡且API简洁。
为什么Set集合能天然实现去重?其底层原理是什么?
Set集合之所以能天然实现去重,其秘密在于它依赖于元素的hashCode()和equals()方法。当我们将元素添加到HashSet中时,它会执行以下几个步骤来判断元素是否重复:
- 计算哈希码 (
hashCode()): 首先,HashSet会调用待添加元素的hashCode()方法,计算出一个哈希码。这个哈希码决定了元素在底层哈希表中的存储位置(桶)。 - 查找桶位: 根据哈希码找到对应的桶。如果这个桶是空的,那么元素就可以直接放进去,认为是新元素。
- 比较 (
equals()): 如果桶中已经有元素,HashSet不会直接认为它是重复的。它会遍历桶中的所有元素,并依次调用待添加元素的equals()方法与桶中已存在的每个元素进行比较。- 如果
equals()方法返回true,则认为该元素已经存在,add()方法返回false,不会再添加。 - 如果
equals()方法对桶中所有元素都返回false,则认为该元素是新元素,将其添加到桶中。
- 如果
所以,对于自定义对象,正确地重写hashCode()和equals()方法至关重要。我见过太多新手开发者,只重写了equals(),而忽略了hashCode(),结果导致HashSet无法正确识别重复对象,这是个非常常见的陷阱。Java规范明确指出:如果两个对象equals()返回true,那么它们的hashCode()也必须返回相同的值。反之则不一定。
除了Set,还有哪些去重方法?各自的适用场景是什么?
当然,除了Set,Java中还有其他几种去重的方法,它们各有优劣,适用于不同的场景:
Java 8 Stream API 的
distinct()方法:- 特点: 这是处理集合去重最简洁、最现代的方式之一,尤其适用于链式操作。它也是基于
hashCode()和equals()来判断重复的。 - 适用场景: 当你已经在使用Stream API进行数据处理,或者希望用更函数式、声明式的方式去重时,
distinct()是理想选择。它代码量少,可读性高。 - 示例:
List<String> names = Arrays.asList("Alice", "Bob", "Alice", "Charlie"); List<String> distinctNames = names.stream().distinct().collect(Collectors.toList()); System.out.println("Stream distinct: " + distinctNames); // 输出: [Alice, Bob, Charlie] - 我的看法: 对于中小型数据集,或者说当你需要对数据进行一系列转换后再去重时,
distinct()非常优雅。但如果仅仅是去重,且数据量极大,HashSet的直接构建可能在某些极端情况下略有优势,因为Stream的管道处理会有一些额外的开销。
- 特点: 这是处理集合去重最简洁、最现代的方式之一,尤其适用于链式操作。它也是基于
手动遍历并检查 (
contains()):- 特点: 这种方法通常效率最低,因为它在每次添加新元素时,都需要遍历已去重列表来检查是否存在。
List的contains()方法在底层是线性查找。 - 适用场景: 极少推荐,除非你的数据量非常小,或者有非常特殊的业务逻辑,比如在添加前需要执行一些复杂的判断,而不仅仅是
equals()。 - 示例:
List<String> original = Arrays.asList("A", "B", "A", "C"); List<String> unique = new ArrayList<>(); for (String item : original) { if (!unique.contains(item)) { // 每次检查都是O(n) unique.add(item); } } System.out.println("手动contains去重: " + unique); // 输出: [A, B, C] - 我的看法: 这种方法我几乎不会在生产代码中使用,除非是面试题或者一些教学场景,它展示了去重最原始的逻辑,但性能瓶颈明显。
- 特点: 这种方法通常效率最低,因为它在每次添加新元素时,都需要遍历已去重列表来检查是否存在。
TreeSet去重并排序:- 特点:
TreeSet也是Set接口的实现,它不仅能去重,还能保证元素的自然排序或者根据自定义的Comparator进行排序。 - 适用场景: 当你需要去重的同时,也希望结果是排序的,
TreeSet是最佳选择。 - 示例:
List<Integer> numbers = Arrays.asList(3, 1, 4, 1, 5, 9, 2, 6); Set<Integer> sortedUniqueNumbers = new TreeSet<>(numbers); System.out.println("TreeSet去重并排序: " + sortedUniqueNumbers); // 输出: [1, 2, 3, 4, 5, 6, 9] - 我的看法:
TreeSet的性能开销通常比HashSet略高,因为它需要维护元素的排序。对于自定义对象,你需要确保它实现了Comparable接口,或者在构造TreeSet时提供一个Comparator。
- 特点:
处理复杂对象去重时,有哪些潜在的陷阱和最佳实践?
处理自定义(复杂)对象的去重,远比处理基本类型或String要复杂,因为涉及到对象相等性的定义。这里有一些常见的陷阱和我的最佳实践建议:
未正确重写
hashCode()和equals():陷阱: 这是最常见也是最致命的错误。如果你的自定义类没有正确重写这两个方法,
HashSet或Stream.distinct()会默认使用Object类的实现,即比较对象的内存地址。这意味着即使两个对象在业务逻辑上是“相同”的(比如两个Person对象拥有相同的name和age),但只要它们是不同的实例,就会被认为是不同的元素。最佳实践:
始终同时重写
hashCode()和equals(): 这是Java规范的强制要求。如果equals()返回true,hashCode()必须返回相同的值。基于业务逻辑定义相等性:
equals()方法应该根据你的业务需求来判断两个对象是否相等。例如,对于Person对象,可能name和age都相同才算相等。hashCode()的实现要与equals()一致:hashCode()的计算应该基于equals()方法中用到的所有字段。Java 7及以后,可以使用Objects.hash()来简化hashCode()的实现,它能很好地处理null值。示例 (改进的Person类):
import java.util.Objects; // 引入Objects类 class Person { String name; int age; // ... (构造函数和toString不变) @Override public boolean equals(Object o) { if (this == o) return true; if (o == null || getClass() != o.getClass()) return false; Person person = (Person) o; // 使用Objects.equals处理可能为null的字段 return age == person.age && Objects.equals(name, person.name); } @Override public int hashCode() { // 使用Objects.hash()生成哈希码,它会自动处理null字段 return Objects.hash(name, age); } }
可变对象作为
Set元素:- 陷阱: 如果将一个可变对象(其内部状态在添加到
Set后可能会改变)添加到HashSet中,并且其改变影响了hashCode()或equals()的结果,那么这个对象在Set中的行为会变得不可预测。你可能无法正确地删除它,或者Set会认为它不再存在,导致逻辑错误。 - 最佳实践:
- 优先使用不可变对象作为
Set元素: 如果可能,确保作为Set元素的自定义对象是不可变的(所有字段都是final,并且没有提供修改这些字段的方法)。 - 如果必须使用可变对象,请谨慎: 确保在对象添加到
Set之后,任何影响hashCode()和equals()结果的字段都不会被修改。如果必须修改,你可能需要先将对象从Set中移除,修改后再重新添加。
- 优先使用不可变对象作为
- 陷阱: 如果将一个可变对象(其内部状态在添加到
性能考量:
hashCode()的分布性:- 陷阱: 一个设计糟糕的
hashCode()方法可能会导致所有对象的哈希码都相同或非常相似。这会使得HashSet退化成一个链表,每次查找都需要遍历整个链表,导致时间复杂度从O(1)(平均)退化到O(n)(最坏),从而严重影响性能。 - 最佳实践:
- 设计一个分布均匀的
hashCode(): 好的hashCode()应该让不同对象尽可能产生不同的哈希码,减少哈希冲突。Objects.hash()在这方面做得很好。 - 避免使用不稳定的字段计算哈希码: 比如,不要用一个频繁变动的计数器字段来计算哈希码。
- 设计一个分布均匀的
- 陷阱: 一个设计糟糕的
使用自定义
Comparator进行去重 (与Set略有不同):- 陷阱: 有时我们可能希望基于某些特定规则去重,而这些规则并不完全等同于对象的
equals()方法。例如,我们可能认为两个Person对象只要name相同就认为是重复的,而忽略age。HashSet无法直接通过Comparator去重。 - 最佳实践:
- 如果需要自定义去重逻辑,并且不想修改
equals()/hashCode(): 可以考虑使用Stream.collectingAndThen结合Collectors.toCollection和TreeSet,并提供一个自定义的Comparator。但请注意,TreeSet的去重是基于compareTo()(或Comparator.compare())方法返回0来判断相等的。 - 或者,创建一个包装类: 如果你的去重逻辑与原始对象的
equals()/hashCode()不符,可以创建一个包装类,让这个包装类实现你想要的equals()/hashCode()逻辑,然后将包装类对象放入Set中去重。
- 如果需要自定义去重逻辑,并且不想修改
- 陷阱: 有时我们可能希望基于某些特定规则去重,而这些规则并不完全等同于对象的
总的来说,处理复杂对象的去重,核心在于对Java对象相等性契约(hashCode()和equals())的深刻理解和正确实现。一旦这两个方法定义清晰且实现无误,那么Set集合和Stream API的distinct()方法就能非常可靠地完成去重任务。
以上就是《Java集合去重技巧全解析》的详细内容,更多关于的资料请关注golang学习网公众号!
浏览器指纹识别实现跨设备唯一标识
- 上一篇
- 浏览器指纹识别实现跨设备唯一标识
- 下一篇
- DeepSeek接入外部数据提升写作权威性方法
-
- 文章 · java教程 | 7分钟前 |
- Java遍历Map的四种方式
- 100浏览 收藏
-
- 文章 · java教程 | 21分钟前 |
- Java中this关键字的使用场景详解
- 391浏览 收藏
-
- 文章 · java教程 | 22分钟前 | caffeine 并发 synchronized concurrenthashmap 线程安全缓存
- Java线程安全缓存实现技巧
- 490浏览 收藏
-
- 文章 · java教程 | 46分钟前 |
- Javanotify与notifyAll区别详解
- 450浏览 收藏
-
- 文章 · java教程 | 48分钟前 |
- SpringBootOpenAPI枚举校验方法与错误处理
- 296浏览 收藏
-
- 文章 · java教程 | 58分钟前 | sql注入 输入校验 参数化查询 PreparedStatement SQL拼接
- Java后端如何防范SQL注入?
- 466浏览 收藏
-
- 文章 · java教程 | 59分钟前 |
- JavaCalendar类实用技巧全解析
- 409浏览 收藏
-
- 文章 · java教程 | 1小时前 |
- Java注解简化异常处理方法
- 495浏览 收藏
-
- 文章 · java教程 | 1小时前 |
- Java文件上传自定义命名技巧
- 248浏览 收藏
-
- 文章 · java教程 | 1小时前 |
- Java如何创建PrintStream对象
- 327浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3193次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3406次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3436次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4544次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3814次使用
-
- 提升Java功能开发效率的有力工具:微服务架构
- 2023-10-06 501浏览
-
- 掌握Java海康SDK二次开发的必备技巧
- 2023-10-01 501浏览
-
- 如何使用java实现桶排序算法
- 2023-10-03 501浏览
-
- Java开发实战经验:如何优化开发逻辑
- 2023-10-31 501浏览
-
- 如何使用Java中的Math.max()方法比较两个数的大小?
- 2023-11-18 501浏览

