Python操作Cassandra:cassandra-driver使用教程
本文详细介绍了如何使用Python官方库`cassandra-driver`操作Apache Cassandra数据库。作为Python开发者与Cassandra交互的首选工具,`cassandra-driver`简化了连接、查询和数据处理流程。文章不仅涵盖了`cassandra-driver`的安装和基本CRUD操作,还深入探讨了连接Cassandra集群的最佳实践,包括数据中心感知的负载均衡、重试策略、认证与SSL/TLS配置以及连接超时设置,旨在帮助开发者构建高效、稳定、安全的Cassandra应用。此外,本文还分享了使用预处理语句、批量操作、一致性级别控制和分页等技术进行高效数据读写的策略,以及常见问题与调试技巧,为Python开发者提供了一份全面的Cassandra操作指南。
使用cassandra-driver连接Cassandra集群的最佳实践包括:1. 使用DCAwareRoundRobinPolicy进行数据中心感知的负载均衡,指定本地数据中心以降低延迟;2. 根据业务需求配置重试策略,如DowngradingConsistencyRetryPolicy以提升可用性;3. 启用认证和SSL/TLS确保安全性,通过PlainTextAuthProvider和ssl_options配置访问控制和加密通信;4. 合理设置连接超时参数,如connect_timeout和socket_options以适应网络环境。这些配置共同保障了高效、稳定、安全的Cassandra连接。

Python操作Cassandra,我通常会毫不犹豫地选择cassandra-driver这个官方库。它就像是为Python量身定制的Cassandra翻译官,能让你用最Pythonic的方式与这个分布式数据库进行高效的对话,无论是连接、执行CQL查询,还是处理复杂的数据类型映射,它都做得非常出色,省去了很多底层细节的烦恼。

解决方案
要开始用Python和Cassandra打交道,第一步自然是安装cassandra-driver。

pip install cassandra-driver
安装完成后,核心流程通常是这样的:
- 建立连接: 使用
Cluster对象来定义你的Cassandra集群节点。 - 创建会话: 通过
cluster.connect()获取一个会话(Session),这是你与数据库交互的门户。 - 执行查询: 使用
session.execute()方法来发送CQL(Cassandra Query Language)语句。 - 处理结果:
execute()方法返回的结果集可以像列表一样迭代处理。
一个简单的例子,我们来创建一个键空间(Keyspace)和一张表,然后插入一些数据并查询出来:

from cassandra.cluster import Cluster
from cassandra.auth import PlainTextAuthProvider # 如果需要认证
# 假设你的Cassandra运行在本地,或者你知道集群的IP地址
# 如果有认证,需要配置AuthProvider
# auth_provider = PlainTextAuthProvider(username='your_user', password='your_password')
# cluster = Cluster(['127.0.0.1'], auth_provider=auth_provider)
cluster = Cluster(['127.0.0.1']) # 简单起见,不带认证
session = None
try:
session = cluster.connect()
# 创建一个键空间,如果不存在的话
session.execute("""
CREATE KEYSPACE IF NOT EXISTS my_keyspace
WITH replication = {'class': 'SimpleStrategy', 'replication_factor': '1'}
""")
session.set_keyspace('my_keyspace') # 切换到这个键空间
# 创建一张表
session.execute("""
CREATE TABLE IF NOT EXISTS users (
user_id UUID PRIMARY KEY,
name text,
email text
)
""")
# 插入数据
from cassandra.util import uuid_from_time
user_id_1 = uuid_from_time()
session.execute(
"INSERT INTO users (user_id, name, email) VALUES (?, ?, ?)",
(user_id_1, "张三", "zhangsan@example.com")
)
print(f"插入用户:{user_id_1}")
user_id_2 = uuid_from_time()
session.execute(
"INSERT INTO users (user_id, name, email) VALUES (?, ?, ?)",
(user_id_2, "李四", "lisi@example.com")
)
print(f"插入用户:{user_id_2}")
# 查询数据
rows = session.execute("SELECT user_id, name, email FROM users")
print("\n所有用户:")
for row in rows:
print(f"ID: {row.user_id}, 姓名: {row.name}, 邮箱: {row.email}")
# 根据ID查询特定用户
specific_user_id = user_id_1
row = session.execute("SELECT name, email FROM users WHERE user_id = ?", (specific_user_id,)).one()
if row:
print(f"\n查询到特定用户 ({specific_user_id}): 姓名: {row.name}, 邮箱: {row.email}")
else:
print(f"\n未查询到用户 ({specific_user_id})")
# 更新数据
session.execute(
"UPDATE users SET email = ? WHERE user_id = ?",
("zhangsan_new@example.com", user_id_1)
)
print(f"\n更新用户 {user_id_1} 的邮箱")
# 再次查询确认更新
row = session.execute("SELECT email FROM users WHERE user_id = ?", (user_id_1,)).one()
if row:
print(f"更新后邮箱: {row.email}")
# 删除数据
session.execute("DELETE FROM users WHERE user_id = ?", (user_id_2,))
print(f"\n删除用户 {user_id_2}")
# 再次查询确认删除
rows = session.execute("SELECT user_id FROM users")
print("\n剩余用户:")
for row in rows:
print(f"ID: {row.user_id}")
if not list(rows): # 迭代器已经耗尽,需要重新执行查询
rows_after_delete = session.execute("SELECT user_id FROM users")
if not list(rows_after_delete):
print("所有用户已删除。")
except Exception as e:
print(f"操作过程中发生错误: {e}")
finally:
if session:
session.shutdown()
if cluster:
cluster.shutdown()
这段代码展示了从连接到CRUD操作的全过程。值得注意的是,cassandra-driver会自动处理连接池和负载均衡,这在背后默默地提升了效率。
cassandra-driver连接Cassandra集群的最佳实践是什么?
说实话,连接Cassandra集群远不止写上IP地址那么简单,尤其是在生产环境中。我个人觉得,理解并配置好Cluster对象的参数,是构建稳定、高性能应用的关键。
首先,连接池和负载均衡是cassandra-driver的内置优势,你几乎不需要手动管理。它默认会维护到集群中多个节点的连接,并采用智能的负载均衡策略(比如DCAwareRoundRobinPolicy,数据中心感知轮询策略),这能确保你的请求均匀分布,并且优先访问距离最近、性能最好的节点。如果你有多个数据中心,强烈建议使用DCAwareRoundRobinPolicy并指定本地数据中心名称,这样可以避免不必要的跨数据中心流量,显著降低延迟。
from cassandra.cluster import Cluster, DCAwareRoundRobinPolicy
# 假设你的本地数据中心名称是 'datacenter1'
cluster = Cluster(
['node1_ip', 'node2_ip'],
load_balancing_policy=DCAwareRoundRobinPolicy(local_dc='datacenter1')
)其次,重试策略(Retry Policy)也非常重要。Cassandra是一个分布式系统,网络瞬时抖动、节点故障、或读写超时都是可能发生的。cassandra-driver提供了默认的重试策略,但你也可以自定义。例如,DowngradingConsistencyRetryPolicy在某些情况下会尝试降低一致性级别来完成操作,这在对可用性要求极高的场景下非常有用,但你需要权衡数据一致性。我通常会根据业务对数据一致性和可用性的具体要求来调整这个策略。
from cassandra.policies import DowngradingConsistencyRetryPolicy
cluster = Cluster(
['127.0.0.1'],
retry_policy=DowngradingConsistencyRetryPolicy()
)再者,安全性不容忽视。如果你的Cassandra集群启用了认证(用户名/密码)或SSL/TLS加密,那么在Python驱动中也必须配置。PlainTextAuthProvider用于简单的用户名密码认证,而SSL选项则需要提供证书路径等信息。这就像给你的数据通道加了一把锁,防止未授权访问和数据窃听。
from cassandra.auth import PlainTextAuthProvider
from ssl import CERT_REQUIRED
auth_provider = PlainTextAuthProvider(username='my_user', password='my_password')
cluster = Cluster(
['127.0.0.1'],
auth_provider=auth_provider,
ssl_options={
'ca_certs': '/path/to/ca.crt',
'certfile': '/path/to/client.crt',
'keyfile': '/path/to/client.key',
'ssl_version': 'TLSv1_2',
'require_validation': True # CERT_REQUIRED
}
)最后,连接超时设置也值得关注。默认的超时时间可能不适合所有场景。如果你的网络环境较差或者Cassandra集群响应较慢,可以适当调高connect_timeout和socket_options中的read_timeout,避免不必要的连接中断。但也要注意,过高的超时时间可能会导致请求长时间阻塞。
cluster = Cluster(
['127.0.0.1'],
connect_timeout=10, # 连接建立超时,秒
socket_options=[(1, 10, 5)] # (socket.SOL_SOCKET, socket.SO_KEEPALIVE, 5秒心跳)
)总之,连接Cassandra不仅仅是把IP填进去,它是一个需要细致配置的过程,每个参数都可能影响应用的性能和稳定性。
如何使用cassandra-driver进行高效的数据读写?
高效的数据读写,在我看来,是与Cassandra打交道的核心艺术。仅仅能读写是不够的,你得让它快,让它稳。
首先,预处理语句(Prepared Statements)是提升性能和安全性的利器,几乎是生产环境的标配。它的原理是,你先将带有参数占位符的CQL语句发送给Cassandra集群进行解析和编译,集群会返回一个句柄。之后每次执行这条语句,你只需要发送句柄和参数值,省去了重复解析的开销。这对于频繁执行的查询(比如插入、更新、通过主键查询)效果尤为显著。
# 假设表已存在
insert_user_stmt = session.prepare("INSERT INTO users (user_id, name, email) VALUES (?, ?, ?)")
select_user_stmt = session.prepare("SELECT name, email FROM users WHERE user_id = ?")
# 执行预处理语句
session.execute(insert_user_stmt, (uuid_from_time(), "王五", "wangwu@example.com"))
row = session.execute(select_user_stmt, (user_id_1,)).one()其次,批量操作(Batching)在某些特定场景下能带来性能提升。cassandra-driver支持LoggedBatch和UnloggedBatch。LoggedBatch会保证批处理中的所有操作要么全部成功,要么全部失败(原子性),但会有额外的写入开销。UnloggedBatch则不保证原子性,但性能更高,适用于大量不要求严格原子性的写入,比如日志记录。需要注意的是,批处理并非万能药,如果批次过大,反而可能导致性能下降甚至超时。我通常只在需要原子性或少量相关操作时才考虑LoggedBatch,对于大量独立写入,单条异步执行可能更好。
from cassandra.query import BatchStatement, BatchType batch = BatchStatement(batch_type=BatchType.UNLOGGED) # 或 BatchType.LOGGED batch.add(insert_user_stmt, (uuid_from_time(), "赵六", "zhaoliu@example.com")) batch.add(insert_user_stmt, (uuid_from_time(), "孙七", "sunqi@example.com")) session.execute(batch)
再者,一致性级别(Consistency Level)的选择直接影响读写性能和数据强一致性保证。ONE最快但可能读到旧数据,QUORUM兼顾性能和一致性,ALL最强一致性但性能最慢且可用性最低。根据业务对数据新鲜度和可用性的要求来选择。例如,对于用户登录这种强一致性要求高的操作,我可能会选择QUORUM;而对于不那么敏感的日志记录,ONE就足够了。
from cassandra.query import ConsistencyLevel
# 写入时使用LOCAL_QUORUM,确保本地数据中心内大多数节点确认
session.execute(insert_user_stmt, (uuid_from_time(), "周八", "zhouba@example.com"), consistency_level=ConsistencyLevel.LOCAL_QUORUM)
# 读取时使用ONE,快速获取数据,即使可能不是最新
rows = session.execute("SELECT * FROM users", consistency_level=ConsistencyLevel.ONE)最后,对于大量数据的读取,分页(Paging)是必不可少的。Cassandra不建议执行SELECT * FROM large_table这样的全表扫描,因为它会将所有数据加载到内存,可能导致OOM或超时。cassandra-driver会自动处理分页,但你可以通过fetch_size参数控制每次从Cassandra获取的行数,这有助于控制内存使用和网络负载。
# 默认情况下驱动会自动分页,但你可以设置fetch_size来控制每次取回的行数
rows = session.execute("SELECT * FROM users", fetch_size=100)
for row in rows:
print(row)异步操作也是提升吞吐量的有效手段,session.execute_async()允许你并行发送多个查询,而不用等待前一个查询完成。这在处理大量独立请求时非常有用。
cassandra-driver中常见的问题与调试技巧有哪些?
在使用cassandra-driver的过程中,我遇到过不少头疼的问题,但大部分都有规律可循,并且有相应的调试方法。
最常见的问题之一就是连接失败或超时。这通常表现为NoHostAvailable错误。首先,检查Cassandra集群是否健康运行,节点IP地址是否正确,端口(默认9042)是否开放。网络防火墙、安全组配置不当是常见原因。其次,如果集群在运行,但连接仍然超时,可能是connect_timeout设置过低,或者网络延迟过高。我通常会尝试用cqlsh在Python应用运行的机器上直接连接Cassandra,如果cqlsh也连不上,那问题肯定出在网络或Cassandra本身。
# 检查Cassandra日志,通常在/var/log/cassandra/system.log或/var/log/cassandra/debug.log # 检查网络连通性: # ping <cassandra_node_ip> # telnet <cassandra_node_ip> 9042
一致性级别相关的错误,比如WriteTimeout或ReadTimeout,意味着在指定的一致性级别下,Cassandra集群未能在规定时间内响应足够多的副本。这可能是集群负载过高、节点故障、网络拥堵或数据模型设计不合理(例如,热点分区)导致的。调试时,我会检查Cassandra集群的监控指标(如CPU、内存、磁盘I/O、网络流量),以及Cassandra的日志中是否有相关错误或警告。同时,审视查询的consistency_level设置是否合理,有时降低一致性级别可以缓解问题。
数据类型不匹配也是一个隐蔽的坑。Python的数据类型和Cassandra的CQL数据类型之间有映射关系,但并非所有都直接对应。例如,Cassandra的decimal类型在Python中是Decimal对象,uuid是UUID对象。如果你尝试插入一个错误的Python类型,驱动会抛出InvalidRequest或TypeError。我的经验是,仔细查阅cassandra-driver的官方文档,了解类型映射规则,并在代码中进行必要的类型转换。
from decimal import Decimal
from uuid import uuid4
# 假设Cassandra表字段为decimal_col decimal, uuid_col uuid
# 确保Python数据类型匹配
session.execute("INSERT INTO my_table (decimal_col, uuid_col) VALUES (?, ?)", (Decimal('123.45'), uuid4()))预处理语句的缓存问题偶尔也会出现。当集群拓扑发生变化(如节点上线下线),或者某个预处理语句在某个节点上失效时,可能会导致问题。cassandra-driver有内置的缓存机制,但有时你可能需要手动清除或刷新缓存,或者在捕获到相关错误时重新准备语句。
开启驱动日志是排查问题最直接有效的方法。cassandra-driver使用了Python标准的logging模块。在你的应用启动时配置好日志,可以输出详细的连接状态、查询执行、错误信息等,这对于理解驱动的内部行为和定位问题非常有帮助。
import logging
log = logging.getLogger()
log.setLevel(logging.DEBUG) # 设置为DEBUG可以看到更详细的信息
handler = logging.StreamHandler()
handler.setFormatter(logging.Formatter("%(levelname)s:%(name)s:%(threadName)s:%(message)s"))
log.addHandler(handler)
# 这样你就能在控制台看到驱动的详细日志了最后,利用Cassandra本身的Tracing功能。在cqlsh中执行TRACING ON,然后执行你的CQL查询,Cassandra会记录该查询在集群中每个阶段的详细信息,包括网络延迟、节点处理时间等,这能帮助你深入分析查询性能瓶颈。在cassandra-driver中,你也可以通过session.execute(query, trace=True)来开启跟踪,然后通过query.response_future.get_query_trace()获取跟踪信息。这是一个强大的工具,能让你看到查询在分布式系统中的“旅程”。
调试Cassandra和cassandra-driver的问题,往往是一个系统性的过程,需要结合网络、Cassandra集群状态、驱动配置和代码逻辑多方面进行排查。
文中关于的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《Python操作Cassandra:cassandra-driver使用教程》文章吧,也可关注golang学习网公众号了解相关技术文章。
美图秀秀证件照换底色步骤详解
- 上一篇
- 美图秀秀证件照换底色步骤详解
- 下一篇
- Win11亮度无法调节?修复方法大全
-
- 文章 · python教程 | 9分钟前 |
- Python列表创建技巧全解析
- 283浏览 收藏
-
- 文章 · python教程 | 33分钟前 |
- Python计算文件实际占用空间技巧
- 349浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- OpenCV中OCR技术应用详解
- 204浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Pandas读取Django表格:协议关键作用
- 401浏览 收藏
-
- 文章 · python教程 | 2小时前 | 身份验证 断点续传 requests库 PythonAPI下载 urllib库
- Python调用API下载文件方法
- 227浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Windows7安装RtMidi失败解决办法
- 400浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python异步任务优化技巧分享
- 327浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- PyCharm图形界面显示问题解决方法
- 124浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python自定义异常类怎么创建
- 450浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python抓取赛狗数据:指定日期赛道API教程
- 347浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python3中datetime常用转换方式有哪些?
- 464浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3179次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3390次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3418次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4525次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3798次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览

