当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 为什么机器学习中的数据要用向量/矩阵来表示？

为什么机器学习中的数据要用向量/矩阵来表示？

来源：51CTO.COM 2023-04-25 18:35:22 0浏览收藏

珍惜时间，勤奋学习！今天给大家带来《为什么机器学习中的数据要用向量/矩阵来表示？》，正文内容主要涉及到等等，如果你正在学习科技周边，或者是对科技周边有疑问，欢迎大家关注我！后面我会持续更新相关内容的，希望都能帮到正在学习的大家！

在数据科学和机器学习中，我们经常将数据表示为向量和矩阵。在数学和物理中，向量被定义大小和方向的量(例如，距离向量)。然而，通常我们处理的数据不一定会遵循向量的定义，但但我们仍然用向量来表示数据。例如，我们可以将人口统计信息(例如，种族、年龄、性别等)的数据表示为一个向量，但这没有对大小或方向的纯几何解释。

同样，在数学中，矩阵是用来表示线性映射的，它被定义为两个向量空间之间的映射，两个向量空间保留了向量加法和标量乘法。然而，在数据科学/机器学习中如何使用矩阵的上下文与这种数学定义是不同的。

既然存在这种差异，那么为什么向量和矩阵在表示数据时被如此广泛地使用呢?在本文中，我们将探讨解释这一现象的几个原因。

计算效率

在处理数据时，我们通常想要将它们输入到机器学习模型中，这个过程涉及大量的计算，通常需要对许多数字进行加法和乘法运算。例如，在构建电影推荐系统时，您可能会收集用户观看库中每部电影的时长数据。然后你可以推荐那些平均观看时间较高的电影。这个平均值是通过所有用户观看电影的时间之和除以电影的数量计算出来的。执行这一过程可能会很慢，特别是当用户和电影数量越来越多时(比如优酷，它拥有超过2.67亿的用户，拥有近2万部影片)。

然而，计算机科学家已经开发出非常高效的线性代数算法，向量和矩阵的加法和乘法比传统的基于元素的加法/乘法要快得多。对于Python，用于科学计算和线性代数的NumPy库提供了更快的速度和效率。再次回顾我们的推荐系统问题，我们可以将每个用户与一个维度为n的观看时间向量相关联，其中n是电影的数量。然后我们的数据将是这些向量的一个矩阵集合，有n行m列，其中n是电影的数量，m是用户的数量。为了找到要推荐的电影，我们可以沿着行取平均值，找出所有用户观看每部电影的平均时间，然后根据平均观看时间最高的电影进行排序。由于高度优化的算法，用向量和矩阵实现这个问题可以加快计算速度。

为了演示，这里有一个Python脚本，比较了使用常规 Python 和 NumPy 库（对矩阵和向量进行了优化）计算行平均值所需的时间。为了评估计算效率，我们将测量程序运行一个包含 500 部电影和 200 个用户的数据集所需的时间。

# import necessary libraries
import random
import numpy as np
import time


# defining the dimensions for our data
n = 500 # number of movies
m = 200 # number of users


# generating the (random) data with n rows and m columns
data = []
for _ in range(n):
data.append(random.choices(range(0, 90), k = m)) # generate random watch time


# normal array iterations to calculate the means along the rows
start_time = time.time() 
averages = []
for i in range(n):
row_average = 0
for j in range(m):
row_average += data[i][j] 
row_average = row_average / m
averages.append(row_average)
end_time = time.time()
total_time = end_time - start_time # time for normal array implementation


# using NumPy
np_data = np.array(data) # convert data into numpy array


np_start_time = time.time()
np_average = np.mean(np_data, axis = 1) # using numpy mean function
np_end_time = time.time()
np_total_time = np_end_time - np_start_time # time for numpy array implementation


print(f"Regular Python: {total_time:4f}; NumPy: {np_total_time:4f}") # print results

可以将Python代码运行十次并对结果取平均值，常规 Python 耗时 9.088 毫秒，而 NumPy 耗时 0.427 毫秒。NumPy 实现比常规 Python 快大约 20 倍。

更进一步，我们在下面绘制Python和NumPy实现计算平均值的时间，同时将用户数量从1到1000进行变化，同时保持电影数量为500。

为什么机器学习中的数据要用向量/矩阵来表示？

随着数据量的增加，常规Python和NumPy之间的差值会越来越大。我们还可以通过绘制两个实现之间的比率来可视化这一点。

为什么机器学习中的数据要用向量/矩阵来表示？

随着数据量的增加，这个比例也在不断增加，这也证明了使用NumPy可以提高效率。对于非常大的数据来源或复杂的模型,这样效率更有价值。考虑一下越来越普遍的大数据领域，往往有数十亿到数万亿的数据点。对于深度神经网络模型，它可能由数百万个节点/参数组成，每个节点/参数的权重和偏差还要进行相乘或相加运算(例如，GPT-3语言模型有超过1750亿个参数)。