揭秘AI算法：理解人工智能的核心

时间：2023-07-07

　　不管你在任何场合、任何设备使用互联网，你都一定会遇到算法。从日常生活中你会刷到什么样的短视频、看到什么样的广告、网购平台给你推荐的商品、搜索引擎给你展示的结果、出门打到哪一辆网约车、导航给你分配的最优路线，到金融机构处理交易的系统等等，算法无处不在。算法也是人工智能（AI）的基础。

　　尽管算法是我们数字生活的核心，但除了创建它们的人之外，很少有人真正了解它们，几乎所有的算法都以晦涩难懂而闻名。

　　生活中，算法无处不在

　　一、什么是算法？

　　简单来说，算法是一组明确定义的步骤，需要按照顺序执行以达到计划的结果。特别是，它用于求解数学方程。算法可以分为三个广泛的组成部分：

　　输入：在问题开始前就已知的信息。

　　算法：按照步骤一步一步地执行的序列。

　　输出：如果严格遵循序列中的所有步骤，则会出现预期结果。

　　在科技世界之外，一个类似于算法系统的例子是“烹饪”。你有你的输入（食材、配料），你有你的算法（或多或少需要遵循的操作步骤），你有你的输出（一道你期望中的美食）。

　　算法是我们数字生活的原子结构的一部分，你使用的任何计算机程序、手机APP都会运行多个算法来执行其功能。你网页浏览器到文字处理器，再到从Windows 3.0开始就附带的纸牌游戏，每一个都依靠算法运行。

　　二、人工智能中的算法如何运作？

　　从根本上来说，人工智能是一种计算机程序。这意味着，和普通的电脑程序、游戏一样，你遇到的任何 AI 或机器学习 (ML) 解决方案都将从头开始使用算法构建。

　　人工智能和机器学习中的算法的作用是可变的。从广义上讲，它们定义了人工智能在处理和分析数据时将使用的规则、条件和方法。这可以像定义人工智能处理单张图片所需的步骤一样简单，也可以让人工智能在包含数十万张图片的数据集中过滤掉带有狗的图片。

　　机器学习中的算法即使给定未知输入也可以帮助预测输出。AI算法通过解决不同类别的问题而实现类似的功能。

　　AI算法解决的问题类型可以分为三个广泛的类别：分类算法、回归算法、聚类算法。

　　三、人工智能算法的类型——分类算法。

　　分类算法：一种用于预测物品所属的类别或类的机器学习类型。比如我们可以对人工智能进行编程，以区分垃圾邮件和您实际需要的邮件。以下是在AI和机器学习中使用的一些分类算法的示例。

　　1、二元逻辑回归

　　二元逻辑回归可以预测二元结果，例如是/否、通过/不通过。其他形式的逻辑回归，如多项式回归，可以预测三个或更多可能的结果。逻辑回归通常用于疾病预测、欺诈检测和客户流失预测等案例中，可以利用其数据集来评估风险。

　　2、朴素贝叶斯

　　朴素贝叶斯是一种基于将独立假设纳入模型的概率算法，意味着它在模型中假设数据集中的两个测量没有关联，也不会相互影响。这就是为什么它被称为"朴素"。它通常用于文本分析和分类模型，可以将单词和短语分类到指定的类别中。

　　3、K最近邻（k-NN）

　　除了有时用于解决回归问题外，k最近邻通常用于解决分类问题。在解决分类问题时，它将数据点分隔成多个类别，并在平面上预测新数据点的类别标签。根据周围所代表的类别标签最常出现的情况，新的数据点被赋予一个新的分类。k-NN也被称为"惰性学习"算法，这意味着它不需要完整的训练步骤，而只保存一个训练数据集。

　　4、决策树

　　决策树是一种监督学习算法，也可用于分类问题和回归问题。之所以被称为"树"，是因为它具有层次结构。从根节点开始，它分支出更小的内部节点或决策节点，在这些节点中进行评估以产生由终端节点或叶节点表示的子集。

　　比如从根节点开始分类武术，然后分成注重打击的武术和注重摔跤的武术的内部节点。这些内部节点可以再分成特定的武术，如拳击、柔术和泰拳的终端节点。这些算法非常适合数据挖掘和知识发现任务，因为它们易于解释，并且只需要很少的数据准备就可以部署。

　　5、随机森林

　　随机森林算法由里奥?布雷曼和阿黛尔·卡特勒发明。它利用多个决策树的输出来产生预测结果。与决策树类似，随机森林既可用于解决分类问题，也可用于解决回归问题。每棵树都由从训练数据集中抽取的数据样本组成，使用带替换的抽样方法进行抽样。这为决策树增加了随机性，即使它们来自完全相同的数据集。

　　在解决分类问题时，根据这些随机决策树的输出来确定多数票。例如，假设有10棵决策树专门用于确定一件连衣裙的颜色，三组说它是蓝色，两组说它是黑色，四组说它是粉色，一组说它是红色。那么该连衣裙将被归类为粉色，因为粉色获得了4票的多数票。

　　随机森林是金融领域机器学习模型的首选算法，因为它可以减少预处理和数据管理任务所需的时间。欺诈检测、期权定价和客户信用风险评估都是它在金融领域中使用的实例。

　　点击（最多18字）

　　四、人工智能算法的类型——回归算法：

　　回归算法：一种用于根据对象的功能预测数字标签的机器学习类型。比如使用历史数据来预测股票市场价格和走势。以下是在AI和机器学习中使用的一些回归算法的示例。

　　1、线性回归

　　线性回归是一种在统计学和社会科学中使用的算法，用于定义一个因变量与一个自变量之间的线性关系。这种算法的目标是根据给定的数据点确定可能的趋势线。企业通常在确定广告支出如何影响收入时使用线性回归。

　　2、泊松回归

　　泊松回归是一种回归类型，其中假设预测变量始终都遵循泊松分布。泊松分布是一种概率函数，可以帮助确定在特定的固定时间段内发生给定数量的事件的概率。

　　例如，你可以使用泊松回归来确定高中生在24小时内解开魔方的可能性有多大。或者，你可以根据餐厅每周的平均用餐人数来预测餐厅在特定日期拥有更多顾客的可能性。

　　3、普通最小二乘（OLS）回归

　　OLS回归是最流行的回归算法之一，也被称为排序学习。OLS回归以序数值作为输入，以确定多个变量之间的线性关系。该算法在预测某个事物在任意尺度上排名的可能性时最有用，例如，在1-10的范围内预测某游戏被评为7的可能性有多大。它经常用于社会科学，因为该领域的调查经常要求参与者对某些事物进行大规模评估。

　　4、套索（Lasso）回归

　　套索回归在OLS回归的基础上增加了一个惩罚项。这可以帮助你创建比简单OLS更复杂和更准确的数据表示。套索回归也被称为L1正则化。

　　5、神经网络回归

　　神经网络是目前最流行的AI和机器学习训练方法之一。顾名思义，它们受到人脑的启发，并且擅长处理对于常见的机器学习方法来说过于庞大的数据集。

　　神经网络是一种多功能工具，只要提供足够的先验数据来预测未来事件，就可以执行回归分析。例如，你可以将客户的网络活动数据和元数据输入神经网络，以确定顾客离开你的网站而不购买任何商品的可能性有多大。

　　五、人工智能算法的类型——聚类算法：

　　聚类算法：一种根据功能相似性将对象分组的机器学习类型。比如使用算法对一组金融交易进行排序并找出潜在的欺诈实例。以下是在AI和机器学习中使用的一些聚类算法的示例。

　　1、K均值聚类

　　K均值聚类是一种无监督学习算法，它采用具有某些特征以及与这些特征相关的值的数据集，并将数据点分组为多个簇。其中的"K"表示你要将数据点分类到的簇的数量。K均值聚类具有许多可行的应用，包括文档分类、保险欺诈检测和通话详单分析。

　　2、均值漂移聚类

　　均值平移聚类是一种简单、灵活的聚类技术，通过将数据点移向数据点密度最高的区域（称为众数），将数据点分配到聚类中。在此设置中如何定义集群可能取决于多种因素，例如距离、密度和分布。它也称为“模式搜索算法”。均值漂移聚类应用在图像处理、计算机视觉、客户细分和欺诈检测等领域。

　　3、基于密度的噪声应用空间聚类（DBSCAN）

　　DBSCAN将低数据点密度的高密度簇与其他高密度簇分开。比如，我们在手机或电脑某平台上看电影，平台推荐算法就使用类似的聚类方法来确定下一个推荐给你的内容。

　　例如，如果你观看了最近的电影《终结者》，该算法会查看还观看过《终结者》的其他用户数据，并根据这些用户接下来观看的内容进行推荐。DBSCAN在处理数据集中的异常值方面表现出色。DBSCAN被应用在包括客户细分、市场研究和数据分析。

　　4、使用层次结构的平衡迭代缩减和聚类 (BIRCH)

　　BIRCH是一种常用于处理大型数据集的聚类技术。它可以在一次扫描整个数据库，并重点关注数据库中具有高数据点密度的空间，并提供精确的数据摘要。

　　实施BIRCH的常见方法是与无法有效处理大型数据集的其他聚类方法一起使用。在BIRCH生成其摘要之后，其他聚类方法通过摘要运行并进行聚类。因此，BIRCH最适用于常规聚类方法无法高效处理的大型数据集。

　　5、高斯混合模型（GMM）

　　与泊松回归利用泊松分布的概念类似，GMM将数据集建模为多个高斯分布模型的混合物。高斯分布也称为"正态分布"，因此可以直观地假设数据集的簇将沿着正态分布的线路分布。

　　GMM在处理大型数据集时非常有用，因为它保留了单一高斯模型的许多优点。并在语音识别系统、异常检测和股票价格预测等领域中发挥作用。

　　算法是解决问题和预测结果的一系列步骤，可以分为分类、回归和聚类算法。分类算法如逻辑回归和朴素贝叶斯用于预测物品所属的类别；回归算法如线性回归和神经网络用于预测变量之间的线性关系；聚类算法如K均值和DBSCAN用于将数据点分组为簇。这些算法在各个领域都有广泛的应用，通过理解这些算法，我们可以更好地利用人工智能技术来解决实际问题。#科技情报局#

　　举报/反馈