数据数据科学面试问题集二 - 潍坊市

TUhjnbcbe - 2021/4/18 22:16:00

北京最权威的白癜风医院 http://yyk.39.net/bj/zhuanke/89ac7.html

笔者邀请您，先思考：

1您在面试数据的工作，遇到什么数据科学面试题？

续数据科学面试问题集一。

1您将在时间序列数据集上使用什么交叉验证技术？

2什么是逻辑回归？或者在最近使用逻辑回归时说明一个例子。

3您怎么理解“正态分布”？

4什么是BoxCox转换？

5您将如何确定聚类算法中的聚类数量？

6什么是深度学习？

7什么是循环神经网络（RNN）？

8机器学习与深度学习有什么区别？

9什么是强化学习？

10什么是选择偏差？

11解释正规化是什么以及它为什么有用。

12什么是TF/IDF矢量化？

13什么是推荐系统？

14回归和分类ML技术有什么区别？

15如果你的机器有4GB内存，而你想在10GB数据集上训练模型。你会如何解决这个问题。到目前为止，您在机器学习/数据科学体验中是否遇到过这种问题？

1您将在时间序列数据集上使用什么交叉验证技术？

您应该意识到时间序列不是随机分布数据这一事实，它本质上是按照时间顺序排序的，因而不使用K-折交叉验证。

在时间序列数据的情况下，您应该使用像前向链接这样的技术-您将在过去的数据模型中查看前向数据。

折叠1：训练[1]，测试[2]

折叠1：训练[12]，测试[3]

折叠1：训练[]，测试[4]

折叠1：训练[4]，测试[5]

2什么是逻辑回归？或者在最近使用逻辑回归时说明一个例子。

Logistic回归通常被称为logit模型，它是一种从预测变量的线性组合预测二元结果的技术。例如，如果你想预测一个特定的*治领导人是否会赢得选举。在这种情况下，预测的结果是二元的，即0或1（赢/输）。这里的预测变量将是特定候选人竞选活动花费的金额，竞选活动花费的时间等。

3您怎么理解“正态分布”？

数据通常以不同的方式分布，偏向左侧或右侧，或者全部混乱。然而，有可能数据围绕一个中心值分布，没有任何左偏或右偏，并以钟形曲线的形式达到正态分布。随机变量以对称钟形曲线的形式分布。

4什么是BoxCox转换？

回归分析的因变量可能不满足普通最小二乘的一个或多个回归假设。残差可能随着预测的增加或随偏态分布而变化。在这种情况下，有必要对响应变量进行变换，以使数据满足所需的假设条件。Boxcox转换是一种将非正态因变量转换为正常形状的统计技术。如果给定的数据不满足正态，但是大部分统计技术都假设正态化。应用boxcox转换意味着您可以运行更多的测试。BoxCox变换是一种将非正态因变量转换为正态形状的方法。对于许多统计技术来说，正态性是一个重要的假设，如果您的数据不满足正态分布，应用Box-Cox意味着您可以运行更多的测试。BoxCox转型以统计学家GeorgeBox和DavidRoxbeeCox爵士的名字命名，他们在年的论文中合作并开发了这项技术。

5您将如何确定聚类算法中的聚类数量？

虽然聚类算法没有指定，但是这个问题通常会参考K-Means聚类，其中“K”定义聚类的数量。例如，下图显示了三个不同的组。在簇内平方和通常用于解释群集内的同质性。如果您根据聚类数量绘制WSS您将得到如下所示的图。该图通常称为ElbowCurve。上图中的红色圆圈点数，即群集数量=6是在WSS中没有看到递减的点。这一点被称为转折点，在K-Means中被视为K.这是广泛使用的方法，但很少数据科学家也首先使用分层聚类来创建树状图并从中识别不同的组。

6什么是深度学习？

深度学习是受人脑神经网络结构和功能启发的机器学习的子领域。在线性回归，支持向量机，神经网络等机器学习算法中，我们有很多算法，深度学习只是神经网络的扩展。在神经网络中，我们考虑了少量的隐藏层，但是当涉及到深度学习算法时，我们会考虑大量隐藏latyers来更好地理解输入输出关系。

7什么是循环神经网络（RNN）？

循环神经网络是一类人工神经网络，用于识别时间序列，股票市场和*府机构等数据序列中的模式。要理解循环神经网络，首先必须了解前馈网络的基本知识。RNN和前馈都是以它们传递信息的方式命名的，这些信息是在网络节点上执行的一系列数学运算。一个节点直接提供信息（从不接触相同的节点两次），而另一个节点则循环它，而后者被称为循环性的。

另一方面，循环性网络不仅将他们所看到的当前输入示例作为他们的输入，而且还将他们以前所见的输入示例作为输入。图底部的BTSXPE表示当前时刻的输入示例，而上下文单元表示前一时刻的输出。在时间t-1达到的递归神经网络的决定会影响它在时间t达到的决定。所以循环性网络有两个输入源，现在和最近的过去，这两个输入源组合起来决定它们如何响应新数据，就像我们在生活中一样。

它们产生的错误将通过反向传播返回并用于调整它们的权重，直到错误不能再降低。请记住，循环性网络的目的是准确分类顺序输入。我们依靠误差和梯度下降的反向传播来做到这一点。

前馈网络中的反向传播从最终误差向后移动，通过每个隐藏层的输出，权重和输入，通过计算它们的偏导数来指定这些权重对部分误差的影响-?E/?w或它们的比率之间的关系的变化。那些衍生物然后被我们的学习规则，梯度下降，来调整权重向上或向下，无论哪个方向减少错误。

经常性网络依赖于通过时间反向传播的扩展，即BPTT。在这种情况下，时间可以简单地表达为一个明确的，有序的一系列计算，将一个时间步与下一个时间步链接起来，这是所有后向传播都需要的。

8机器学习与深度学习有什么区别？

机器学习：机器学习是计算机科学的一个领域，它使计算机无需明确编程即可学习。机器学习可以分为以下三类。监督机器学习，无监督机器学习，强化学习深度学习：深度学习是机器学习的一个子领域，涉及受大脑结构和功能（称为人工神经网络）启发的算法。

9什么是强化学习？

强化学习强化学习正在学习如何做，以及如何将环境映射到行动。最终结果是最大化数字奖励信号。学习者没有被告知要采取什么行动，而是必须发现哪种行为会产生最大的回报。强化学习的灵感来自人类的学习，它是基于奖励/惩罚机制。

10什么是选择偏差？

选择偏差是通过选择个体，群体或数据进行分析而引入的偏差，以便不会实现适当的随机化，从而确保获得的样本不代表要分析的群体。它有时被称为选择效应。“选择偏差”这个短语通常是指采样方法导致的统计分析失真。如果不考虑选择偏差，那么研究的一些结论可能不准确。

11解释正规化是什么以及它为什么有用。

正则化是为了防止过度拟合而向模型添加调整参数以引起平滑度的过程。这通常是通过向现有的权重向量乘以常数来完成的。这个常数通常是L1（Lasso）或L2（ridge）。然后，模型预测应该使正则化训练集上计算的损失函数最小化。

12什么是TF/IDF矢量化？

tf-idf是词频-逆文档频率的缩写，是一个数字统计量，旨在反映词汇对集合或语料库中文档的重要程度。它通常用作信息检索和文本挖掘的权重因子。tf-idf值与单词在文档中出现的次数成比例地增加，但被语料库中单词的频率所抵消，这有助于调整一些单词通常出现频率很高的事实。

13什么是推荐系统？

信息过滤系统的一个子类，旨在预测用户对产品的偏好或评级。推荐系统广泛应用于电影，新闻，研究文章，产品，社交标签，音乐等。

14回归和分类ML技术有什么区别？

回归和分类机器学习技术都属于监督机器学习算法。在有监督的机器学习算法中，我们必须使用带标记的数据集来训练模型，而训练时我们必须明确地提供正确的标签，算法试图从输入到输出学习模式。如果我们的标签是离散值，那么它就会出现分类问题，例如A，B等，但是如果我们的标签是连续值，那么这将是一个回归问题，例如1.23,1.等。

15如果你的机器有4GB内存，而你想在10GB数据集上训练模型。你会如何解决这个问题。到目前为止，您在机器学习/数据科学体验中是否遇到过这种问题？

首先，你必须问问你想训练哪种ML模型。对于神经网络：使用Numpy数组的批量大小将起作用。步骤：

将整个数据加载到Numpy数组中。Numpy数组具有创建完整数据集映射的属性，它不会将完整的数据集加载到内存中。

您可以将索引传递给Numpy数组以获取所需的数据。

使用这些数据传递给神经网络。

有小批量。对于SVM：部分适合将起作用步骤：

将一个大数据集划分一些小数据集

使用SVM的partialfit方法，它需要完整数据集的子集。

对其他子集重复步骤2。

您有什么见解，请留言。

原文链接：

潍坊市论坛