电商-在线答题-在线出题考试深圳市新微云科技官网

电商在线考试答题题目

1、 (单选题)在基于内容的推荐算法中，若物品是文本类数据，为提取关键特征，常使用以下哪种技术?

A、词嵌入(Word Embedding)

B、数据离散化

C、主成分分析(PCA)

D、数据标准化

2、 (单选题)在 Python 中，pandas库的DataFrame对象的merge()方法，用于实现哪种数据操作?

A、数据筛选

B、数据分组

C、数据排序

D、数据合并

3、 (单选题)在 Python 中，使用scikit-learn库进行决策树分类时，criterion参数的作用是?

A、控制叶子节点的最小样本数

B、控制决策树的最大深度

C、限制决策树的最小深度

D、选择特征划分的标准

4、 (单选题)对于时间序列数据中的季节性变化，以下哪种分析方法最适用?

A、回归分析

B、主成分分析

C、相关分析

D、频谱分析

5、 (单选题)在回归分析的假设检验中，若检验结果拒绝原假设，意味着?

A、自变量与因变量之间存在显著的线性关系

B、回归模型无意义

C、样本数据存在错误

D、自变量与因变量之间不存在线性关系

6、 (单选题)以下关于属性构造的说法，错误的是:

A、可以通过现有属性计算新属性

B、可基于业务逻辑构造属性

C、构造的新属性一定有用

D、能增强数据的特征表达

7、 (单选题)数据清洗中处理重复记录时，最直接的方法是?

A、随机保留部分重复记录

B、删除所有重复记录

C、计算记录相似度后保留

D、保留所有记录

8、 (单选题)在 Python 中，用于读取 CSV 文件的常用函数是:

A、 read_csv ()

B、 read_excel ()

C、 read_sql ()

D、 read_json ()

9、 (单选题)使用 Python 连接数据库时，不需要考虑的因素是:

A、数据库类型

B、数据库用户名和密码

C、数据库服务器地址

D、数据库表的颜色

10、 (单选题)在 Python 的seaborn库中，pairplot()函数的主要用途是?

A、绘制两个变量之间的散点图

B、绘制单个变量的分布直方图

C、绘制多个变量两两之间的关系图(包括散点图和直方图)

D、绘制热力图展示变量之间的相关性

11、 (单选题)在关联规则挖掘中，若设置最小支持度为 0.3，最小置信度为 0.7，那么一条支持度为 0.25，置信度为 0.8 的规则会被?

A、保留

B、删除

C、进一步评估

D、作为特殊规则单独处理

12、 (单选题)数据标准化方法中，将数据映射到 [0, 1] 区间的是?

A、最小 - 最大标准化

B、小数定标标准化

C、 Z - score 标准化

D、对数变换标准化

13、 (单选题)数据标准化的作用不包括:

A、消除量纲影响

B、改变数据的分布形态

C、提高模型的收敛速度

D、使数据具有可比性

14、 (单选题)在 Python 中，绘制柱形图的函数是:

A、 heatmap ()

B、 bar ()

C、 hist ()

D、 boxplot ()

15、 (单选题)以下不属于常见数据来源的是:

A、数据库存储数据

B、网络爬虫获取数据

C、梦境幻想数据

D、传感器采集数据

16、 (单选题)在关联规则挖掘中，若发现 “啤酒” 和 “尿布” 之间存在强关联规则，这属于哪种类型的关联?

A、非因果关联

B、因果关联

C、偶然关联

D、顺序关联

17、 (单选题)智能推荐算法不包括以下哪一种?

A、决策树推荐

B、基于协同过滤的推荐

C、基于内容的推荐

D、基于关联规则的推荐

18、 (单选题)在 Python 的pandas库中，DataFrame对象的drop()方法默认删除的是?

A、指定的行

B、缺失值所在的行

C、重复的行

D、指定的列

19、 (单选题)商务数据分析中，数据获取的途径不包括:

A、问卷调查

B、企业内部数据库

C、凭空想象编造数据

D、公开数据平台

20、 (单选题)在 Python 中，pandas库的groupby()方法返回的对象类型是?

A、 Series

B、 DataFrame

C、 dict

D、 GroupBy对象

21、 (单选题)在多表左连接操作中，结果表会包含?

A、左右表完全匹配的记录

B、左表所有记录及右表匹配记录

C、仅右表的记录

D、仅左表的记录

22、 (单选题)在 K-Means 算法的初始化过程中，以下哪种方法可以降低随机初始化聚类中心导致的结果不稳定问题?

A、以上方法都可以

B、固定使用相同的随机数种子

C、多次随机初始化并取最优结果

D、采用 K-Means++ 算法初始化

23、 (单选题)K-Means 算法中的 “K” 指的是?

A、迭代的次数

B、聚类的类别数

C、特征的数量

D、数据点的数量

24、 (单选题)当使用 Python 读取 Excel 文件出现乱码时，最不可能的原因是?

A、未安装相关读取库

B、电脑屏幕分辨率问题

C、文件编码格式不匹配

D、 Excel 文件本身损坏

25、 (单选题)当数据集中存在大量缺失值，且缺失值比例超过 50% 时，以下处理方式较为合理的是?

A、直接删除含有缺失值的记录

B、考虑删除该变量

C、用中位数填充缺失值

D、用均值填充缺失值

26、 (单选题)在 K-Means 算法中，初始聚类中心的选择对结果会产生什么影响?

A、只影响计算速度

B、可能导致不同的聚类结果

C、无任何影响

D、仅影响聚类数量

27、 (单选题)在 Python 的pandas库中，若要统计DataFrame某一列中不同取值的数量，使用以下哪个函数?

A、 sum()

B、 count()

C、 value_counts()

D、 mean()

28、 (单选题)在 Python 中，使用pandas对DataFrame进行条件筛选时，以下哪种语法是正确的?

A、 df.select(lambda x: x['column'] > 10)

B、 df.query('column == 10')

C、 df.filter(lambda x: x['column'] > 10)

D、 df[df['column'] > 10]

29、 (单选题)在 Python 中，使用scikit-learn库进行决策树分类时，max_depth参数的作用是?

A、限制决策树的最小深度

B、限制决策树的最大深度

C、控制叶子节点的最小样本数

D、控制特征选择的标准

30、 (单选题)在连续属性离散化中，等宽法是指:

A、将数据划分为宽度相等的区间

B、将数据划分为数量相等的区间

C、根据数据分布特征划分区间

D、随机划分区间

31、 (单选题)Python 的 Anaconda 发行版的特点不包括:

A、简化安装流程

B、集成大量常用库

C、方便管理 Python 环境

D、只能在 Windows 系统使用

32、 (单选题)在 Python 中用 Anaconda 管理环境时，创建新环境的命令一般是?

A、 conda install

B、 conda update

C、 conda list

D、 conda create

33、 (单选题)探索性分析不包括以下哪项内容:

A、数据清洗

B、描述性统计分析

C、查看数据分布

D、可视化分析

34、 (单选题)在使用 Python 进行数据库连接时，以下哪种不是pymysql库中用于执行 SQL 语句的方法?

A、 fetchone()

B、 show()

C、 commit()

D、 execute()

35、 (单选题)关于 Python 中的scikit-learn库，以下说法正确的是:

A、提供了丰富的机器学习算法实现

B、无法处理文本数据

C、只能用于分类算法

D、不支持模型评估

36、 (单选题)商务数据分析中，构建模型的目的不包括:

A、发现数据模式

B、预测未来趋势

C、验证假设

D、单纯存储数据

37、 (单选题)以下哪种不属于数据变换中函数变换的常见形式?

A、开方变换

B、加法运算

C、指数变换

D、对数变换

38、 (单选题)在使用 Python 进行商务数据分析时，若要对数据进行快速的交互式探索和可视化，以下哪种工具最方便?

A、 Visual Studio Code

B、 Jupyter Notebook

C、 Sublime Text

D、 PyCharm

39、 (单选题)在商务数据分析的探索性分析阶段，若要快速了解数据各列的统计摘要(如均值、标准差等)，在 Python 中使用pandas的哪个函数最方便?

A、 head()

B、 describe()

C、 info()

D、 tail()

40、 (单选题)在决策树构建过程中，用于选择划分属性的指标不包括?

A、信息增益

B、相关系数

C、信息增益率

D、基尼指数

41、 (单选题)在关联规则挖掘中，支持度(Support)和置信度(Confidence)的取值范围分别是?

A、支持度:[0, 1]，置信度:[0, 1]

B、支持度:(-∞, +∞)，置信度:(-∞, +∞)

C、支持度:(-∞, +∞)，置信度:[0, 1]

D、支持度:[0, 1]，置信度:(-∞, +∞)

42、 (单选题)在 Python 中绘制折线图时，若要设置线条颜色为红色，应使用以下哪种参数设置?

A、 color='r'

B、 color='red'

C、以上都是

D、 c='r'

43、 (单选题)在商务数据分析中，数据可视化的主要作用不包括?

A、帮助非技术人员理解数据

B、发现数据中的规律和趋势

C、更直观地展示数据特征

D、替代数据统计分析

44、 (单选题)关于关联规则，以下说法正确的是:

A、仅用于分类问题

B、不涉及数据之间的关系挖掘

C、常用于发现数据项之间的潜在关联

D、与聚类分析完全相同

45、 (单选题)在 Apriori 算法中，生成频繁项集时，剪枝策略的作用是?

A、增加计算量以提高准确性

B、去除不可能是频繁项集的候选项集

C、仅保留最大的项集

D、随机删除部分项集

46、 (单选题)在数据预处理中，对文本数据进行词干提取(Stemming)的目的是?

A、去除文本中的数字

B、将文本转换为小写

C、提取单词的词根形式

D、统计文本中的单词数量

47、 (单选题)在 Python 中，使用matplotlib库绘制饼图时，若要突出显示某一扇区，可通过以下哪种参数实现?

A、 colors

B、 labels

C、 explode

D、 autopct

48、 (单选题)以下哪个不属于商务数据分析的应用场景:

A、客户行为分析

B、个人日常生活记账

C、市场销售预测

D、产品优化决策

49、 (单选题)在数据预处理中，对图像数据进行归一化处理的主要目的是?

A、增强图像的色彩对比度

B、压缩图像文件大小

C、使图像数据具有相同的尺度范围，便于模型训练

D、去除图像中的噪声

50、 (单选题)在聚类分析中，层次聚类算法的两种基本类型是?

A、硬聚类和软聚类

B、基于网格和基于模型

C、凝聚式和分裂式

D、基于密度和基于划分

51、 (单选题)在 Python 中，实现基于协同过滤的推荐算法的常用库是?

A、 matplotlib

B、 surprise

C、 pandas

D、 numpy

52、 (单选题)以下哪个不属于常用的分类算法?

A、决策树

B、支持向量机

C、逻辑回归

D、线性回归

53、 (单选题)以下哪种方法不属于异常值处理方法:

A、用众数替换异常值

B、保留异常值不做处理

C、视为缺失值处理

D、直接删除异常值

54、 (单选题)在 Python 中，实现 K-Means 算法的常用函数来自哪个库?

A、 requests

B、 scikit-learn

C、 seaborn

D、 pandas

55、 (单选题)在关联规则挖掘中，若一条规则的支持度为 0.1，置信度为 0.9，提升度为 1.2，从商业角度看，该规则最可能适用于以下哪种场景?

A、忽略该规则，因支持度太低

B、商品捆绑销售推荐，因置信度高

C、作为核心规则应用，因置信度和提升度都较好

D、用于广告投放定向，因提升度大于 1

56、 (单选题)判断时间序列是否平稳的常用方法是?

A、计算均值

B、计算方差

C、单位根检验

D、绘制散点图

57、 (单选题)关于 Python 数据分析中matplotlib库的subplot()函数，以下说法正确的是?

A、所有子图必须使用相同的 x、y 轴刻度

B、不能设置子图的标题

C、只能创建 1×1 的子图布局

D、 subplot(2, 3, 4)表示创建 2 行 3 列的子图布局，并选中第 4 个子图

58、 (单选题)在数据预处理的离散化操作中，等频法的缺点是?

A、计算复杂度极高

B、无法处理数值型数据

C、对异常值过于敏感

D、划分区间宽度差异大

59、 (单选题)在 Python 中，使用scikit-learn库进行主成分分析(PCA)降维时，n_components参数的作用是?

A、控制特征的选择标准

B、控制降维后数据的维度

C、控制主成分分析的迭代次数

D、控制保留的主成分数量

60、 (单选题)在时间序列分析中，以下哪种模型可以用于预测具有周期性变化的数据，且能同时考虑趋势和季节性因素?

A、 Holt-Winters 模型

B、自回归模型(AR)

C、简单指数平滑模型

D、移动平均模型(MA)

61、 (单选题)在数据分析中，若数据存在严重的偏态分布，以下哪种集中趋势统计指标更能代表数据的中心位置?

A、均值

B、众数

C、中位数

D、标准差

62、 (单选题)以下关于商务数据分析基本概念的说法，错误的是

A、分析结果可直接应用，无需验证

B、能帮助企业优化决策

C、可挖掘数据背后的规律

D、商务数据分析是从大量数据中提取有价值信息的过程

63、 (单选题)在评估智能推荐系统的多样性时，以下哪种指标最常用?

A、召回率

B、准确率

C、均方误差

D、香农熵

64、 (单选题)在数据清洗过程中，对于重复记录的判断依据通常不包括以下哪项?

A、记录的创建时间

B、所有列的值完全相同

C、记录的哈希值相同

D、部分关键列的值相同

65、 (单选题)在回归分析中，残差(Residual)是指?

A、数据的方差

B、预测值与实际值的差值

C、实际值与均值的差值

D、预测值与均值的差值

66、 (单选题)在 Python 中，进行时间序列分析的常用库是?

A、 requests

B、 pillow

C、 flask

D、 statsmodels

67、 (单选题)在回归分析中，决定系数(\(R^2\))的取值范围是?

A、 \([1, +\infty)\)

B、 \((-\infty, +\infty)\)

C、 \([-1, 1]\)

D、 \([0, 1]\)

68、 (单选题)人工神经网络中，以下哪项不是其组成部分?

A、打印层

B、输入层

C、输出层

D、中间层(隐藏层)

69、 (单选题)在聚类分析中，DBSCAN 算法与 K-Means 算法的主要区别在于?

A、 DBSCAN 只能处理数值型数据

B、 K-Means 对异常值不敏感

C、 DBSCAN 不需要预先指定聚类数量

D、 K-Means 能处理任意形状的簇

70、 (单选题)在数据分析中，若要直观展示不同类别数据的数量占比情况，以下哪种图表最合适?

A、柱形图

B、散点图

C、饼图

D、折线图

71、 (单选题)在基于协同过滤的推荐算法中，用户 - 物品评分矩阵中存在大量缺失值，以下哪种方法通常不用于处理缺失值?

A、基于物品相似性填充

B、使用矩阵分解方法估计填充

C、基于用户相似性填充

D、随机生成值填充

72、 (单选题)在商务数据分析中，以下哪种场景更适合使用聚类分析?

A、将客户按照消费行为和偏好划分为不同群体

B、根据客户购买历史预测其未来购买金额

C、预测产品的市场价格走势

D、分析广告投放渠道与产品销量之间的关系

73、 (单选题)商务数据分析流程的第一步是:

A、探索性分析

B、数据预处理

C、数据获取

D、需求分析

74、 (单选题)在 Python 中，使用scikit-learn库进行机器学习模型训练时，train_test_split()函数的主要作用是?

A、对数据进行聚类分析

B、将数据划分为训练集和测试集

C、训练模型并评估性能

D、对数据进行标准化处理

75、 (单选题)对于非平稳时间序列，通常采用的处理方法是?

A、差分运算使其平稳

B、仅进行可视化

C、直接建模

D、忽略非平稳性

76、 (单选题)K-Means 算法在迭代过程中，主要调整的是?

A、数据点的原始值

B、数据的维度

C、数据的标签

D、聚类中心的位置

77、 (单选题)热力图通常用于展示:

A、数据的温度变化

B、两个变量之间的相关性

C、数据的时间序列特征

D、数据的分类情况

78、 (单选题)在 Python 的matplotlib库中，若要添加图表标题，应使用以下哪个函数?

A、 xlabel()

B、 ylabel()

C、 legend()

D、 title()

79、 (单选题)在 Python 中，使用statsmodels库进行时间序列的 ARIMA 模型建模时，模型参数(p,d,q)中的d代表什么?

A、自回归阶数

B、移动平均阶数

C、模型常数项

D、差分阶数

80、 (单选题)在基于协同过滤的推荐算法中，计算用户之间相似度时，以下哪种方法最常用?

A、曼哈顿距离

B、余弦相似度

C、欧几里得距离

D、杰卡德相似度

81、 (单选题)关于决策树算法，下列说法错误的是:

A、可能存在过拟合问题

B、通过树形结构进行决策

C、决策树易于理解和解释

D、不能处理非数值型数据

82、 (单选题)在回归分析中，用于衡量预测值与实际值之间差异的指标通常是?

A、均方误差

B、召回率

C、 F1 值

D、准确率

83、 (单选题)在 Python 的pandas库中，DataFrame对象的merge()方法与concat()方法的主要区别是?

A、 merge()会删除重复列，concat()保留所有列

B、 merge()基于指定列进行连接，concat()按行或列直接拼接

C、 merge()只能合并两个DataFrame，concat()可以合并多个

D、 merge()只能按行合并，concat()只能按列合并

84、 (单选题)以下哪种图表适合展示数据随时间的变化趋势:

A、折线图

B、柱形图

C、饼图

D、箱线图

85、 (单选题)基于协同过滤的推荐算法的核心依据是?

A、关联规则

B、物品的内容特征

C、用户的兴趣偏好相似性

D、时间序列规律

86、 (单选题)基于内容的推荐算法，在构建物品特征向量时，以下哪种方法最不可能被使用?

A、词袋模型(Bag of Words)

B、协同过滤矩阵

C、 TF-IDF(词频 - 逆文档频率)

D、文本向量化

87、 (单选题)以下哪种不属于数据变换的方式:

A、连续属性离散化

B、函数变换

C、数据打印

D、数据标准化

88、 (单选题)下列哪项是商务数据分析中数据预处理的步骤:

A、直接使用原始数据建模

B、只做数据分析报告

C、缺失值处理

D、仅进行数据可视化

89、 (单选题)在数据清洗中，处理缺失值的方法不包括:

A、用均值填充缺失值

B、用中位数填充缺失值

C、直接删除含有缺失值的记录

D、用随机数填充缺失值

90、 (单选题)以下关于 Python 基本命令的说法，错误的是:

A、 type () 函数用于查看数据类型

B、 print () 函数用于输出内容

C、 len () 函数只能用于查看字符串长度

D、 input () 函数用于获取用户输入

91、 (单选题)在回归分析中，若模型出现过拟合现象，以下哪种方法不能缓解该问题?

A、提高模型的复杂度

B、使用正则化方法(如 L1、L2 正则化)

C、增加训练数据量

D、减少模型参数(如降低多项式回归的次数)

92、 (单选题)在数据预处理中，对文本数据进行去停用词操作，以下哪个 Python 库最常用?

A、 requests

B、 numpy

C、 nltk

D、 scikit-learn

93、 (单选题)在回归分析中，以下哪种指标可以反映模型对数据的拟合优度，且值越接近 1 表示拟合效果越好?

A、决定系数(\(R^2\))

B、调整的决定系数(\(\bar{R}^2\))

C、平均绝对误差(MAE)

D、均方误差(MSE)

94、 (单选题)在聚类分析中，若数据点分布呈现不规则形状，且存在噪声点，以下哪种算法更适合?

A、层次聚类算法

B、高斯混合模型聚类算法

C、 K-Means 算法

D、 DBSCAN 算法

95、 (单选题)在聚类分析中，轮廓系数(Silhouette Coefficient)的取值范围是?

A、 (-∞, +∞)

B、 [0, 1]

C、 [-1, 1]

D、 [1, +∞)

96、 (单选题)在 Python 中，以下哪种数据类型不属于数值型:

A、 complex

B、 float

C、 int

D、 str

97、 (单选题)在 Python 中，用于分组聚合的函数是:

A、 join ()

B、 concat ()

C、 merge ()

D、 groupby ()

98、 (单选题)智能推荐算法评价指标中，不包括以下哪一项?

A、多样性

B、准确率

C、均方误差

D、覆盖率

99、 (单选题)以下哪个是 Python 常用的数据格式转换函数:

A、 sum ()

B、 mean ()

C、 max ()

D、 to_datetime ()

100、 (单选题)在数据预处理中，对数值型数据进行标准化时，若将数据映射到均值为 0，标准差为 1 的分布，这种方法被称为?

A、对数变换标准化

B、小数定标标准化

C、 Z-Score 标准化

D、最小 - 最大标准化

101、 (单选题)聚类分析算法评价指标中，用于衡量聚类结果紧密程度的是?

A、提升度

B、支持度

C、轮廓系数

D、置信度

102、 (单选题)在时间序列分析中，季节性分解的主要目的是?

A、将时间序列分解为趋势、季节性和随机成分

B、去除时间序列中的所有波动

C、仅提取时间序列的季节性成分

D、增加时间序列的波动幅度

103、 (单选题)在 Python 中，实现逻辑回归的常用库是?

A、 NumPy

B、 Matplotlib

C、 scikit-learn

D、 pandas

104、 (单选题)模型评价的作用是:

A、评估模型的准确性和可靠性

B、给模型打分娱乐

C、与其他模型比较外观

D、随意修改模型参数

105、 (单选题)Python 数据分析的优势不包括:

A、可扩展性强

B、语法复杂难学

C、开源免费

D、丰富的第三方库

106、 (单选题)Python 的运行方式不包括:

A、命令行方式

B、直接在 Word 中运行

C、集成开发环境(IDE)方式

D、网页在线运行方式

107、 (单选题)以下哪个不是 Python 数据分析常用库:

A、 Matplotlib

B、 Photoshop

C、 pandas

D、 NumPy

108、 (单选题)以下哪种算法不属于聚类分析算法?

A、层次聚类算法

B、 DBSCAN 算法

C、 Apriori 算法

D、 K-Means 算法

109、 (单选题)在关联规则挖掘中，提升度(Lift)的计算公式为?

A、后件支持度 / 置信度

B、支持度 / 置信度

C、置信度 / 后件支持度

D、前件支持度 / 后件支持度

110、 (单选题)关联规则中的支持度表示的是?

A、规则的可信度

B、包含规则前件和后件的事务占总事务的比例

C、规则的提升效果

D、规则的有用程度

111、 (单选题)在时间序列分析中，自相关函数(ACF)用于衡量?

A、时间序列与另一个序列的相关性

B、时间序列的趋势变化

C、时间序列自身在不同时刻的相关性

D、时间序列的季节性强度

112、 (单选题)在 Python 中，使用pandas库读取 CSV 文件时，若文件包含表头，默认参数设置下，哪一列会被自动识别为列索引?

A、第一行数据

B、第一列

C、文件无表头，不会自动识别

D、最后一列

113、 (单选题)在 Python 中，导入 pandas 库的正确语句是:

A、 from pandas import *

B、 import pd

C、以上都对，根据使用习惯选择

D、 import pandas

114、 (单选题)在关联规则挖掘中，置信度的计算公式是?

A、提升度 / 支持度

B、支持度 / 提升度

C、包含前件和后件的事务数 / 包含前件的事务数

D、包含后件的事务数 / 总事务数

115、 (单选题)在 Python 命令行中，用于退出 Python 解释器的命令是:

A、 quit ()

B、以上都是

C、 exit ()

D、 Ctrl + D

116、 (单选题)在 Python 中，seaborn库与matplotlib库的关系是?

A、二者没有关联

B、 matplotlib基于seaborn开发

C、 seaborn基于matplotlib，提供更高级的绘图接口

D、 seaborn是matplotlib的完全替代库

117、 (单选题)在商务数据分析流程中，获取数据之后的下一步是:

A、探索性分析

B、构建模型

C、模型评价

D、应用

118、 (单选题)在回归分析中，以下哪种方法可以用于检验残差是否服从正态分布?

A、方差分析(ANOVA)

B、柯尔莫哥洛夫 - 斯米尔诺夫检验(K-S 检验)

C、独立样本 t 检验

D、卡方检验

119、 (单选题)以下哪项不属于商务数据分析中的需求分析要点:

A、制定分析计划

B、确定数据来源

C、明确分析目的

D、界定分析范围

120、 (单选题)在多表合并中，以下哪种连接方式会保留两个表中所有的记录:

A、右连接

B、左连接

C、外连接

D、内连接

121、 (单选题)在 Python 可视化分析中，用于绘制散点图的函数是:

A、 bar ()

B、 scatter ()

C、 pie ()

D、 plot ()

122、 (单选题)在商务数据分析流程里，应用阶段不涉及以下哪项工作?

A、将分析结果用于企业决策

B、监控分析结果的实际效果

C、部署分析模型到实际业务系统

D、重新收集数据

123、 (单选题)在 K-Means 聚类算法中，当聚类结果不理想时，以下调整方式不合理的是?

A、调整聚类数 K 的值

B、增加数据的缺失值比例

C、更换初始聚类中心的选择方法

D、对数据进行标准化处理

124、 (单选题)以下关于离散程度统计指标的说法，错误的是:

A、极差是最大值与最小值的差

B、四分位距可以衡量数据的分散程度

C、离散系数越大，数据越集中

D、标准差反映数据的离散程度

125、 (单选题)在分类与回归分析中，以下说法正确的是:

A、回归问题输出的是离散类别

B、分类问题输出的是连续值

C、分类和回归都是有监督学习方法

D、分类和回归不需要训练数据

126、 (单选题)以下关于 Python 中numpy数组的说法，错误的是:

A、相比 Python 列表，占用内存更少且运算速度更快

B、可以通过切片操作获取子数组

C、数组元素必须是相同数据类型

D、不能进行数学运算

127、 (单选题)时间序列分析方法不包括以下哪一种?

A、周期波动分析

B、季节变动分析

C、趋势分析

D、聚类分析

128、 (单选题)Apriori 算法的核心思想是?

A、直接计算所有可能的规则

B、基于贪心策略，逐层搜索频繁项集

C、随机生成规则

D、利用神经网络生成规则

129、 (单选题)在描述性统计中，若一组数据的均值远大于中位数，该数据分布可能呈现?

A、右偏态分布

B、左偏态分布

C、均匀分布

D、对称分布

130、 (单选题)时间序列的预处理步骤不包含?

A、数据平滑

B、缺失值处理

C、数据分类

D、数据标准化

131、 (单选题)在时间序列分析中，对于具有明显趋势和季节性的时间序列，以下哪种模型更适用?

A、指数平滑模型

B、季节性分解的 ARIMA 模型(SARIMA)

C、简单移动平均模型

D、线性回归模型

132、 (单选题)在时间序列分析中，通过差分运算将非平稳时间序列转化为平稳时间序列后，若要预测未来趋势，以下哪种方法不可行?

A、继续使用差分后的数据直接预测

B、利用移动平均法进行预测

C、建立 ARIMA 模型进行预测

D、基于回归分析进行预测

133、 (单选题)在时间序列分析中，移动平均法主要用于?

A、检测时间序列中的异常值

B、提取时间序列的季节性特征

C、平滑时间序列数据，消除随机波动

D、预测未来数据的趋势

134、 (单选题)饼图主要用于展示:

A、数据的离散程度

B、数据的分布情况

C、各部分数据占总体的比例

D、数据的变化趋势

135、 (单选题)在 Python 中，使用matplotlib库绘制多折线图时，若要在图例中区分不同折线，需要为每条折线设置不同的?

A、 label参数

B、 alpha参数

C、 linewidth参数

D、 linestyle参数

136、 (单选题)在描述性统计分析中，以下哪个指标不属于集中趋势统计指标:

A、方差

B、均值

C、中位数

D、众数

137、 (单选题)在关联规则挖掘中，若一条规则的支持度为 0.2，置信度为 0.8，其含义是?

A、 80% 的事务包含规则前件和后件，在所有事务中 20% 出现后件

B、 20% 的事务包含规则前件，80% 的事务包含规则后件

C、 20% 的事务包含规则前件和后件，在前件出现的事务中 80% 也出现后件

D、 80% 的事务包含规则前件，20% 的事务包含规则后件

138、 (单选题)在回归分析中，若出现多重共线性问题，可能导致的结果不包括?

A、显著性检验失效

B、方差膨胀因子(VIF)值增大

C、回归系数估计值不稳定

D、模型预测精度提高

139、 (单选题)安装 Anaconda 时，以下说法正确的是:

A、安装路径不能有中文

B、安装后不能修改环境变量

C、只能安装一个版本的 Python

D、安装过程不需要联网

140、 (单选题)分类与回归分析的实现过程不包括以下哪一步骤?

A、直接得出分析结论

B、选择合适算法

C、数据收集与预处理

D、模型训练与评估

141、 (单选题)在数据分析工具的选择中，以下关于 Excel 和 Python 的说法，正确的是?

A、 Excel 操作简单无需编程，Python 必须编程才能使用

B、 Excel 只能处理少量数据，Python 只能处理大量数据

C、 Excel 和 Python 在商务数据分析中可以互补使用

D、 Excel 无法进行复杂数据分析，Python 能完成所有数据分析任务

142、 (单选题)箱线图可以展示的数据信息不包括:

A、中位数

B、异常值

C、均值

D、四分位数

143、 (单选题)在 Python 的matplotlib库中，若要调整图表的字体大小，应修改以下哪个参数?

A、 fontsize

B、 fontstyle

C、 fontweight

D、 size

144、 (单选题)以下哪个是 Python 常用的基本统计分析函数:

A、 plot ()

B、 corr ()

C、 bar ()

D、 scatter ()

145、 (单选题)在数据预处理的异常值处理中，箱线图法判断异常值的依据是?

A、数据点是否小于所有数据的中位数

B、数据点是否大于所有数据的平均值

C、数据点是否在四分位数间距(IQR)的 1.5 倍范围之外

D、数据点是否在均值 ± 标准差范围内

146、 (单选题)下列常用数据分析工具中，属于开源工具的是:

A、 Python

B、 SPSS

C、 Excel

D、 SAS

147、 (单选题)在使用 Python 进行商务数据分析时，若要从网页中抓取数据，最常用的库是?

A、 pandas

B、 BeautifulSoup

C、 numpy

D、 matplotlib

148、 (单选题)关于 Python 数据分析常用库的功能，下列对应错误的是?

A、 NumPy - 数据可视化

B、 pandas - 数据处理与分析

C、 Matplotlib - 绘图

D、 scikit-learn - 机器学习算法实现

149、 (单选题)在基于内容的推荐算法中，计算物品特征之间的相似度时，以下哪种情况适合使用余弦相似度?

A、物品特征是数值型向量，且关注向量的方向而非长度

B、物品特征是文本型数据，需要比较词语的共现频率

C、物品特征是日期型数据，需要计算时间间隔

D、物品特征是类别型数据，需要判断类别是否相同

150、 (单选题)分类与回归算法评价指标中，适用于二分类问题且综合考虑准确率和召回率的指标是?

A、精确率

B、 ROC 曲线

C、混淆矩阵

D、 F1 值

微信扫一扫在线答题在线出卷随机出题小程序闯关答题软件出题答题小程序

电商

电商 在线考试 答题题目

电商在线考试答题题目