百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

金三银四跳槽季,数据分析师技能面试必备知识点

toyiye 2024-07-16 05:54 10 浏览 0 评论

在数据分析师面试中,掌握必备的知识和技能是至关重要的,例如,统计学基础知识、常用的数据分析工具、数据分析思维等,为了帮助你更好地准备面试,本文将为你带来一份数据分析面试题集锦,涵盖了数据分析师必备的核心知识点。

一、概率论与统计学基础

面试题1:贝叶斯分布

假设在某个新闻app里面,有很多工作人员检查新闻是不是属于虚假新闻,所有新闻真实率到达了98%,工作人员在检验一个真实的新闻把它检验为一个虚假的新闻的概率为2%,而一个虚假的新闻被检验为真实的新闻的概率为5%。那么,一个被检验为真实的新闻确实是真实的新闻的概率是多大?()

A. 0.9991 B. 0.9999 C. 0.9855 D. 0.96

答案解析:B

假设一个真实的新闻被检验为虚假的概率是 P(F|T) = 2%。一个虚假的新闻被检验为真实的概率是 P(T|F) = 5%。所有新闻的真实率是 P(T) = 98%,所以虚假的新闻的概率是 P(F) = 2%。
要找的是一个被检验为真实的新闻确实是真实的新闻的概率,即 P(T|T_test),使用贝叶斯公式,可以表示为:P(T|T_test) = [P(T_test|T) × P(T)] / P(T_test)。
其中,P(T_test) 是新闻被检验为真实的总概率,可以通过以下方式计算:
P(T_test) = P(T_test|T) × P(T) + P(T_test|F) × P(F)
计算结果为:一个被检验为真实的新闻确实是真实的新闻的概率是 99.9%。

面试题2:概率论

4个电阻A、B、C和D,每个元件正常工作的概率是p,(0<p<1),电路连接情况为A和B并联,C和D并联,两组并联后又串联在一起,那么系统正常工作的概率是多少?()

A. (1-p^2)^2 B. 1-p^2 C. p^4 D. (1-p)^2

答案解析:C

假设每个元件正常工作的概率是 p,那么不正常工作的概率是 1-p。根据题目,我们可以建立以下模型:
A和B并联,所以它们都正常工作的概率是 p × p = p^2。
C和D并联,所以它们都正常工作的概率也是 p × p = p^2。
A和B并联后与C和D并联后的电路串联,所以整个系统正常工作的概率是 p^2 × p^2 = p^4。

二、EXCEL数据分析

面试题1:EXCEL操作

下列说法错误的是(D)

A. 单击行号即可选定整行单元格
B. 若要选定几个相邻的行或列,可选定第一行或第一列,然后按住Shift键再选中最后一行或列
C. 可以使用拖动鼠标的方法来选中多列或多行
D. Excel 2003不能同时选定几个不连续的单元格

答案解析:D

在Excel2003中,可以使用Ctrl键来同时选择多个不连续的单元格。所以选项D是不正确。

面试题2:SUM函数

函数SUM(A1:A4)等价于( )

A. SUM(A1*A4)
B. SUM(A1+A4)
C. SUM(A1/A4)
D. SUM(A1+A2+A3+A4)

答案解析:D

在SUM函数用于计算指定单元格范围内的所有数值的总和。在这个例子中,单元格A1到A4的值分别为某个数值,所以SUM(A1:A4)的值为A1+A2+A3+A4。因此,正确答案是D。

三、SQL数据分析

面试题1:round函数

round(8.4%4, 2) = ()

A. 8.40 B. 0.4 C. 0.40 D. 8.4

问题解析:C

首先,我们需要理解round函数的两个参数:第一个是待四舍五入的数值,第二个是保留的小数位数。在本题中,round(8.4%4, 2)的第一个参数是8.4%4,计算得到的结果是0.4(因为8.4除以4的余数是0.4)。而第二个参数是2,表示我们希望保留两位小数。因此,round(8.4%4, 2)的结果应该是0.40。

面试题2:SELECT执行顺序

SELECT username, count(username) FROM user_name WHERE usemname>10 GROUP BY usemame HAVING ORDER BY usemame,其执行的顺序应该为()

A. FROM->WHERE->GROUP BY->HAVING->SELECT->ORDER BY
B. FROM->GROUP BY->WHERE->HAVING->SELECT->ORDER BY
C. FROM->WHERE->GROUP BY->HAVING->ORDER BY->SELECT
D. FROM->WHERE->ORDER BY->GROUP BY->HAVING->SELECT

问题解析:A

首先,我们应该了解每个关键字在SQL查询中的功能及其执行顺序。

  • FROM:这个关键字指定了查询的数据源。它必须在查询的第一部分进行声明。
  • WHERE:此关键字用于过滤结果集,只选取满足特定条件的记录。
  • GROUP BY:此关键字用于将结果集按照一个或多个列进行分组。
  • HAVING:此关键字用于过滤分组后的结果集。在GROUP BY之后,HAVING可以用来过滤那些不满足条件的分组。
  • SELECT:此关键字用于声明我们希望在结果集中看到的列。
  • ORDER BY:此关键字用于对结果集进行排序。

根据上述解释,给定的查询SELECT username, count(username) FROM user_name WHERE usemname>10 GROUP BY usemame HAVING ORDER BY usemame的执行顺序应该是:
首先,从user_name表中选择数据(FROM)。然后,根据usemname > 10的条件过滤数据(WHERE)。接着,按照usemname进行分组(GROUP BY)。之后,使用HAVING关键字过滤分组后的数据。然后,选择我们希望在结果集中看到的列,即username和count(username)(SELECT)。最后,使用ORDER BY usemame对结果进行排序(ORDER BY)。

因此,正确的执行顺序应该是:FROM->WHERE->GROUP BY->HAVING->SELECT->ORDER BY。

四、Python数据分析

面试题1:Python实现斐波那契数列

输出斐波那契数列索引为15的数;(索引从0开始数)斐波那契数列(Fibonacci sequence),又称黄金分割数列,指的是这样一个数列:0、1、1、2、3、5、8、13、21、34、……。

答案解析:610

在Python中,定义一个fibonacci函数通过迭代计算斐波那契数列中第n个位置的数。在每次迭代中,函数更新a和b的值,使其变为下一个斐波那契数。最后,函数返回第n个斐波那契数。

def fibonacci(n):  
    a, b = 0, 1  
    for _ in range(n):  
        a, b = b, a + b  
    return a  
 
# 输出斐波那契数列索引为15的数  
print(fibonacci(15))

面试题2:Python实现球自由落下算法

一球从100米高度自由落下,每次落地后反跳回原高度的一半;再落下,求它在第10次落地时,共经过多少米?答案保留整数部分(format);

答案解析:在第10次落地时,球共经过了249米。

该程序首先定义了一个函数calculate_distance,它接受一个参数n,表示球落地的次数。然后,它初始化球的高度为100米,总距离为0米。接着,它使用一个for循环来模拟球的落下和反弹过程。在每次循环中,它首先把当前高度加到总距离上,然后检查是否是第一次落下,如果不是,那么还需要加上反弹的距离(即当前高度的一半)。最后,它更新球的高度为反弹高度的一半,然后进入下一次循环。当循环结束后,函数返回总距离。

def calculate_distance(n):  
    height = 100  # 初始高度  
    total_distance = 0  # 总距离  
 
    for i in range(n):  
        # 球落下的距离  
        total_distance += height  
        # 如果球不是第一次落下,那么还需要加上反弹的距离  
        if i != 0:  
            total_distance += height / 2  
        # 更新高度为反弹高度的一半  
        height /= 2  
 
    return total_distance  
 
distance = calculate_distance(10)  
print("在第10次落地时,球共经过了 {} 米。".format(int(distance)))

五、数据分析思维

面试题1:CPM

CPM (Cost Per Mile)千次曝光成本,在互联网广告中常用来衡量广告主的投放费用成本。某次广告投放完成后,获取了部分数据: 1)获得200万次广告曝光; 2)广告点击率为0.8%; 3)每个点击的单价为1.875元 那么该广告主的千次曝光成本是( )元。

A. 15 B. 0.015 C. 7.5 D. 0.075

答案解析:A

在互联网广告中,千次曝光成本(CPM)是一个重要的指标,用于衡量广告主的投放费用成本。

广告主在广告投放过程中,会获得一系列数据,其中包括广告的曝光次数、点击率和每次点击的单价。这些数据可以帮助广告主计算CPM,从而评估广告投放的效果和成本效益。

根据已知条件,我们可以计算广告主的千次曝光成本。

首先,广告的总点击次数是200万次曝光 × 0.8% = 1.6万次。
然后,广告的总费用是1.6万次点击 × 1.875元/点击 = 3万元。
最后,千次曝光成本(CPM)是总费用 / 总曝光次数 × 1000 = 3万元 / 200万次 × 1000 = 15元。

面试题2:方案对比

某公司薪酬HR向某员工提供了2个加薪方案,第一种方案是12个月后,在当前20万元年薪基础上,每年提高2万元薪酬。第二种方案是6个月后在当前20万年薪基础上,每半年比上个半年薪酬提高5000元薪酬。下列选项中( )为错误的。

A. 选择第二种方案将会在第一年内就能得到涨薪。
B. 假设将全部收入做理财,年利率8%的情况下,3年内,第二种方案优于第一种。
C. 在36个月内,第二种方案总收入比第一种方案多5000元。
D. 不考虑通货膨胀的情况下,第二种方案在6年内优于第一种。

答案解析:C

已知薪酬方案如下:
第一种方案:12个月后,在当前20万元年薪基础上,每年提高2万元薪酬。
第二种方案:6个月后在当前20万年薪基础上,每半年比上个半年薪酬提高5000元薪酬。

计算各方案3年内的总收入:
第一种方案:20万 + 22万 + 24万 = 66万
第二种方案:前6个月为20万,后6个月为20.5万(与第一种方案相同),第二年的前6个月为21万,后6个月为21.5万,第三年的前6个月为22万,后6个月为22.5万。总计:(20+20.5+21+21.5+22+22.5) = 137万。

C选项“在36个月内,第二种方案总收入比第一种方案多5000元”是错误的。

通过深入了解这些面试问题,你将能够更好地准备数据分析师的面试。希望这些面试题能帮助你在面试中展现出自己的专业知识和技能,成功获得心仪的职位,如果你在学习过程中遇到问题,可在评论区留言,解决你的面试问题。

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码