人工智能巨头招聘笔试题
Google笔试题
1.为什么要使用特征选择(feature selection)?
2.如果两个预测变量高度相关,它们对逻辑回归系数的影响是什么?系数的置信区间是什么?
3.高斯混合模型(Gaussian Mixture Model)和 K-Means 之间有什么区别?
4. 在 K-Means 中如何拾取 k?
5.你如何知道高斯混合模型是不是适用的?
6.假设聚类模型的标签是已知的,你如何评估模型的性能?
7.请尝试向非技术人员阐释交叉验证(Cross-validation)。
8.请描述一下非正态概率分布以及该如何应用?
9.(数据分析师)请写一个程序可以判定二叉树的高度。
百度笔试题
1.英文拼写纠错
在用户输入英文单词时,经常发生错误,我们需要对其进行纠错。假设已经有一个包含了正确英文单词的词典,请你设计一个拼写纠错的程序。
(1)请描述你解决这个问题的思路;
(2)请给出主要的处理流程,算法,以及算法的复杂度;
(3)请描述可能的改进(改进的方向如效果,性能等等,这是一个开放问题)。
2.寻找热门查询
搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。
(1)请描述你解决这个问题的思路;
(2)请给出主要的处理流程,算法,以及算法的复杂度。
3.集合合并
给定一个字符串的集合,格式如:
{aaa bbb ccc}, {bbb ddd},{eee fff},{ggg},{ddd hhh}
要求将其中交集不为空的集合合并,要求合并完成后的集合之间无交集,例如上例应输出{aaa bbb ccc ddd hhh},{eee fff}, {ggg}
(1)请描述你解决这个问题的思路;
(2)请给出主要的处理流程,算法,以及算法的复杂度
(3)请描述可能的改进(改进的方向如效果,性能等等,这是一个开放问题)。
IBM笔试题
1.如何防止过拟合(overfitting)?
2.如何处理数据中的离群值?
3.如何评估逻辑回归与简单线性回归模型预测的性能?
4.如何确定逻辑回归与简单线性回归模型?
5.监督学习和无监督学习有什么区别?
6.什么是交叉验证(cross-validation),为什么要使用它?
7.用于评估预测模型的矩阵的称为什么?
8.逻辑回归系数和胜算比(Odds Ratio)之间存在怎样的关联?
9.主成分分析(PCA)与线性判别分析(LDA)、二次判别分析(QDA)之间存在怎样的关联?
10.如果你有一个因变量分类,又有一个连续自变量的混合分类,你将使用什么算法,方法或工具进行分析?
11.(行业分析师)逻辑与线性回归有什么区别?如何避免局部极小值?
华为笔试题
1.请你分别画出OSI的七层网络结构图和TCP/IP的五层结构图。
2.请你详细地解释一下IP协议的定义,在哪个层上面?主要有什么作用?TCP与UDP呢?
3.请问交换机和路由器各自的实现原理是什么?分别在哪个层次上面实现的?
4.请问C的类和C里面的struct有什么区别?
5.请讲一讲析构函数和虚函数的用法和作用。
6.全局变量和局部变量有什么区别?是怎么实现的?操作系统和编译器是怎么知道的?
7.8086是多少位的系统?在数据总线上是怎么实现的?
联想笔试题
1.设计函数int atoi(char *s)。
2.int i=(j=4,k=8,l=16,m=32); printf(“%d”, i); 输出是多少?
3.解释局部变量、全局变量和静态变量的含义。
4.解释堆和栈的区别。
5.论述含参数的宏与函数的优缺点。
Microsoft笔试题
1.你有哪些引以为豪的机器学习项目?描述一个你曾经参与的项目,以及它的优点。
2.如何处理具有高基数(high-cardinality)的类属特征?
3.如果想要给 Twitter feed 写 summarize,你要怎么办?
4.在应用机器学习算法之前纠正和清理数据的步骤是什么?
5.如何测量数据点之间的距离?
6.请描述箱形图(box plot)和直方图(histogram)之间的差异,以及它们的用例。
7.随意选择一个机器学习算法,并描述它。
8.请解释 Gradient Boosting 是如何工作的。
9.(数据挖掘工程师)请解释决策树模型。
10.(数据挖掘工程师)什么是神经网络?
11.请解释偏差方差权衡(Bias-Variance Tradeoff)。
12.如何处理不平衡二进制分类?
13.L1 和 L2 正则化之间有什么区别?
14.(数据分析师)定义和解释聚簇索引和非聚簇索引之间的差异。
15.(数据分析师)返回表的行计数有哪些不同的方法?
16.请创建一个函数检查一个词是否具有回文结构。
17.(数据挖掘)请解释异方差(heteroskedasticity)是什么,以及如何解决它。
Uber笔试题
1. 时间序列预测技术有什么不同?
2. 解释原理组件分析(PCA)及其 使用的方程。
3. 如何解决多重共线性(Multicollinearity)?
4. (分析师)请尝试列出优化我们在 推特和脸书上的广告费用支出的方程。
5. 你会通过哪种特征来预测 Uber 司机是否会接受订单请求?你会使用哪种监督学习算法来解决这个问题,如何比较算法的结果?
6. 选择任何一个你真正喜欢的产品或应用程序,并描述如何改善它。
7. 如何在分布中发现异常?
8. 如何检查分布中的某个趋势是否是由于异常产生的?
9. 如何估算 Uber 对交通和驾驶环境造成的影响?
10. 你会考虑用什么指标来跟踪 Uber 付费广告策略在吸引新用户上是否有效?然后,你想用什么办法估算出理想的客户购置成本?
LinkedIn笔试题
1.(数据工程师)请编写一些代码来确定字符串中的左右括号是否是平衡的?
2.(数据工程师)如何改进 ETL(提取,转换,加载)的吞吐量?
3.(数据工程师)请编写返回情感分数的 Hive UDF。例如,假如好=1,坏=-1,平均数=0,那4.(大数据工程师)请解释 REST 是什么
5.如何找到二叉搜索树中第二大的元素?
6.请编写一个函数,它接受两个排序的向量,并返回一个排序的向量。
7.如果你有一个输入的数字流,如何在运行过程中找到最频繁出现的数字?
8.编写一个函数,将一个数字增加到另一个数字,就像 pow()函数一样。
9.将大字符串拆分成有效字段并将它们存储在 dictionary 中。如果字符串不能拆分,返回 false。你的解决方案的复杂性如何?
10.随意解释机器学习里的一种方法。
往期精彩回顾:(点击文字内容可直接跳转页面)
• 中国大数据解决方案TOP50及优秀案例TOP50评选
• 首席数据官联盟简介
• 2017《中国大数据企业排行榜》V4.0 发布
• 第一届大数据优秀案例评选发布
• 2016首席数据官联盟年会精彩回顾
• 史上最全大数据企业概览
页:
[1]