人工智能计算机视觉&多模态算法实习面试记录

百度(已OC)

一面（12.20）

自我介绍：第一次面有点瓢嘴介绍科研项目

如何使用的CLIPOpen-vocab和zero-shot 介绍比赛项目——多模态行车数据视频

介绍任务是什么自定义数据集？Yolo v8 介绍CLIP：

对比学习训练：一个batch的N张图片和文本进行对比；首先分别进行编码->再投影到相同特征维度->计算相似度；对角线为标签，计算交叉熵损失如何判断和缓解过拟合？原因：数据样本单一，数量不足；训练数据噪声大；模型过于复杂防止：

数据增强L1、L2正则化，对模型参数作罚dropout提前终止训练采用合适模型：降低模型复杂度、降低特征数量 BN是什么？BN层的作用？（对样本同一通道不同batch计算均值和方差进行归一化）

加快收敛防止过拟合，防止朝着一个方向学习，会学到每个batch的特征防止梯度爆炸和梯度消失 batch_size对模型训练有什么影响？应该如何设置？（答的跑到GPU内存上限）

训练速度模型性能：较小batch_size迭代更多次，可能会更快收敛，但可能更不稳定；大的梯度更加稳定泛化能力：较小的batch_size会有更好的泛化能力和优化效果

LR Warmup：开始使用小batch和学习率，预热阶段线性或者余弦增大学习率，过了预热阶段在减小

代码题给定单调数列有正有负，要求输出平方之后的单调数列；面试官人很好，开始实现了nlogn的时间复杂度，没想出来O(n)；面试官带着做出来了实习时间反问具体业务进来工作：可以发论文和专利，有点心动点评面试对扩散模型的了解和看法？pytorch和tf的区别（没用过tf不会）

主要区别是计算图：pytorch是动态计算图不需要预定义，而tf是静态计算图在计算之前需要预先设定计算式子用过BLIP吗（没有）介绍下BLIP ：说了captioner和filter

二面（30分钟）

隔壁部门来面的，说还有一次面试，大无语，本来以为两次就结束了

自我介绍项目挑重点说你觉得大模型能够在你这个科研任务上应用吗？怎么应用？了解GPT-4吗？反问：业务、几次面试无Code、无八股

三面

自我介绍项目中最有挑战的事情？如何解决这个挑战的？自己在项目中的贡献？跟组员和老师遇到分歧时怎么解决的？实习时间知不知道如何控制图片生成边框？不知道，跟我说ControlNet知不知道SAM？不知道，有点心凉反问：

进来之后的工作？能不能做research发论文？你想做纯research？

旷世

面试官人太好了55，最后给我说我运气好在池子里被他捞了；还说他们团队主要做科研

一面(1222)

自我介绍项目介绍

问是否知道VQ-GAN

了解哪些多模态模型（说了blip）

面试官说现在基本不用BLIP用BLIP V2比较多；llama了解嘛？（不了解）

有做过数据清洗工作吗？（没有）问研究兴趣：多模态相关的都OK反问：

可以发论文嘛？（这边人不缺一作，贡献大可以一作或者共一）研究领域：现在做多模态大模型在机器人上的运用，主要是文本视频，说图像做得差不多了进来做哪方面工作？

可能有数据清洗工作（跟我说现在写forward循环那种代码都比较少，大模型架构大差不差，主要在数据集工作上）编程题：两数相加（mid难度）

https://leetcode.cn/problems/add-two-numbers/description/（没有用最优方法，做了好多次while循环hhhh）

凉了，估计是算法题没写好，并且问的多模态很多答不上来

美团-到店计算机视觉与多模态实习生

项目：被说没让他听懂，简历全程压力了，最后说让我可以做一页PPT来讲解项目完了就是做题：

一道根据前序和中序遍历重建二叉树一道利用梯度下降算法求解：

import numpy as np

def sigmoid(x):

return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):

return sigmoid(x) * (1 - sigmoid(x))

def gradient_descent_sigmoid(target, learning_rate=0.01, epochs=10000):

# 初始值

x = 0.0

for _ in range(epochs):

# 计算当前点的sigmoid值和导数值

current_sigmoid = sigmoid(x)

current_derivative = sigmoid_derivative(x)

# 计算误差

error = current_sigmoid - target

# 更新x值

x = x - learning_rate * error * current_derivative

return x

target_value = 0.4 # 设定目标值

result = gradient_descent_sigmoid(target_value) # 使用梯度下降算法求解

print("通过梯度下降算法求解 sigmoid(x) = 0.4 的 x 值为:", result, sigmoid(result))

反问：进来做什么？是否在训练行业大模型

字节懂车帝

一面(1227)

聊了得有一个半小时，面试官虽然迟到了5分钟，但是人真的好好

自我介绍项目anchor based和anchor free的方法：

anchor based方法，有预定义的anchor，会对这些候选区域进行分类和回归；eg.yolo,faster-rcnn

优点：使得召回率更高缺点：需要设置很多超参数，产生了很多冗余的框NMS等后处理操作会降低整个检测算法的速度 anchor free方法，分为两个子问题，即确定物体中心和对四条边框的预测

优点：不需要预设anchor，减小耗时和算力，可以避免anchor设置不合理带来的漏检和重复检测问题缺点：每个位置之预测一个框，导致重叠或者遮挡区域无法被检测 Centernet(Anchor Free)

首先有一个hourglass结构抽取特征，有FPN设计

heatmap用来预测中心点，维度为CHW，C为类别数量，即每一个类别有一个特征图；heatmap由GT box投影过来取整确定中心点，并且采用高斯核方法计算一个下界半径R，对IOU大于0.7的物体box对应的中心点设置为高斯分布的柔和的数值；最后计算一个heatmap损失：Focal loss

offset分支用来预测池化后的heatmap上的点映射到原图的像素误差：L1 Losssizes计算长宽损失：L1 Loss

ChatGLM模型

编码器-解码器相结合的结构：编码器采用双向bert；有Pretrain、SFTchatgpt采用仅解码器的结构；有Pretrain、SFT、RLHF Stable Diffusion = DDPM模型 + CLIP

stable diffusion训练用ddpm, 采样用ddim(从训练好的扩散模型中高效生成样本、利用重要性采样)

Transformer模型和CNN的区别

CNN局部链接、权值共享，有归纳偏置；可以处理图像语音等信息，抽取特征Transformer没有归纳偏执，需要用位置编码；可以处理序列信息，建模能力比较强 DALLE2：DDIM instructblip

RQ：以往的指令微调主要是在LLM上进行，没有在视觉语言上进行过跟BLIP2很像，就是在Q-fromer和LLM上加入了instruction的设计；指令调整模型接收一对输入和输出，描述引导模型的任务。例如，Instruction：写一个周末有趣的活动清单；Output：徒步旅行，去公园度过一天，野餐，看电影晚上；根据不同的instruction，我们可以得到基于instruction偏好更强的视觉特征主要还是训练Q-FORMER，通过自注意力与Queries交互，通过交叉注意力与Image Embedding交互两个训练任务：

视觉语言表征任务：不用LLM，冻住Image encoder，训练Q-former使得query能够结合文本(instruction)提取视觉信息：ITC\ITM\ITG（通过图像生成caption）语言建模任务：冻住Image encode和LLM，训练Q-former完成语言建模 CLIP的温度系数的作用

如果温度系数设的越大，logits分布变得越平滑，那么对比损失会对所有的负样本一视同仁，导致模型学习没有轻重。如果温度系数设的过小，则模型会越关注特别困难的负样本，但其实那些负样本很可能是潜在的正样本，这样会导致模型很难收敛或者泛化能力差。温度系数的作用就是它控制了模型对负样本的区分度。 CLIP的文本端encoder是什么? 代码题：最大子序列的和，感觉是暴力出来的。。。。

真得刷刷题了，每次代码环节都尴尬的要死

反问：

表现:说基础比较好，但是工业界了解比较少几轮面试？他不知道业务进来做什么？介绍了业务部门，说我应该会去做多模态的内容，结合多模态大模型做一些内容理解和生成。

约二面

二面（1229）

VAE和VQ-VAE的区别VAE公式推导了解吗KL散度的概念？对比损失怎么计算的？代码：IOU计算代码：深度优先遍历，不用递归来做

反问： 7. 面试表现？总体都挺不错的，看你一面表现不错，理论上知识很不错，代码能力有待提升 8. 会做文生视频吗？不会 9. 提到文生图，具体在业务场景中是怎么去做？用预训练模型，训练Q-former进行微调 10. 有没有机会科研？支持 11. 实习生进来是做工程还是技术研发？看兴趣，应该是技术研发

约三面

三面（0102）

百度那边的一个优势和劣势？项目中遇到的一个困难？最近的一个科研项目说一下对于这个职位来说自己的优势和劣势反问：

到岗时间？目前的一个工作重心？2024年在AI上实习生的一个日常？早上10点晚上10点，中午休息两个小时（12点到14：30）实习生能多大程度的参与到研发上面去？第一个月会先熟悉业务，后面有机会参与到研发上去实习生的一个期望？对工作能力上面的一个要求？看部门

参考文章

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙

人工智能计算机视觉&多模态算法实习面试记录

winrar 经验分享笔记密码学自动化使用hashcat和john破解压缩包密码（写给新手网友）

单片机 0505-stm32的调试工具：vscode下jlink或stlink下载及调试+设置快捷键

发表评论取消回复

金钥匙

人工智能 计算机视觉&多模态算法实习面试记录

winrar 经验分享 笔记 密码学 自动化 使用hashcat和john破解压缩包密码（写给新手网友）

单片机 0505-stm32的调试工具：vscode下jlink或stlink下载及调试+设置快捷键

相关文章

发表评论取消回复

人工智能计算机视觉&多模态算法实习面试记录

winrar 经验分享笔记密码学自动化使用hashcat和john破解压缩包密码（写给新手网友）