
【深度学习基础】损失函数与优化算法详解:从理论到实践
文章浏览阅读647次,点赞62次,收藏45次。本文将从理论推导、代码实现和实战调参三个维度展开: - **理论**:解析损失函数与优化算法的数学原理,理解其适...

文章浏览阅读647次,点赞62次,收藏45次。本文将从理论推导、代码实现和实战调参三个维度展开: - **理论**:解析损失函数与优化算法的数学原理,理解其适...

文章浏览阅读3.8k次,点赞12次,收藏14次。本文介绍了五种开源MCP服务器实现,通过MCP服务器,AI能够更好地融入实际工作流程,为构建真正“能干活”的AI...

文章浏览阅读665次,点赞10次,收藏10次。在本监控系统中,我们采用了Prometheus作为核心监控解决方案,并结合Node Exporter和Grafan...
文章浏览阅读177次。文章摘要: 本文详细解释了代码 prompt_vector = torch.sum(prompt_embedding * attentio...

文章浏览阅读511次,点赞2次,收藏3次。在算力云中找到SSH和密码,将SSh复制下来,比较长,类似于ssh -p 49376 root@connect.wes...

文章浏览阅读884次,点赞74次,收藏63次。Transformer基于自注意力和位置编码,采用编码器-解码器架构。编码器和解码器通过堆叠多头注意力层和前馈网络...
文章浏览阅读1.1k次,点赞17次,收藏20次。在深度学习和科学计算中,控制随机性是保证实验结果可复现的关键。PyTorch 提供了多种随机数管理工具,但如何正...

文章浏览阅读760次,点赞25次,收藏11次。在2024年11月的汽车保养期间,作者在休息室偶遇一位资深基建工程师,后者因行业困境转向投资AI科技公司,激发作者...

文章浏览阅读532次,点赞4次,收藏10次。PyTorch 版本、torchvision 版本和 Python 版本的对应关系_python 版本和包对应关系
文章浏览阅读994次,点赞20次,收藏8次。GCT 建议添加在 Conv 层前,一般可以先冻结原来的模型,来训练 GCT,然后解冻再进行微调。