
【现代深度学习技术】注意力机制07:Transformer
文章浏览阅读884次,点赞74次,收藏63次。Transformer基于自注意力和位置编码,采用编码器-解码器架构。编码器和解码器通过堆叠多头注意力层和前馈网络...

文章浏览阅读884次,点赞74次,收藏63次。Transformer基于自注意力和位置编码,采用编码器-解码器架构。编码器和解码器通过堆叠多头注意力层和前馈网络...
文章浏览阅读1.1k次,点赞17次,收藏20次。在深度学习和科学计算中,控制随机性是保证实验结果可复现的关键。PyTorch 提供了多种随机数管理工具,但如何正...

文章浏览阅读760次,点赞25次,收藏11次。在2024年11月的汽车保养期间,作者在休息室偶遇一位资深基建工程师,后者因行业困境转向投资AI科技公司,激发作者...

文章浏览阅读532次,点赞4次,收藏10次。PyTorch 版本、torchvision 版本和 Python 版本的对应关系_python 版本和包对应关系
文章浏览阅读994次,点赞20次,收藏8次。GCT 建议添加在 Conv 层前,一般可以先冻结原来的模型,来训练 GCT,然后解冻再进行微调。

文章浏览阅读532次,点赞4次,收藏9次。Xinference需要配置驱动、torch、torch-npu等环境,最简单的方法是套用MindIE镜像。省略下载容...
文章浏览阅读729次,点赞25次,收藏10次。在深度学习和科学计算领域,正确配置GPU加速环境对于提高计算效率至关重要。我记录了在服务器上配置CUDA、cuDN...

文章浏览阅读1.5k次,点赞9次,收藏11次。LLama-2大模型的结构梳理,以7B为例_llama2-7b模型结构

文章浏览阅读1.4w次,点赞91次,收藏118次。使用LLaMA-Factory高效微调qwen2.5-7b-instruct_llama factory微调 ...

文章浏览阅读873次,点赞17次,收藏26次。AI-Generated Video Detection