标签: 注意力机制 | IT宅-软件架构专业知识分享

专栏推荐

查看更多

架构解码：模式与实践

软件架构与模式

JVM速成手册

JVM相关内容

图解网络协议

详解网络分层和网络协议工作原理

并发编程原理和应用

数据结构与算法

数据结构与算法知识详解

重构速查表

重构的相关技能

图解 MySQL 原理

洞悉MySQL底层架构与SQL调优本质

图解 Redis 原理

洞悉Redis技术内幕：缓存，数据结构，并发，集群与算法

注意力机制

Transformer架构：大模型背后的“大脑”

通俗类比：Transformer = 多线程处理语言。解析 Self-Attention，展示图解，避免过于枯燥的数学公式。

大语言模型注意力机制计算优化

作者：帅旋

|

发表于 2025-03-07

|

分类于 AI

Transformer架构：大模型背后的“大脑”

大模型的进化史：从BERT到DeepSeek R1

在上一篇文章《自然语言处理（NLP）与生成式AI：机器如何“理解”人类语言？》中，我们系统梳理了NLP技术从规则系统到Transformer架构的范式迁移。本文将从技术演进视角，解析大语言模型（LLM）如何通过算法创新与工程突破实现能力跃迁。

大语言模型注意力机制计算优化

作者：帅旋

|

发表于 2025-03-01

|

分类于 AI

大模型的进化史：从BERT到DeepSeek R1

1

Java架构杂谈

订阅及时获取网站内容更新。

充电

当前电量：100%

主页 IT宅搜索 Ctrl+K JSON工具

Java架构杂谈

订阅我，及时获取网站内容更新。