IT宅
A brief history of the future of AI in education
网络
网络协议
网络编程
存储
Redis
MySQL
架构
重构速查表
架构模式
分布式
Dubbo
消息队列
精进之路
网络
MySQL
Redis
MQ
JVM
所有专栏
专栏推荐
查看更多
架构解码:模式与实践
软件架构与模式
JVM速成手册
JVM相关内容
网络协议
详解网络分层和网络协议工作原理
并发编程
并发编程原理和应用
数据结构与算法
数据结构与算法知识详解
重构速查表
重构的相关技能
MySQL
洞悉MySQL底层架构与SQL调优本质
Redis
洞悉Redis技术内幕:缓存,数据结构,并发,集群与算法
注意力机制
2
Transformer架构:大模型背后的“大脑”
通俗类比:Transformer = 多线程处理语言。解析 Self-Attention,展示图解,避免过于枯燥的数学公式。
大语言模型
注意力机制
计算优化
作者:帅旋
|
发表于 2025-03-07
|
分类于
AI
大模型的进化史:从BERT到DeepSeek R1
在上一篇文章《自然语言处理(NLP)与生成式AI:机器如何“理解”人类语言?》中,我们系统梳理了NLP技术从规则系统到Transformer架构的范式迁移。本文将从技术演进视角,解析大语言模型(LLM)如何通过算法创新与工程突破实现能力跃迁。
大语言模型
注意力机制
计算优化
作者:帅旋
|
发表于 2025-03-01
|
分类于
AI
1
×
IT宅
关注公众号及时获取网站内容更新。
请帅旋喝一杯咖啡
咖啡=电量,给帅旋充杯咖啡,他会满电写代码!