当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 人气:发表时间:2025-06-25 05:25:15
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- 可以随身携带一个Linux系统吗?
- 公司电脑加密的文件,复制到移动硬盘后如何解密?
- 为什么微软出的软件都那么巨大?
- 如何看待现在的前端?
- M4 Mac mini2024款,这种主机到底怎么样呀?
- 为什么全世界无一人能实现新mac直接全功能稳定装Win 11 arm,或PC直接装macOS arm?
- 为什么Mac连个正儿八经的CAD都装不了还敢打着生产力的旗号?
- 为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译?
- 如何系统地学习Lean语言?
- 女生真正的完美身材是什么样子?
最新资讯文章
- 婴儿从小没有妈妈是什么体验?
- 如何评价 Next.js?
- 如何设计一条 prompt 让 LLM 陷入死循环?
- 为什么董明珠攻击小米空调,而公牛却没有攻击小米插座?
- 索尼互动娱乐宣布 PS6 的开发工作已经全面启动,你会如何期待索尼的下一代游戏主机呢?
- 为啥西方列强最后全不行了?
- 弗利萨那么害怕超级赛亚人,为啥还留着贝吉塔等人,不完全杀光?
- 如何看待小米 YU7 3 分钟大定突破 20 万辆,锁单 12.2 万辆?小米汽车做对了什么?
- 儿子抑郁四年左右了,他的未来该怎么办?
- 为什么m4max可以轻松堆128g显存,nvidia消费端显卡却长期被限制在24g?
- 你手机中最舍不得卸载的APP是什么?
- HTTP协议中chunk的应用场景?
- 有邻居的追求者出价三万,让我连续半个月每天找个女朋友晚上弄点动静,我该答应吗?
- 40系显卡性能是否过剩?
- ***如古代长城用的是C140混凝土,那千百年下来会完整的留存至今还是损坏的更加严重?