科学空间|Scientific Spaces
订阅

近期历史最近 100 条记录

2024-11-18 Adam的epsilon如何影响学习率的Scaling Law? 苏剑林
2024-11-14 当Batch Size增大时,学习率该如何随之变化? 苏剑林
2024-11-06 VQ的又一技巧:给编码表加一个线性变换 苏剑林
2024-10-30 低秩近似之路(四):ID 苏剑林
2024-10-24 VQ的旋转技巧:梯度直通估计的一般推广 苏剑林
2024-10-16 Cool Papers浏览器扩展升级至v0.2.0 苏剑林
2024-10-15 让MathJax的数学公式随窗口大小自动缩放 苏剑林
2024-10-11 低秩近似之路(三):CR 苏剑林
2024-10-01 低秩近似之路(二):SVD 苏剑林
2024-09-26 利用“熄火保护 + 通断器”实现燃气灶智能关火 苏剑林
2024-09-19 Softmax后传:寻找Top-K的光滑近似 苏剑林
2024-09-15 低秩近似之路(一):伪逆 苏剑林
2024-09-06 “闭门造车”之多模态思路浅谈(三):位置编码 苏剑林
2024-09-01 Decoder-only的LLM为什么需要位置编码? 苏剑林
2024-08-26 近乎完美地解决MathJax与Marked的冲突 苏剑林
2024-08-15 让MathJax更好地兼容谷歌翻译和延时加载 苏剑林
2024-08-12 “Cool Papers + 站内搜索”的一些新尝试 苏剑林
2024-08-06 通向最优分布之路:概率空间的最小化 苏剑林
2024-07-29 对齐全量微调!这是我看过最精彩的LoRA改进(二) 苏剑林
2024-07-24 Monarch矩阵:计算高效的稀疏型矩阵分解 苏剑林
2024-07-17 【生活杂记】用电饭锅来煮米汤 苏剑林
2024-07-12 对齐全量微调!这是我看过最精彩的LoRA改进(一) 苏剑林
2024-07-08 “闭门造车”之多模态思路浅谈(二):自回归 苏剑林
2024-06-27 重温SSM(四):有理生成函数的新视角 苏剑林
2024-06-20 重温SSM(三):HiPPO的高效计算(S4) 苏剑林
2024-06-14 通向概率分布之路:盘点Softmax及其替代品 苏剑林
2024-06-05 重温SSM(二):HiPPO的一些遗留问题 苏剑林
2024-05-29 Transformer升级之路:18、RoPE的底数选择原则 苏剑林
2024-05-24 重温SSM(一):线性系统和HiPPO矩阵 苏剑林
2024-05-13 缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA 苏剑林
2024-05-07 Cool Papers更新:简单搭建了一个站内检索系统 苏剑林
2024-05-01 以蒸馏的名义:“从去噪自编码器到生成模型”重现江湖 苏剑林
2024-04-23 生成扩散模型漫谈(二十四):少走捷径,更快到达 苏剑林
2024-04-17 生成扩散模型漫谈(二十三):信噪比与大图生成(下) 苏剑林
2024-04-08 生成扩散模型漫谈(二十二):信噪比与大图生成(上) 苏剑林
2024-03-29 Transformer升级之路:17、多模态位置编码的简单思考 苏剑林
2023-08-28 Lion/Tiger优化器训练下的Embedding异常和对策 苏剑林
2023-08-24 Transformer升级之路:14、当HWFA遇见ReRoPE 苏剑林
2023-08-14 Transformer升级之路:13、逆用Leaky ReRoPE 苏剑林
2023-08-07 Transformer升级之路:12、无限外推的ReRoPE? 苏剑林
2023-07-31 Transformer升级之路:11、将β进制位置进行到底 苏剑林
2023-07-20 语言模型输出端共享Embedding的重新探索 苏剑林
2023-07-14 当生成模型肆虐:互联网将有“疯牛病”之忧? 苏剑林
2023-07-06 Transformer升级之路:10、RoPE是一种β进制编码 苏剑林
2023-06-28 生成扩散模型漫谈(二十):从ReFlow到WGAN-GP 苏剑林
2023-06-24 生成扩散模型漫谈(十九):作为扩散ODE的GAN 苏剑林
2023-06-16 梯度流:探索通往最小值之路 苏剑林
2023-06-08 Naive Bayes is all you need ? 苏剑林
2023-05-31 关于NBCE方法的一些补充说明和分析 苏剑林
2023-05-23 NBCE:使用朴素贝叶斯扩展LLM的Context处理长度 苏剑林
2023-05-18 基于量子化假设推导模型的尺度定律(Scaling Law) 苏剑林
2023-05-12 Transformer升级之路:9、一种全局长度外推的新思路 苏剑林
2023-05-05 如何度量数据的稀疏程度? 苏剑林
2023-04-25 注意力和Softmax的两点有趣发现:鲁棒性和信息量 苏剑林
2023-04-17 梯度视角下的LoRA:简介、分析、猜测及推广 苏剑林
2023-04-10 从JL引理看熵不变性Attention 苏剑林
2023-04-03 Bias项的神奇作用:RoPE + Bias = 更好的长度外推性 苏剑林
2023-03-28 Google新作试图“复活”RNN:RNN能否再次辉煌? 苏剑林
2023-03-20 《为什么现在的LLM都是Decoder-only的架构?》FAQ 苏剑林
2023-03-17 为什么现在的LLM都是Decoder-only的架构? 苏剑林
2023-03-14 缓解交叉熵过度自信的一个简明方案 苏剑林
2023-03-07 Tiger:一个“抠”到极致的优化器 苏剑林
2023-02-28 生成扩散模型漫谈(十八):得分匹配 = 条件得分匹配 苏剑林
2023-02-23 生成扩散模型漫谈(十七):构建ODE的一般步骤(下) 苏剑林
2023-02-16 Google新搜出的优化器Lion:效率与效果兼得的“训练狮” 苏剑林
2023-02-14 生成扩散模型漫谈(十六):W距离 ≤ 得分匹配 苏剑林
2023-02-11 测试函数法推导连续性方程和Fokker-Planck方程 苏剑林
2023-01-31 Transformer升级之路:8、长度外推性与位置鲁棒性 苏剑林
2023-01-12 Transformer升级之路:7、长度外推性与局部注意力 苏剑林
2023-01-04 智能家居之热水器零冷水技术原理浅析 苏剑林
2022-12-28 Transformer升级之路:6、旋转位置编码的完备性分析 苏剑林
2022-12-22 生成扩散模型漫谈(十五):构建ODE的一般步骤(中) 苏剑林
2022-12-15 生成扩散模型漫谈(十四):构建ODE的一般步骤(上) 苏剑林
2022-12-07 从局部到全局:语义相似度的测地线距离 苏剑林
2022-12-05 智能家居之小爱同学控制极米投影仪的简单方案 苏剑林
2022-11-30 用热传导方程来指导自监督学习 苏剑林
2022-11-22 基于Amos优化器思想推导出来的一些“炼丹策略” 苏剑林
2022-11-09 CoSENT(三):作为交互式相似度的损失函数 苏剑林
2022-11-02 利用CUR分解加速交互式相似度模型的检索 苏剑林
2022-10-25 圆内随机n点在同一个圆心角为θ的扇形的概率 苏剑林
2022-10-18 生成扩散模型漫谈(十三):从万有引力到扩散模型 苏剑林
2022-10-09 “十字架”组合计数问题浅试 苏剑林
2022-09-28 生成扩散模型漫谈(十二):“硬刚”扩散ODE 苏剑林
2022-09-21 生成扩散模型漫谈(十一):统一扩散模型(应用篇) 苏剑林
2022-09-14 生成扩散模型漫谈(十):统一扩散模型(理论篇) 苏剑林
2022-08-30 生成扩散模型漫谈(九):条件控制生成结果 苏剑林
2022-08-18 生成扩散模型漫谈(八):最优扩散方差估计(下) 苏剑林
2022-08-12 生成扩散模型漫谈(七):最优扩散方差估计(上) 苏剑林
2022-08-08 生成扩散模型漫谈(六):一般框架之ODE篇 苏剑林
2022-08-03 生成扩散模型漫谈(五):一般框架之SDE篇 苏剑林
2022-07-27 生成扩散模型漫谈(四):DDIM = 高观点DDPM 苏剑林
2022-07-19 生成扩散模型漫谈(三):DDPM = 贝叶斯 + 去噪 苏剑林
2022-07-15 不成功的尝试:将多标签交叉熵推广到“n个m分类”上去 苏剑林
2022-07-06 生成扩散模型漫谈(二):DDPM = 自回归式VAE 苏剑林
2022-06-28 “维度灾难”之Hubness现象浅析 苏剑林
2022-06-20 Ladder Side-Tuning:预训练模型的“过墙梯” 苏剑林
2022-06-13 生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼 苏剑林
2022-06-07 相对位置编码Transformer的一个理论缺陷与对策 苏剑林
2022-06-01 如何训练你的准确率? 苏剑林
2022-05-25 从重参数的角度看离散概率分布的构建 苏剑林

匿名用户只展示最新 100 条榜单历史,更多历史数据请登录后查看,支持时光机按天筛选

Sponsors

今日解忧 - 赛博修行,舒缓静心,21世纪解压神器!
今日历 - 全球最全的日历,日历届的航空母舰!
百晓生AI - 全能创作助手

猜你喜欢