2024-11-18 |
Adam的epsilon如何影响学习率的Scaling Law? |
苏剑林 |
|
2024-11-14 |
当Batch Size增大时,学习率该如何随之变化? |
苏剑林 |
|
2024-11-06 |
VQ的又一技巧:给编码表加一个线性变换 |
苏剑林 |
|
2024-10-30 |
低秩近似之路(四):ID |
苏剑林 |
|
2024-10-24 |
VQ的旋转技巧:梯度直通估计的一般推广 |
苏剑林 |
|
2024-10-16 |
Cool Papers浏览器扩展升级至v0.2.0 |
苏剑林 |
|
2024-10-15 |
让MathJax的数学公式随窗口大小自动缩放 |
苏剑林 |
|
2024-10-11 |
低秩近似之路(三):CR |
苏剑林 |
|
2024-10-01 |
低秩近似之路(二):SVD |
苏剑林 |
|
2024-09-26 |
利用“熄火保护 + 通断器”实现燃气灶智能关火 |
苏剑林 |
|
2024-09-19 |
Softmax后传:寻找Top-K的光滑近似 |
苏剑林 |
|
2024-09-15 |
低秩近似之路(一):伪逆 |
苏剑林 |
|
2024-09-06 |
“闭门造车”之多模态思路浅谈(三):位置编码 |
苏剑林 |
|
2024-09-01 |
Decoder-only的LLM为什么需要位置编码? |
苏剑林 |
|
2024-08-26 |
近乎完美地解决MathJax与Marked的冲突 |
苏剑林 |
|
2024-08-15 |
让MathJax更好地兼容谷歌翻译和延时加载 |
苏剑林 |
|
2024-08-12 |
“Cool Papers + 站内搜索”的一些新尝试 |
苏剑林 |
|
2024-08-06 |
通向最优分布之路:概率空间的最小化 |
苏剑林 |
|
2024-07-29 |
对齐全量微调!这是我看过最精彩的LoRA改进(二) |
苏剑林 |
|
2024-07-24 |
Monarch矩阵:计算高效的稀疏型矩阵分解 |
苏剑林 |
|
2024-07-17 |
【生活杂记】用电饭锅来煮米汤 |
苏剑林 |
|
2024-07-12 |
对齐全量微调!这是我看过最精彩的LoRA改进(一) |
苏剑林 |
|
2024-07-08 |
“闭门造车”之多模态思路浅谈(二):自回归 |
苏剑林 |
|
2024-06-27 |
重温SSM(四):有理生成函数的新视角 |
苏剑林 |
|
2024-06-20 |
重温SSM(三):HiPPO的高效计算(S4) |
苏剑林 |
|
2024-06-14 |
通向概率分布之路:盘点Softmax及其替代品 |
苏剑林 |
|
2024-06-05 |
重温SSM(二):HiPPO的一些遗留问题 |
苏剑林 |
|
2024-05-29 |
Transformer升级之路:18、RoPE的底数选择原则 |
苏剑林 |
|
2024-05-24 |
重温SSM(一):线性系统和HiPPO矩阵 |
苏剑林 |
|
2024-05-13 |
缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA |
苏剑林 |
|
2024-05-07 |
Cool Papers更新:简单搭建了一个站内检索系统 |
苏剑林 |
|
2024-05-01 |
以蒸馏的名义:“从去噪自编码器到生成模型”重现江湖 |
苏剑林 |
|
2024-04-23 |
生成扩散模型漫谈(二十四):少走捷径,更快到达 |
苏剑林 |
|
2024-04-17 |
生成扩散模型漫谈(二十三):信噪比与大图生成(下) |
苏剑林 |
|
2024-04-08 |
生成扩散模型漫谈(二十二):信噪比与大图生成(上) |
苏剑林 |
|
2024-03-29 |
Transformer升级之路:17、多模态位置编码的简单思考 |
苏剑林 |
|
2023-08-28 |
Lion/Tiger优化器训练下的Embedding异常和对策 |
苏剑林 |
|
2023-08-24 |
Transformer升级之路:14、当HWFA遇见ReRoPE |
苏剑林 |
|
2023-08-14 |
Transformer升级之路:13、逆用Leaky ReRoPE |
苏剑林 |
|
2023-08-07 |
Transformer升级之路:12、无限外推的ReRoPE? |
苏剑林 |
|
2023-07-31 |
Transformer升级之路:11、将β进制位置进行到底 |
苏剑林 |
|
2023-07-20 |
语言模型输出端共享Embedding的重新探索 |
苏剑林 |
|
2023-07-14 |
当生成模型肆虐:互联网将有“疯牛病”之忧? |
苏剑林 |
|
2023-07-06 |
Transformer升级之路:10、RoPE是一种β进制编码 |
苏剑林 |
|
2023-06-28 |
生成扩散模型漫谈(二十):从ReFlow到WGAN-GP |
苏剑林 |
|
2023-06-24 |
生成扩散模型漫谈(十九):作为扩散ODE的GAN |
苏剑林 |
|
2023-06-16 |
梯度流:探索通往最小值之路 |
苏剑林 |
|
2023-06-08 |
Naive Bayes is all you need ? |
苏剑林 |
|
2023-05-31 |
关于NBCE方法的一些补充说明和分析 |
苏剑林 |
|
2023-05-23 |
NBCE:使用朴素贝叶斯扩展LLM的Context处理长度 |
苏剑林 |
|
2023-05-18 |
基于量子化假设推导模型的尺度定律(Scaling Law) |
苏剑林 |
|
2023-05-12 |
Transformer升级之路:9、一种全局长度外推的新思路 |
苏剑林 |
|
2023-05-05 |
如何度量数据的稀疏程度? |
苏剑林 |
|
2023-04-25 |
注意力和Softmax的两点有趣发现:鲁棒性和信息量 |
苏剑林 |
|
2023-04-17 |
梯度视角下的LoRA:简介、分析、猜测及推广 |
苏剑林 |
|
2023-04-10 |
从JL引理看熵不变性Attention |
苏剑林 |
|
2023-04-03 |
Bias项的神奇作用:RoPE + Bias = 更好的长度外推性 |
苏剑林 |
|
2023-03-28 |
Google新作试图“复活”RNN:RNN能否再次辉煌? |
苏剑林 |
|
2023-03-20 |
《为什么现在的LLM都是Decoder-only的架构?》FAQ |
苏剑林 |
|
2023-03-17 |
为什么现在的LLM都是Decoder-only的架构? |
苏剑林 |
|
2023-03-14 |
缓解交叉熵过度自信的一个简明方案 |
苏剑林 |
|
2023-03-07 |
Tiger:一个“抠”到极致的优化器 |
苏剑林 |
|
2023-02-28 |
生成扩散模型漫谈(十八):得分匹配 = 条件得分匹配 |
苏剑林 |
|
2023-02-23 |
生成扩散模型漫谈(十七):构建ODE的一般步骤(下) |
苏剑林 |
|
2023-02-16 |
Google新搜出的优化器Lion:效率与效果兼得的“训练狮” |
苏剑林 |
|
2023-02-14 |
生成扩散模型漫谈(十六):W距离 ≤ 得分匹配 |
苏剑林 |
|
2023-02-11 |
测试函数法推导连续性方程和Fokker-Planck方程 |
苏剑林 |
|
2023-01-31 |
Transformer升级之路:8、长度外推性与位置鲁棒性 |
苏剑林 |
|
2023-01-12 |
Transformer升级之路:7、长度外推性与局部注意力 |
苏剑林 |
|
2023-01-04 |
智能家居之热水器零冷水技术原理浅析 |
苏剑林 |
|
2022-12-28 |
Transformer升级之路:6、旋转位置编码的完备性分析 |
苏剑林 |
|
2022-12-22 |
生成扩散模型漫谈(十五):构建ODE的一般步骤(中) |
苏剑林 |
|
2022-12-15 |
生成扩散模型漫谈(十四):构建ODE的一般步骤(上) |
苏剑林 |
|
2022-12-07 |
从局部到全局:语义相似度的测地线距离 |
苏剑林 |
|
2022-12-05 |
智能家居之小爱同学控制极米投影仪的简单方案 |
苏剑林 |
|
2022-11-30 |
用热传导方程来指导自监督学习 |
苏剑林 |
|
2022-11-22 |
基于Amos优化器思想推导出来的一些“炼丹策略” |
苏剑林 |
|
2022-11-09 |
CoSENT(三):作为交互式相似度的损失函数 |
苏剑林 |
|
2022-11-02 |
利用CUR分解加速交互式相似度模型的检索 |
苏剑林 |
|
2022-10-25 |
圆内随机n点在同一个圆心角为θ的扇形的概率 |
苏剑林 |
|
2022-10-18 |
生成扩散模型漫谈(十三):从万有引力到扩散模型 |
苏剑林 |
|
2022-10-09 |
“十字架”组合计数问题浅试 |
苏剑林 |
|
2022-09-28 |
生成扩散模型漫谈(十二):“硬刚”扩散ODE |
苏剑林 |
|
2022-09-21 |
生成扩散模型漫谈(十一):统一扩散模型(应用篇) |
苏剑林 |
|
2022-09-14 |
生成扩散模型漫谈(十):统一扩散模型(理论篇) |
苏剑林 |
|
2022-08-30 |
生成扩散模型漫谈(九):条件控制生成结果 |
苏剑林 |
|
2022-08-18 |
生成扩散模型漫谈(八):最优扩散方差估计(下) |
苏剑林 |
|
2022-08-12 |
生成扩散模型漫谈(七):最优扩散方差估计(上) |
苏剑林 |
|
2022-08-08 |
生成扩散模型漫谈(六):一般框架之ODE篇 |
苏剑林 |
|
2022-08-03 |
生成扩散模型漫谈(五):一般框架之SDE篇 |
苏剑林 |
|
2022-07-27 |
生成扩散模型漫谈(四):DDIM = 高观点DDPM |
苏剑林 |
|
2022-07-19 |
生成扩散模型漫谈(三):DDPM = 贝叶斯 + 去噪 |
苏剑林 |
|
2022-07-15 |
不成功的尝试:将多标签交叉熵推广到“n个m分类”上去 |
苏剑林 |
|
2022-07-06 |
生成扩散模型漫谈(二):DDPM = 自回归式VAE |
苏剑林 |
|
2022-06-28 |
“维度灾难”之Hubness现象浅析 |
苏剑林 |
|
2022-06-20 |
Ladder Side-Tuning:预训练模型的“过墙梯” |
苏剑林 |
|
2022-06-13 |
生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼 |
苏剑林 |
|
2022-06-07 |
相对位置编码Transformer的一个理论缺陷与对策 |
苏剑林 |
|
2022-06-01 |
如何训练你的准确率? |
苏剑林 |
|
2022-05-25 |
从重参数的角度看离散概率分布的构建 |
苏剑林 |
|