科学空间|Scientific Spaces 今日热榜



近期历史最近 100 条记录

2024-11-18	Adam的epsilon如何影响学习率的Scaling Law？	苏剑林	
2024-11-14	当Batch Size增大时，学习率该如何随之变化？	苏剑林	
2024-11-06	VQ的又一技巧：给编码表加一个线性变换	苏剑林	
2024-10-30	低秩近似之路（四）：ID	苏剑林	
2024-10-24	VQ的旋转技巧：梯度直通估计的一般推广	苏剑林	
2024-10-16	Cool Papers浏览器扩展升级至v0.2.0	苏剑林	
2024-10-15	让MathJax的数学公式随窗口大小自动缩放	苏剑林	
2024-10-11	低秩近似之路（三）：CR	苏剑林	
2024-10-01	低秩近似之路（二）：SVD	苏剑林	
2024-09-26	利用“熄火保护 + 通断器”实现燃气灶智能关火	苏剑林	
2024-09-19	Softmax后传：寻找Top-K的光滑近似	苏剑林	
2024-09-15	低秩近似之路（一）：伪逆	苏剑林	
2024-09-06	“闭门造车”之多模态思路浅谈（三）：位置编码	苏剑林	
2024-09-01	Decoder-only的LLM为什么需要位置编码？	苏剑林	
2024-08-26	近乎完美地解决MathJax与Marked的冲突	苏剑林	
2024-08-15	让MathJax更好地兼容谷歌翻译和延时加载	苏剑林	
2024-08-12	“Cool Papers + 站内搜索”的一些新尝试	苏剑林	
2024-08-06	通向最优分布之路：概率空间的最小化	苏剑林	
2024-07-29	对齐全量微调！这是我看过最精彩的LoRA改进（二）	苏剑林	
2024-07-24	Monarch矩阵：计算高效的稀疏型矩阵分解	苏剑林	
2024-07-17	【生活杂记】用电饭锅来煮米汤	苏剑林	
2024-07-12	对齐全量微调！这是我看过最精彩的LoRA改进（一）	苏剑林	
2024-07-08	“闭门造车”之多模态思路浅谈（二）：自回归	苏剑林	
2024-06-27	重温SSM（四）：有理生成函数的新视角	苏剑林	
2024-06-20	重温SSM（三）：HiPPO的高效计算（S4）	苏剑林	
2024-06-14	通向概率分布之路：盘点Softmax及其替代品	苏剑林	
2024-06-05	重温SSM（二）：HiPPO的一些遗留问题	苏剑林	
2024-05-29	Transformer升级之路：18、RoPE的底数选择原则	苏剑林	
2024-05-24	重温SSM（一）：线性系统和HiPPO矩阵	苏剑林	
2024-05-13	缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA	苏剑林	
2024-05-07	Cool Papers更新：简单搭建了一个站内检索系统	苏剑林	
2024-05-01	以蒸馏的名义：“从去噪自编码器到生成模型”重现江湖	苏剑林	
2024-04-23	生成扩散模型漫谈（二十四）：少走捷径，更快到达	苏剑林	
2024-04-17	生成扩散模型漫谈（二十三）：信噪比与大图生成（下）	苏剑林	
2024-04-08	生成扩散模型漫谈（二十二）：信噪比与大图生成（上）	苏剑林	
2024-03-29	Transformer升级之路：17、多模态位置编码的简单思考	苏剑林	
2023-08-28	Lion/Tiger优化器训练下的Embedding异常和对策	苏剑林	
2023-08-24	Transformer升级之路：14、当HWFA遇见ReRoPE	苏剑林	
2023-08-14	Transformer升级之路：13、逆用Leaky ReRoPE	苏剑林	
2023-08-07	Transformer升级之路：12、无限外推的ReRoPE？	苏剑林	
2023-07-31	Transformer升级之路：11、将β进制位置进行到底	苏剑林	
2023-07-20	语言模型输出端共享Embedding的重新探索	苏剑林	
2023-07-14	当生成模型肆虐：互联网将有“疯牛病”之忧？	苏剑林	
2023-07-06	Transformer升级之路：10、RoPE是一种β进制编码	苏剑林	
2023-06-28	生成扩散模型漫谈（二十）：从ReFlow到WGAN-GP	苏剑林	
2023-06-24	生成扩散模型漫谈（十九）：作为扩散ODE的GAN	苏剑林	
2023-06-16	梯度流：探索通往最小值之路	苏剑林	
2023-06-08	Naive Bayes is all you need ?	苏剑林	
2023-05-31	关于NBCE方法的一些补充说明和分析	苏剑林	
2023-05-23	NBCE：使用朴素贝叶斯扩展LLM的Context处理长度	苏剑林	
2023-05-18	基于量子化假设推导模型的尺度定律（Scaling Law）	苏剑林	
2023-05-12	Transformer升级之路：9、一种全局长度外推的新思路	苏剑林	
2023-05-05	如何度量数据的稀疏程度？	苏剑林	
2023-04-25	注意力和Softmax的两点有趣发现：鲁棒性和信息量	苏剑林	
2023-04-17	梯度视角下的LoRA：简介、分析、猜测及推广	苏剑林	
2023-04-10	从JL引理看熵不变性Attention	苏剑林	
2023-04-03	Bias项的神奇作用：RoPE + Bias = 更好的长度外推性	苏剑林	
2023-03-28	Google新作试图“复活”RNN：RNN能否再次辉煌？	苏剑林	
2023-03-20	《为什么现在的LLM都是Decoder-only的架构？》FAQ	苏剑林	
2023-03-17	为什么现在的LLM都是Decoder-only的架构？	苏剑林	
2023-03-14	缓解交叉熵过度自信的一个简明方案	苏剑林	
2023-03-07	Tiger：一个“抠”到极致的优化器	苏剑林	
2023-02-28	生成扩散模型漫谈（十八）：得分匹配 = 条件得分匹配	苏剑林	
2023-02-23	生成扩散模型漫谈（十七）：构建ODE的一般步骤（下）	苏剑林	
2023-02-16	Google新搜出的优化器Lion：效率与效果兼得的“训练狮”	苏剑林	
2023-02-14	生成扩散模型漫谈（十六）：W距离 ≤ 得分匹配	苏剑林	
2023-02-11	测试函数法推导连续性方程和Fokker-Planck方程	苏剑林	
2023-01-31	Transformer升级之路：8、长度外推性与位置鲁棒性	苏剑林	
2023-01-12	Transformer升级之路：7、长度外推性与局部注意力	苏剑林	
2023-01-04	智能家居之热水器零冷水技术原理浅析	苏剑林	
2022-12-28	Transformer升级之路：6、旋转位置编码的完备性分析	苏剑林	
2022-12-22	生成扩散模型漫谈（十五）：构建ODE的一般步骤（中）	苏剑林	
2022-12-15	生成扩散模型漫谈（十四）：构建ODE的一般步骤（上）	苏剑林	
2022-12-07	从局部到全局：语义相似度的测地线距离	苏剑林	
2022-12-05	智能家居之小爱同学控制极米投影仪的简单方案	苏剑林	
2022-11-30	用热传导方程来指导自监督学习	苏剑林	
2022-11-22	基于Amos优化器思想推导出来的一些“炼丹策略”	苏剑林	
2022-11-09	CoSENT（三）：作为交互式相似度的损失函数	苏剑林	
2022-11-02	利用CUR分解加速交互式相似度模型的检索	苏剑林	
2022-10-25	圆内随机n点在同一个圆心角为θ的扇形的概率	苏剑林	
2022-10-18	生成扩散模型漫谈（十三）：从万有引力到扩散模型	苏剑林	
2022-10-09	“十字架”组合计数问题浅试	苏剑林	
2022-09-28	生成扩散模型漫谈（十二）：“硬刚”扩散ODE	苏剑林	
2022-09-21	生成扩散模型漫谈（十一）：统一扩散模型（应用篇）	苏剑林	
2022-09-14	生成扩散模型漫谈（十）：统一扩散模型（理论篇）	苏剑林	
2022-08-30	生成扩散模型漫谈（九）：条件控制生成结果	苏剑林	
2022-08-18	生成扩散模型漫谈（八）：最优扩散方差估计（下）	苏剑林	
2022-08-12	生成扩散模型漫谈（七）：最优扩散方差估计（上）	苏剑林	
2022-08-08	生成扩散模型漫谈（六）：一般框架之ODE篇	苏剑林	
2022-08-03	生成扩散模型漫谈（五）：一般框架之SDE篇	苏剑林	
2022-07-27	生成扩散模型漫谈（四）：DDIM = 高观点DDPM	苏剑林	
2022-07-19	生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪	苏剑林	
2022-07-15	不成功的尝试：将多标签交叉熵推广到“n个m分类”上去	苏剑林	
2022-07-06	生成扩散模型漫谈（二）：DDPM = 自回归式VAE	苏剑林	
2022-06-28	“维度灾难”之Hubness现象浅析	苏剑林	
2022-06-20	Ladder Side-Tuning：预训练模型的“过墙梯”	苏剑林	
2022-06-13	生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼	苏剑林	
2022-06-07	相对位置编码Transformer的一个理论缺陷与对策	苏剑林	
2022-06-01	如何训练你的准确率？	苏剑林	
2022-05-25	从重参数的角度看离散概率分布的构建	苏剑林	