科技类
大模型落地,苦「最强」久矣
没有刷不了的榜,只有还没 over-fitting 的数据集; 没有搞不定的第一,只有还没加够 XX 领域,XX 尺寸,XX 语言的限定词。 尽管自 2012 年深度学习复苏之日起,AI 打榜就成为了行业默认惯例,但历来如此,就是真的正确吗? 去年 9 月,一篇 LLM 味爆棚的反讽文章,在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》,(别搞大模型了),你只需要在测试集上预训练就够了。 吐槽了市面上层出不穷的各种大模型测试