的是人设账号逻

到长视频平台；横屏短剧则首选长视频平台。 “竖屏短剧主要靠充值赚钱，看的人越多，付费解锁的人越多，抖音、快手这些短视频平台曝光量、用户量更大。”导演李韵铭分析。虽然制作方也可以在长视频平台新注册

账号或用自家已

有账号，将竖屏短剧放到平台上播出，“但短视频平西班牙电报用户库台遵循辑，粉丝量越大，被推荐的概率更高，账号除了用户付费，还能通过广告和达人接单赚钱。”李芳芳解释。回顾过去两年，短剧在剧本、制作、演员上等各个维度都有了提升，和去年刚出圈时靠高能反转、擦边剧情吸睛的内容相比，已经演变成了另一个物种。未来，随着这种内容形式越来越受欢迎，平台间的争夺也会更加激烈。

1/Claude集体翻车，陶哲轩等60+顶尖数学家合力提出新数学基准，大模型正确率通通不足2% 量子位 ·2024-11-11 17:57 陶哲轩看了都说难让大模型集体吃瘪，数学题正确移动应用程序中的登录和用户注册率通通不到2%！获大神卡帕西力荐，大模型新数学基准来势汹汹—— 一出手，曾在国际数学奥赛中拿下83%解题率的o1模型就败下阵来，并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。所以，新挑战者到底啥来头？？一打听，这个新数学基准名为FrontierMath，由Epoch AI这家非营利研究机构号召陶哲轩在内

的60多位顶尖数学家提出这群人这

次铁了心要给AI上难度，直接原创了数百道极具挑战性的数学问题—— 从数论中计算密集型问题到代数几何和范畴论中的抽象问题，涵盖了现代数学的大多数主要分支。这些加拿大电子邮件线索题有多难呢？按数学大佬陶哲轩对这项研究的评价说：大模型们，至少需要再战个几年吧。同时，卡帕西也表示非常喜欢这一新基准，甚至乐于见到大模型们“吃瘪”：之所以引入这个基准，是因为大模型越来越多地碾压现有的数学基准 FrontierMath：评估AI高级数学推理能力的新基准今年以来，大语言模型（LLM）开始在各种数学benchmark上疯狂刷分，而且正确率动辄90%以上。宣传看多了，人也麻了，于是纷纷反思—— 一定是现在的

基准测试“被污染了比如让AI在训练

阶段提前学习基准测试中的问题）。对此，非营利研究机构Epoch AI看不下去了，于是直接联合60多位顶尖数学家（共获得了14枚IMO金牌）推出FrontierMath。这一新基准拥有数百道大模型们之前没见过的数学题，而且难度颇高。通常需要专业数学家花费数小时甚至数天的努力一番实践检验下，果不其然，一众顶尖大模型纷纷折戟（包括Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro等），解题率

账号或用自家已

的60多位顶尖数学家提出这群人这

发表评论 取消回复

发表评论取消回复