site:www.51cto.com - 搜索 News

2 天

今年是世界互联网大会乌镇峰会“新十年”的开始，也是中国全功能接入国际互联网30周年。在乌镇峰会开幕式上，雷军回顾其互联网创业征程，由衷感慨：“我作为产业代表，有幸经历了中国互联网的全部阶段，深感中国是互联网技术持续变革创新的沃土。”（Ps:据传雷教主 ...

1 天

Askell 还提到，她想提高 Claude 在对话中提出相关后续问题的能力。总的来说，Anthropic 目前的目标是在 Claude 内心灌输真实的个性，而不是推迟或霸道地对待人类。虽然关于 LLM ...

3 天

在LiveBench榜单上，阶跃星辰自研的万亿参数语言大模型Step-2-16k-202411在Global Average上拿下57.68分。 86.57这个成绩是真的非常高——榜单上其余众人（哪怕是OpenAI和Anthropic家的模型们） ...

6 天

2024年，陶哲轩力推MIT数学教授Larry Guth和牛津大学菲尔兹奖得主James Maynard的一篇新论文，认为两人在证明黎曼猜想方面取得了重大突破。

5 天

如果去掉这些「超权重」，模型就完全摆烂了，开始胡言乱语，文本都不会生成了。但是如果去掉其他一些不那么重要的特征，模型的表现只会受到一点点影响。它们会放大输入 token 激活的离群值，这种现象研究者们称之为「超激活」（super ...

2 天

自从大模型出现以来，AI 研究领域一直流传着这样一种假设：当大模型在进行推理时，它们进行的是某种形式的近似检索，即从参数知识中「检索」中间推理步骤的答案，而不是进行「真正的」推理。

3 天

DeepSeek 官方表示，DeepSeek R1 系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。已经发布的 DeepSeek-R1-Lite-Preview 使用的是一个较小的基座模型，尚未完全释放长思维链的潜力。

3 天

从基于文本的模型向基于3D数据的模型的转变，也揭示出近年来AI发展的一条轨迹：从理解和生成语言，到解释和创建静态和动态图像（2D视觉模型），再到对物体的3D外观进行建模（3D视觉模型）。

2 天

图1（b）结合真实交互的树搜索：智能体通过主动网站导航探索多条路径，并允许回溯（用虚线箭头表示）。然而，在现实世界的网站中，由于不可逆操作的普遍存在，回溯往往不可行。

3 天

今天凌晨，新晋诺贝尔化学奖得主、DeepMind 创始人哈萨比斯参与撰写的新论文登上了 Nature，主题是如何更准确地识别并纠正量子计算机内部的错误。

3 天

此外，微软还推出了一款新的AI翻译器，可以模拟发言者的声音，在Teams平台上提供九种语言的近实时语音翻译，包含中文（普通话）、英语、法语、德语、意大利语、日语、韩语、葡萄牙语（巴西）和西班牙语。

3 天

今年 4 月，AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。 llm.c 旨在大幅简化大模型的训练，ta 使用纯 C 语言 / ...

一些您可能无法访问的结果已被隐去。