deepseek-r

著名人工智能社区 huggingface 的工程师马修·卡里根展示了在本地运行 Deepseek-R1 的完整的硬件 + 软件设置，他使用的是 670B 模型，无蒸馏，Q8 量化，实现全质量。总成本 6,000 美元。今天在个人电脑上配置了AI大模型：DeepSeek R1，特此记录。

DeepSeek-R1 通过强化学习直接从基础模型中训练推理能力，避免了 SFT 的数据瓶颈，同时通过蒸馏技术将能力迁移至小模型，实现高效推理。二、DeepSeek-R1 的技术方案1. De...

1. 模型定位与核心能力DeepSeek-V3定位为通用自然语言处理模型，采用混合专家（MoE）架构，参数总量达6710亿，但每个token仅激活370亿参数以优化...

我知道的有deepseek自家的网页和app,还有一些第三方ai工具也陆续支持了,搜一下支持deepseek-r1的平台能出一堆有用(0)回复 brien1 现在好多ai应用都接入了deepseek-r1,像什么天工...

DeepSeek-R1 Zero 有的只是一套最简单的奖励系统，来激发AI的推理能力。这个规则就两条：1.准确性奖励：准确性奖励模型评估响应是否正确。对...

GRPO（组相对策略优化）是DeepSeek提出的一种强化学习算法，通过摒弃价值网络、引入分组采样和相对优势估计，显著提升了语言模型（LLM）的训练效率和稳定性。以下从核心原理、...

DeepSeek是一款先进的人工智能模型，致力于提供高质量的语言交互和智能服务。然而，对其进行所谓“解除R18限制”的行为是不恰当且违反相关规定和道德准则的。一、遵守法律法规...

使用deepseek回答问题-物理学问题(二)一、卢瑟福散射实验只能证明原子中原子核是很小的,且集中了大量的质量,并不能证明原电子要绕核旋转啊,他为什么会提出太阳系模型而不是扩展枣糕...

deepseek+midjourney , 花费十分钟时间做出来的 ,大家可以看看效果.(因为我个人并不是专职画家 ,因此对于分镜等细节问题,无需过于纠结) 我将它起了个名字--《独守新手村:我,...

GRPO（Group Relative Policy Optimization）是最近在大语言模型（LLM）领域，特别是DeepSeek-R1(DeepSeek-V3)等推理模型中非常火的训练算法。第...