# deepseek三部曲
以下是 DeepSeek 大语言模型的模型部署、模型微调、投喂数据相关内容:
# 模型部署
本地部署 # 可以借助 LM Studio 或 Ollama 等工具
云端部署 # 腾讯云和阿里云提供了对 DeepSeek 全系模型的支持,可以快速接入 API 并实现一键部署
# 模型微调
加载预训练模型
# 利用 Hugging Face Transformers 等框架加载 DeepSeek 预训练模型
# 如使用 Python 的 AutoModelForCausalLM 和 AutoTokenizer 进行加载
# 使模型具备基础的语言理解和生成能力,为微调做准备
数据预处理
# 对用于微调的数据集进行处理,将文本转换为模型可理解的 token 序列
# 确保每个样本的输入和输出都被正确编码,并按照模型要求进行填充或截断
配置微调参数
# 包括学习率:通常设为较小值如 5e-5
# 批量大小:根据硬件资源选 8 或 16
# 训练周期:一般 3-5 个周期
# 防止破坏预训练权重和过拟合
开始微调
# 使用 PyTorch 或 TensorFlow 框架启动微调过程
# 通过训练循环在训练集上进行微调,并定期保存检查点,以便评估和后续使用
# 投喂数据
选择工具
# 可结合 AnythingLLM 等工具来投喂数据
# AnythingLLM 支持多种文档格式的上传和解析,并能与 DeepSeek 模型无缝对接
数据准备
# 收集与目标任务相关的各种格式数据,如 PDF、Word、Markdown 等文档,还可以是对话记录等文本数据
上传与处理
# 以 AnythingLLM 为例,先创建工作区,点击 “上传文件” 按钮选择文档完成上传
# 对于 PDF 文件,工具会自动提取关键信息并生成摘要
# Word 文件可按章节或段落进行拆分和整理,以便模型更好地理解和学习
# Qwen3-Next-80B-A3B
Qwen3-Next-80B-A3B-Instruct
Qwen3-Next-80B-A3B-Thinking
新模型是新的架构尝试,结合了 Gated DeltaNet 和 Gated Attention,以及高稀疏性 MoE 层,(80B一次只激活3B),并且长文本性
# Qwen3-Coder
# 是一款混合专家(MoE)模型,最强大的版本,名为 Qwen3-Coder-480B-A35B-Instruct
# 编程能力登顶全球开源模型阵营,并超越GPT4.1等闭源模型,比肩全球最强的编程模型Claude4
# 总参数量高达4800亿,激活参数为350亿,原生支持256K token的上下文,支持358种编程语言
# Qwen3-4B-A3B
Qwen3-4B-Instruct-2507(非思考版)
# 推理能力媲美中尺寸模型,其Agent能力超越Qwen3-30B-Thinking
Qwen3-4B-Thinking-2507(思考版)
# 在知识、推理、编程、对齐和agent能力上全面超越GPT-4.1-nano,与Qwen3-30B-A3B性能接近
# Qwen3-30B-A3B
- Qwen3-30B-A3B-Instruct(非思考版)
- Qwen3-30B-A3B-Thinking(思考版)
是一款经过精细指令微调的混合专家(MoE)模型,其设计的核心目标是在遵循复杂指令的同时,实现高效、高质量的文本生成。
全方位的能力跃升
# 相较于前代,该模型在各项基础能力上均实现了显著飞跃
# 无论是需要严谨逻辑的推理、精细入微的文本理解,还是复杂的数学、科学和代码生成任务,它都表现出色
广博的多语言知识
# 模型的一大亮点是其在多语言能力上的突破,大幅扩展了对超过100种语言及方言的长尾知识覆盖
# 这使其不仅能流利沟通,更能理解和运用不同文化背景下的细微差别
卓越的长上下文处理
# 模型原生支持高达256K(262,144个token)的超长上下文窗口
# 使其在处理长篇文档分析、复杂代码库理解以及多源信息推理等任务时不会因文本过长而丢失关键信息
深度用户对齐与高质量生成
# 通过监督微调(SFT)和人类反馈强化学习(RLHF)的深度淬炼,模型能更精准地捕捉和对齐用户的真实意图
# 尤其在处理主观和开放性问题时,能生成更有帮助、更符合人类偏好的高质量回复
强大的工具调用与智能体潜力
# 该模型在工具调用(Tool Calling)方面展现了卓越的性能,使其成为构建强大智能体(Agent)的理想核心
# 官方推荐使用Qwen-Agent框架来充分释放其作为自动化助手的潜力
# Seed-OSS-36B 字节长文本模型
字节把360亿参数的Seed-OSS-36B直接扔进了开源仓库,Apache-2.0随便商用。512K上下文一口气读完1600页合同
# DeepResearch 通义深度研究模型
凭借3B激活参数,性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗舰模型的ReAct Agent(推理-行动智能体)。完全开源的 Web Agent。该项目的核心贡献不仅在于模型本身,更在于一套完整的、端到端的智能体训练方法论 。其关键技术包括:
全流程数据合成
# 不依赖昂贵的人工标注,通过创新的数据合成方案
# 为智能体的持续预训练(CPT)、监督微调(SFT)和强化学习(RL)提供海量高质量数据
️⃣端到端训练框架
# 建立了一个从“智能体持续预训练”到“智能体强化学习”的无缝训练循环
# 并采用定制化的在策略(on-policy)强化学习算法(GRPO)来对齐模型行为
创新的推理模式
# 除了标准的ReAct模式,还开发了基于IterResearch范式的“重模式”(Heavy Mode)
# 通过解构任务和重组工作区来克服长程任务中的“认知窒息”问题,从而最大化模型的推理和规划潜力
Hugging Face上的下载地址 (opens new window)
# Qwen3 Embedding 文本嵌入模型
阿里巴巴推出的高效文本嵌入模型,具备强大的语义理解能力,广泛应用于搜索、推荐系统、聚类分析等任务
# IndexTTS-2.0 B站文本转语音模型
情感可控、时长可调的自回归零样本文本转语音(TTS)系统,该系统可广泛应用于AI配音、有声读物、动态漫画、视频翻译、语音对话及播客制作等多种场景,极大拓展了语音合成技术的创作与应用边界。
# Qwen3-TTS 阿里语音生成模型
支持17种音色与10种语言,在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品。
# GLM-TTS 智普AI语音合成
GLM-TTS (opens new window) 把文字转化成自然流畅的语音
# GLM-ASR 智普AI语音识别
GLM-ASR (opens new window) 把语音转成文字,优势体现在“识别精准度”和“场景适配性”上,精准识别方言和低语的语音识别利器。
# Wan-S2V 阿里音频驱动视频生成模型
该模型不仅能生成与音频高度同步的口型和表情,更能驱动富有表现力的全身动作和镜头变化,在视频的整体表现力和保真度上远超现有方法。
# Wan-S2V的整体架构基于一个预训练的 Wan 文生视频模型,并巧妙地融入了音频控制能力
# 其核心思想是:用文本提示(Prompt)来控制视频的全局动态,如镜头运动、角色轨迹和互动
# 用音频来驱动角色的精细细节,如表情、口型和手势
# Z-Image-Turbo 阿里图像生成
1秒出图+懂中文,6B小参数8G显存随便跑。官方的 Demo (opens new window)
# Qwen-Image-Edit 阿里图像编辑模型
支持多图编辑,可以拼接不同图片中的人物+人物、人物+物体等。
# dots.ocr 小红书文档解析模型
dots.ocr (opens new window) 是一款功能强大的多语言开源文档解析器,它将布局检测和内容识别功能统一在一个视觉语言模型中,同时保持良好的阅读顺序。尽管其 LLM 基础紧凑,拥有 1.7B 参数,但它仍达到了最佳 (SOTA) 性能。
# olmOCR 文档解析模型
olmOCR 之所以能在 PDF 文本提取领域大放异彩,离不开其背后的两大核心技术:文档锚定技术和微调 7B 视觉语言模型。这两项技术就像是它的左右护法,相辅相成,共同为高效、准确的文本提取保驾护航。
# PaddleOCR 百度文字识别与文档解析
PaddleOCR (opens new window) 是业界领先、可直接部署的 OCR 与文档智能引擎,提供从文本识别到文档理解的全流程解决方案
# Qwen3-Omni 阿里全模态大模型
Qwen3-Omni (opens new window) 能无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。能同时接受 图像 + 文本 作为输入,在一个模型中完成图文问答、OCR解析、图像理解等任务,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型。在线测试 (opens new window)
Qwen3-Omni-30B-A3B-Instruct(指令跟随)
Qwen3-Omni-30B-A3B-Thinking(推理)
Qwen3-Omni-30B-A3B-Captioner(通用音频字幕器)
# Qwen3‑VL 阿里视觉‑语言模型
Qwen3-VL-235B-A22B-Instruct 模型权重比较大,可以使用https://chat.qwen.ai/ 在线体验
# 图片生成代码
# 发票识别
# 增值税小规模申报表识别
# 静态页面生成
# 蝌蚪体文字识别
# 视频内容理解
# 视频字幕提取等场景
# Qwen3-Max 阿里全模态交互模型
无缝处理文本、图片、视频、音频文件,该模型预训练数据量达36T tokens,总参数超过万亿,拥有极强的Coding编程能力和Agent工具调用能力。
# Ovis2.5 阿里视觉模型
不仅能处理文字,还可以解析图像、识别手写体、理解复杂的数学公式,甚至能自动生成菜谱或分析财务报告。简单来说,Ovis就像一个能 同时处理视觉、语言和复杂任务的全能AI。
包含两个不同参数规模的版本
Ovis2.5-9B # 在40B 以下参数规模的开源模型中名列第一
Ovis2.5-2B # 特别适合端侧及资源受限的应用场景
# dots.vlm1 小红书视觉模型
在实测中,不论是空间关系理解、复杂图表推理、OCR识别、高考题评测、STEM难题、写诗等各个方面,dots.vlm1的表现都远超预期。
# MiniCPM-V 4.5 高刷视频模型
8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。
# SmolVLM 轻量低延时视觉模型
250M的本地视觉模型,100ms低延迟,未来发展方向:医疗影像分析、自动驾驶、工业质检、安防监控
# VibeVoice 微软文本转语音模型
VibeVoice 能合成长达90分钟的语音,支持多达4位不同说话者,突破传统TTS系统的限制,为自然对话和情感表达提供新的可能。
多说话者支持 # 能生成多达4位不同说话者的对话式音频,适用播客、有声读物等场景
长篇幅对话 # 支持生成长达90分钟的连续语音,突破传统TTS系统在长度上的限制
富有表现力的语音 # 根据文本内容生成带有情感和语调的语音,让对话更加自然和生动
跨语言支持 # 支持多种语言的语音合成,能处理跨语言的对话场景
高保真音频 # 生成的语音质量高,接近人类的自然语音,提供更好的用户体验
实时交互 # 能实时生成语音,支持动态对话和交互式应用
# Wan2.2-S2V 阿里万相视频生成模型
仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频,该模型单次生成的视频时长可达分钟级,大幅提升数字人直播、影视制作、AI教育等行业的视频创作效率。
# 通义万相wan2.2-animate-mix 视频换人模型
# 通义万相wan2.2-animate-move 图生动作模型
# Live Avatar 阿里音频驱动的虚拟人
项目官网 (opens new window) 该模型能够实时生成高质量的数字人视频,支持无限长度的视频制作,且在生成过程中画质不下降。
# StableAvatar 音频驱动的虚拟人
# 无限时长:不再受限于几秒钟,可以让头像视频持续自然地说下去
# 高保真 + 保持身份一致:生成的视频既清晰又能保持人物身份特征,不会“变脸”
# 强大的音画同步:采用全新的 时间步感知音频适配器,保证声音和口型对齐
# 零后处理依赖:无需 FaceFusion、GFP-GAN、CodeFormer 等修复工具,出片即高质
# 创新机制:提出了 音频原生引导机制 + 动态加权滑动窗口策略,让生成更平滑、更自然
# ViMax 视频生成框架
ViMax (opens new window) 香港大学数据智能实验室(HKUDS)开源的多智能体视频生成框架,定位是"导演、编剧、制片人、视频生成器四合一",通过自动化多镜头视频生成解决传统AI视频工具片段短、画面不连贯、缺乏叙事结构等核心痛点。
# Fay数字人框架
这是目前唯一实现四大核心组件完整集成的开源项目 Fay数字人框架 (opens new window) UE5 数字人工程 (opens new window)
# 大模型支持:OpenAI兼容接口、DeepSeek、通义千问、ChatGLM等
# 智能体能力:内置Agent自主决策和MCP框架连通业务系统
# 知识库:自定义知识库 + LangChain本地PDF检索
# 数字人形象:支持2.5D、3D、UE5、Unity、Web端多种形态
# 部署方式:支持全离线私有化部署,GPL-3.0协议允许商用
# HunyuanVideo1.5 视频生成模型
项目主页 (opens new window) 源码 (opens new window) 这是一款基于 Diffusion Transformer(DiT)架构的轻量级视频生成模型,参数量仅为8.3B,仅需14G显存的消费级显卡即可在本地流畅运行。
# Hunyuan 3D-2.1
混元生3D开源模型 (opens new window)可以将任何平面图像转换为工作室品质的 3D 模型,混元3D AI创作引擎 (opens new window)
# LiteReality 3D建模
LiteReality (opens new window) 一键复刻你的房间自动重建、材质逼真、物理交互
# HunyuanWorld-Voyager 世界模型
主页 (opens new window),支持从文本或图像生成可漫游的三维场景
# RealVideo:实时互动视频
RealVideo (opens new window) 核心优势就是不用露脸、不用提前录制视频。只要输入文字,系统就能秒速生成自然流畅的AI语音,同时让你上传的任意头像(照片、卡通形象、虚拟人设等)精准同步唇形,配合WebSocket技术实现低延迟传输,不管是实时聊天、在线讲课、虚拟直播还是日常互动,都能打造出“仿佛真人出镜”的效果,全程不用复杂设置。
# LatentSync 视频唇形同步
# Open-AutoGLM 让AI帮你操控手机
Open-AutoGLM (opens new window) 智普AI开源的能让AI替大家完成安卓手机上各种应用的操作任务。平时发红包、点外卖、订火车票这些要好多步操作的事儿,都能交给它。
# MedGemma 谷歌医疗大模型
MedGemma 4B # 40 亿参数的多模态模型,能够同时处理医学图像和文本
MedGemma 27B # 270 亿参数的纯文本模型,针对需要深度医学文本理解和临床推理的任务场景
# EasyDataset 数据集构建助手
Easy Dataset是一个专门为大型语言模型(LLM)创建微调数据集而设计的应用程序。它提供了一个直观的界面,用于上传特定领域的文件、智能分割内容、生成问题以及为模型微调生成高质量的训练数据。
# Prompt Optimizer 提示词优化工具
- 主要功能:
智能优化 # 一键优化提示词,支持多轮迭代改进,提升 AI 回复的准确度和相关性
双模式优化 # 支持系统提示词和用户提示词的优化,满足不同使用场景
实时对比 # 支持原始提示词和优化后提示词的实时对比,直观展示优化效果
多模型集成 # 支持 OpenAI、Gemini、DeepSeek、智谱 AI、SiliconFlow 等主流 AI 模型
安全架构 # 纯客户端处理,数据直接与 AI 服务商交互,不经过中间服务器,确保数据安全
多端支持 # 提供 Web 应用、桌面应用、Chrome 插件和 Docker 部署等多种使用方式
访问控制 # 支持密码保护功能,保障部署安全
MCP 协议支持 # 支持 MCP 协议,可与 Claude Desktop 等 MCP 兼容应用集成
- 如何使用:
使用在线版本 # 直接访问 https://prompt.always200.com 使用,所有数据存储在浏览器本地,安全可靠
Vercel 部署 # 可以一键部署到自己的 Vercel,也可以 Fork 项目后在 Vercel 中导入
# 需配置环境变量如 ACCESS_PASSWORD 和各 AI 服务商的 API 密钥等
下载桌面应用 # 从 GitHub Releases 下载最新版本,有安装程序和压缩包两种格式,安装程序支持自动更新
安装 Chrome 插件 # 从 Chrome 商店安装,点击图标即可打开提示词优化器
Docker 部署 # 通过 Docker 命令运行容器,可配置 API 密钥和访问密码等环境变量
Docker Compose 部署 # 克隆仓库后,创建.env文件配置 API 密钥等,再使用 docker compose up -d 启动
MCP Server 使用 # 当通过 Docker 运行时,MCP Server 会自动启动,可通过 http://ip:port/mcp 访问
# 需配置环境变量如 MCP_DEFAULT_MODEL_PROVIDER 等
# 可在 Claude Desktop 等支持 MCP 的应用中集成使用
本地开发 # 克隆项目后,安装依赖并运行开发命令即可开始本地开发
# Text2SQL 文本转SQL
将自然语言查询转为 SQL 的任务,经历了基于规则、神经网络、预训练语言模型、大语言模型四个阶段。当前面临提示优化、模型训练、推理时增强三大难题,研究基于 BIRD 数据集展开。
# RAGFlow 开源RAG引擎
# Youtu-GraphRAG腾讯图检索增强
Youtu-GraphRAG (opens new window)通过将大语言模型与RAG(Retrieval-Augmented Generation)模式深度结合,创造性地将知识组织成结构化的图谱,使大模型能够进行更精准的检索和推理。该框架的核心创新在于实现了从图构建到索引、再到检索的垂直统一和认知闭环。
# openAgent 大模型Agent框架
openAgent (opens new window)相关介绍 (opens new window)
# 集成智能问答、智能问数、知识库、工作流编排和智能体编排的大模型一站式平台
# 采用Vue.js + FastAPI + PostgreSQL + Langchain/LangGraph等主流技术栈
# 专为企业级应用设计,代码完全开源,支持私有化部署,可灵活扩展及二次开发
# 内置完善用户认证和权限管理(RBAC),用户数据隔离,确保数据安全
# 500个开源AI智能体项目
500个开源AI智能体项目 (opens new window)
# llm-engineer-toolkit 综合资源库
llm-engineer-toolkit (opens new window) 一个按功能分类的综合资源库。该仓库收集了超过 120 个库,涵盖 LLM 的各个开发阶段,包括训练、微调、应用开发、推理、检索增强生成(RAG)、代理、评估、监控、安全性等。
# MaxKB 企业级智能体平台
MaxKB (opens new window)它把 RAG(检索增强生成)、工作流编排、MCP 工具调用、多模型对接等关键能力整合到一套“开箱即用”的系统中,帮助企业在最短时间内把大模型接入真实生产场景,实现智能客服、内部知识库、学术助手、教育辅导等多种应用。
docker run -d --name=maxkb --restart=always -p 8080:8080 -v ~/.maxkb:/opt/maxkb 1panel/maxkb
# 默认账号:admin 默认密码:MaxKB@123..
30 分钟上线流程
1. 创建知识库 # 上传 PDF / Word / 网页链接
2. 选择模型 # 支持本地私有化或云端 API
3. 调试问答 # 内置 Playground 一键测试
4. 集成发布 # 复制 <iframe> 或调用 REST 接口即可嵌入现有系统
5. 权限体系 # 多租户、SSO、LDAP企业级安全合规,开箱即用