教程
模型库
数据集

大模型入门必学
系统地学习机器学习,掌握必须的数理统计基础和经典算法

高等数学(一)

新手引导

高等数学(二)

新手引导

线性代数

新手引导

概率统计与随机过程

新手引导

人工智能的数学基础

新手引导

数据结构与算法

新手引导

python语言程序设计

新手引导

机器学习

新手引导

深度学习系列课程
了解常见的深度学习平台及DNN、CNN
DeepSeek-VL2
DeepSeek-VL2,这是一个先进的大型混合专家(MoE)视觉语言模型系列,在其前身DeepSeek-VL的基础上进行了显著改进。DeepSeek-VL2在各种任务中展示了卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成:DeepSeek-VL2- tiny、DeepSeek-VL2- small和DeepSeek-VL2,激活参数分别为1.0B、2.8B和4.5B。与现有的开源密集模型和基于moe的模型相比,DeepSeek-VL2在激活参数相似或更少的情况下实现了具有竞争力或最先进的性能。




DeepSeek-R1
DeepSeek-R1在数学、代码和推理任务方面的性能可与openai - 01媲美。为了支持研究社区,我们开源了DeepSeek-R1- zero, DeepSeek-R1,以及基于Llama和Qwen的DeepSeek-R1提炼的六个密集模型。DeepSeek-R1-Distill-Qwen-32B在各种基准测试中优于openai - 01 -mini,为密集模型实现了新的最先进的结果。




DeepSeek-V3
DeepSeek-V3,这是一个强大的专家混合(MoE)语言模型,具有671B个总参数,每个令牌激活37B。为了实现高效的推理和低成本的训练,DeepSeek-V3采用了多头潜在注意(MLA)和DeepSeekMoE架构,这两种架构在DeepSeek-V2中得到了充分的验证。此外,DeepSeek-V3开创了负载平衡的辅助无丢失策略,并为更强的性能设置了多令牌预测训练目标。我们在14.8万亿个不同的高质量令牌上预训练DeepSeek-V3,然后进行监督微调和强化学习阶段,以充分利用其能力。综合评估表明,DeepSeek-V3优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能优异,但DeepSeek-V3的完整训练只需要278.8 m H800 GPU小时。此外,它的训练过程非常稳定。在整个训练过程中,我们没有经历任何不可恢复的损失峰值或执行任何回滚。




Qwen-VL
是阿里云研发的大规模视觉语言模型,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。特点包括:强大的性能:在四大类多模态任务的标准英文测评中上均取得同等通用模型大小下最好效果;多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。




Visual-Chinese-LLaMA-Alpaca
基于中文LLaMA&Alpaca大模型项目开发的多模态中文大模型。VisualCLA在中文LLaMA/Alpaca模型上增加了图像编码等模块,使LLaMA模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解、执行和对话能力,目前开源了VisualCLA-7B-v0.1。




InternLM2
商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM2)。InternLM2 在数理、代码、对话、创作等各方面能力都获得了长足进步,综合性能达到开源模型的领先水平。InternLM2 包含两种模型规格:7B 和 20B。7B 为轻量级的研究和应用提供了一个轻便但性能不俗的模型,20B 模型的综合性能更为强劲,可以有效支持更加复杂的实用场景。




InternLM
商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。据悉,“书生·浦语”具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。




Qwen2.5
Qwen-2.5 Coder在前一代CodeQwen1.5的基础上进行了大幅升级,推出了从0.5B到32B不同参数量的六个模型。作为一个代码专用模型,Qwen-2.5 Coder基于Qwen2.5架构构建,预训练数据规模超过5.5万亿标记,采用了严格的数据清洗、大规模的合成数据生成和数据平衡策略。这使得模型在代码生成、补全、推理和修复等任务中达到了SOTA(state-of-the-art)水平,甚至超过了其他同规模的大模型。




Qwen2
Qwen2是由阿里云通义千问团队开源的新一代大语言模型,该系列涵盖了从0.5B到72B不等的五个规模模型,在中文和英文基础上增加了27种语言的高质量数据,大幅提升了模型的自然语言理解、代码编写、数学解题和多语言处理能力。Qwen2支持最长达128K tokens的上下文长度,优化了模型的泛化性和应用潜力。该系列模型在多个评测基准上表现优异,赶超Meta的Llama-3-70B,目前已在Hugging Face和ModelScope平台开源。




Qwen1.5
通义千问1.5(qwen1.5)是阿里云研发的通义千问系列开源大模型。该系列包括Base和Chat等多版本、多规模的开源模型,从而满足不同的计算需求。PAI已对该系列模型进行全面支持,本文以通义千问1.5-7B-Chat模型为例为您介绍如何在Model Gallery中部署和微调该系列模型。




Qwen
通义千问 是阿里云研发的通义千问大模型系列模型,包括参数规模为18亿(1.8B)、70亿(7B)、140亿(14B)、720亿(72B)和1100亿(110B)。各个规模的模型包括基础模型Qwen,以及对话模型。数据集包括文本和代码等多种数据类型,覆盖通用领域和专业领域,能支持8~32K的上下文长度,针对插件调用相关的对齐数据做了特定优化,当前模型能有效调用插件以及升级为Agent。




GLM-4
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。




ChatGLM3-6B
ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略;更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景;更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。




ChatGLM2-6B
基于开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练;基座模型的上下文长度扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练;基于 Multi-Query Attention 技术实现更高效的推理速度和更低的显存占用;允许商业使用。




ChatGLM
中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持




Industry Instruction


本数据集为行业指令数据集,目前包含的行业中英文对照名称如下,本次数据旨在补充当前行业指令数据的空白,并挖掘BAAI/IndustryCorpus2预训练数据集中高质量预训练语料中包含的行业高价值知识。
行业指令集
多语言语料
Industry Corpus2


30类行业分类的高质量预训练数据集。行业模型在推动企业智能化转型和创新发展中发挥着至关重要的作用。高质量的行业数据是提升大模型性能和实现行业应用落地的关键。然而,目前用于行业模型训练的数据集普遍存在数据量少、质量低、专业性不足等问题。
行业数据集
多语言语料
一招金融数据集


一招数据集是一个2TB高质量多模态的大模型训练数据集,致力于构建一个更金融、更干净且符合社会主义核心价值观的大规模金融领域数据集。本数据集将不仅包含广泛的金融事件、市场动态,还涵盖各种金融产品和交易模式,以确保模型在复杂的金融环境中展现出卓越的泛化能力和预测准确性。
金融数据集
多模态语料
chatgpt-corpus


开源了由 ChatGPT3.5 生成的300万自问自答数据,包括多个领域,可用于用于训练大模型。
SFT数据集
英文问答
RefGPT


包括RefGPT-Fact和RefGPT-Code两部分,其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话,RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。
SFT数据集
编程数据
Math23K


Math23K是一个开源的小学应用题数据集,旨在支持数学问题解决和教育技术研究。
数学类数据集
本文对话
APE210k


Ape210K是一个大规模且模板丰富的数学文字题(MWP)数据集,包含210,488个问题和56,532个模板,分为训练集、验证集和测试集。
数学类数据集
数学文字
zhihu_rlhf_3k


该项目开源了3k+条基于知乎问答的人类偏好数据集,每个实际的知乎问题下给出了赞同数据较高(chosen)和较低(rejected)的回答,可以用于奖励模型的训练。
偏好数据集
本文对话
GPT-4-LLM


这是 GPT-4-LLM 的存储库,旨在共享 GPT-4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。
偏好数据集
本文对话
CValues


数据集通过ChatGPT改写真实的心理互助 QA为多轮的心理健康支持多轮对话(single-turn to multi-turn inclusive language expansion via ChatGPT)
偏好数据集
心理互助
Huatuo-26M


Huatuo-26M是目前最大的中文医疗问答数据集,可用于医疗领域的各种AI研究和应用,如自然语言处理:包括但不限于问答系统、文本分类、情感分析等。机器学习模型训练:如疾病预测、个性化治疗推荐等。医疗领域的 AI 应用:如智能诊断系统、医疗会诊聊天机器人等。
SFT数据集
中文医疗
Chinese medical dialogue data


Chinese Medical Dialogue Dataset是一个大规模中文医疗对话数据集,用于开发和测试先进的自然语言处理算法,旨在理解和生成人类般的医疗对话,从而为患者提供准确、及时的医疗信息。
SFT数据集
中文医疗
WanJuan-1.0


书生·万卷1.0是一个多模态语料库,包含文本、图文、视频数据集三部分。该语料库具有多元融合、精细处理、价值对齐、易用高效等特征,旨在提升模型的知识含量、逻辑推理和泛化能力。
预训练数据集
多模态语料库
WuDaoCorporaText


WuDaoCorpora是智源研究院构建的大规模、高质量数据集,用于支撑大模型训练研究,包含文本、对话等多种数据,注重隐私数据信息的去除。
预训练数据集
本文对话
MNBVC


面向自然语言处理相关任务,数据极为丰富,涵盖新闻、文学作品、网络帖子等各种形式的纯中文文本,取材广泛,皆收集自互联网。总数据量42915GB,数据格式包括txt、json、jsonl和parquet,最终将统一到jsonl和parquet格式,数据进行了粗加工,如html&xml转txt、csv&tsv转json等。
自然语言处理
纯中文文本