世界上首款真正开源GPT大语言模型大模型Dolly发布了

400-6464258

c716@139.com

…本网站正在建设中…

如有不便，请谅解

做调查找91调研!

世界上首款真正开源GPT大语言模型大模型Dolly发布了

来源:www.91diaoyan.com | 作者:91diaoyan | 发布时间: 1004天前 | 11713 次浏览 | 分享到:

Databricks最近发布了Dolly，这是类ChatGPT的大型语言模型（LLM）的最新版本这是业内真正的第一个开源、免费模型，允许出于任何目的使用、修改和扩展，包括学术或商业应用，无需支付API访问费用或与第三方共享数据。

Databricks最近发布了Dolly 2.0，这是类ChatGPT的指令遵循的人类交互式大型语言模型（LLM）的最新版本。该模型是业内真正的第一个开源、遵循指令的LLM。为了透明和免费，该模型使用了公开数据集进行微调训练，该数据集也是开源的，允许出于任何目的使用、修改和扩展，包括学术或商业应用，无需支付API访问费用或与第三方共享数据。

项目链接：https://huggingface.co/databricks/dolly-v2-12b

数据集：https://github.com/databrickslabs/dolly/tree/master/data

众所周知一些宣称开源的大模型，其实并不是真的开源。例如：OpenAI的ChatGPT在GPT-3语言模型已经走向封闭。Meta公开了羊驼系列模型，但由于数据集等原因，这些模型只限于学术研究应用。还有Alpaca、Koala、Vicuna等，他们在开放性上都受到了限制，因为它们使用了限制商业用途的数据集——例如来自Stanford Alpaca项目的5.2万个问答数据集，该数据集是OpenAI在训练ChatGPT时输出的，OpenAI添加了限制性使用条款“不能使用OpenAI的服务与其竞争”。

为规避这些限制且追求真开源的Databricks找到解决方案：Dolly 2.0是一个120亿参数的语言模型，基于开源EleutherAI pythia模型系列进行微调，专门针对小型开源指令记录语料库（databricks-dolly-15k）进行优化，该数据集由5000多名Databricks员工在2023年3月和4月期间生成的，包含超过1.5万条高质量的人类生成的提示/回复对，这些训练记录自然、富有表现力，旨在代表广泛的行为，从头脑风暴、内容生成到信息提取和总结。

上一篇：小米的大模型产品在极速赶路中

下一篇： 2023年福布斯AI50榜单（AI创业的机会在这里）

热点文章