admin管理员组文章数量:1530085
NLP之LLMs:大型语言模型领域LLMs排位赛—最新各个模型的实时排名、在线测试网站集合之详细攻略(持续更新)
目录
相关文章
NLP之LLMs:Transformer的六大核心技术点(ED/SA/MHA/PE/FNN/RC-LN)、基于Transformer的1+2大划时代性模型(BERT模型/GPT模型)简介之详细攻略
LLMs:ChatGPT发展史—图灵测试→N-gram→Word2Vec→NPLM(BERT/GPT)→Seq2Seq→Attention→Transformer→GPT→ChatGPT→Prompt Engineering
LLMs领域最新模型的简介
1、大型语言模型领域最新各个模型的概览
2、LLMs排位赛—最新各个模型的实时排名
HuggingFace排行榜:更新时间—2023年6月8日
lmsys排行榜:更新时间—2023年5月8日
LLMs各种维度对比
NLP之LLMs:《Zeno Chatbot Report》的翻译与解读—CMU副教授详细测评七款个类ChatGPT大模型
LLMs最新各个模型的性能在线测试对比
1、Lmsys
相关文章
NLP之LLMs:Transformer的六大核心技术点(ED/SA/MHA/PE/FNN/RC-LN)、基于Transformer的1+2大划时代性模型(BERT模型/GPT模型)简介之详细攻略
https://yunyaniu.blog.csdn/article/details/130652990
LLMs:ChatGPT发展史—图灵测试→N-gram→Word2Vec→NPLM(BERT/GPT)→Seq2Seq→Attention→Transformer→GPT→ChatGPT→Prompt Engineering
https://yunyaniu.blog.csdn/article/details/131261033
LLMs领域最新模型的简介
1、大型语言模型领域最新各个模型的概览
表格积累:
时间 | 参数量 | 时间 | 硬件 | 机构 | 简介 | |
GPT系列 | GPT-4 2023年3月15日 | 未知 据说100万亿 | 未知 | 未知 | OpenAI | GPT-4是OpenAI在扩展深度学习方面的最新里程碑。GPT-4是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实场景中不如人类,但在各种专业和学术基准上表现出人类水平的表现。 |
ChatGPT 2022年11月30日 | 未知 | 一个月 | 10000张A100 | OpenAI | ChatGPT训练用了10000个A100,训练了一个月。训练一次ChatGPT需要花费450万美元。 | |
GPT-3 | 1750亿参数 | 一个月 | 1024张A100-80GB显卡 | OpenAI | ||
Claude-v1 | 2023年3月14日 | Anthropic | Anthropic推出了新的AI助手系统Claude,它基于Anthropic开发的有助益、诚实和无害的AI训练系统。Claude支持聊天界面和API接口,能够处理广泛的对话和文本处理任务。 | |||
Vicuna vicuna-13b | 2023年3月30日 | 130亿参数 | 1天 | 8张A100 GPU | LMSYS | 中文名“小羊驼”,基于ShareGPT生成的数据+LMSYS在LLaMA上细化调整 一个由LMSYS在用户共享对话上基于LLaMA(大羊驼)进行微调而来的聊天助手。一个令GPT-4印象深刻的开源聊天机器人,具有90%的ChatGPT质量。 vicuna-13b,由LMSYS在用户共享对话上对LLaMA进行微调的聊天助手 (1)、8张A100 GPU,训练时间是一天,不到2000RMB。在LLaMA-7B上,140美元(training),而在LLaMA-13B上,300美元(training),不到2000RMB; (2)、基于LLaMA13B(媲美GPT-3),网上网友选用的4090显卡,训练了10轮需要2天; |
ChatGLM chatglm-6b | 2023年3月14日 | 60亿参数 | Tsinghua | 由清华大学开发的开放双语对话语言模型 chatglm-6b 由清华大学开发的开放双语对话语言模型 | ||
Alpaca Alpaca-13b | 2023年3月14日 | 130亿参数 | 3个小时 | 8张A100-80GB | Stanford | 中文名“羊驼”,基于ChatGPT生成的数据+斯坦福大学在LLaMA-7B上细化调整。 Alpaca=LLaMA 7B + GPT-3.5(text-davinci-003); (1)、alpaca-13b,由斯坦福大学在LLaMA上进行细化调整的模型,用于遵循指令; (2)、性能比肩GPT-3.5;仅用52k数据,在8张A100-80GB上训练了3个小时; (3)、关键是训练成本奇低,在LLaMA-7B上不到600美元=500美元(data)+100美元(training)。基于云计算供应商,训练花费大约100美元+使用OpenAI的API生成数据大约500美元; |
LLaMA LLaMA-13b | 2023年2月25日 | 130亿参数 | Meta | 中文名”大羊驼”,由Meta开发的开放高效基础语言模型 LLaMA-13b,由Meta开发的开放高效基础语言模型 |
备注
(1)、ShareGPT是一个分享ChatGPT对话的谷歌插件,目前拥有超过11万对话数量。
Falcon地址:
UAE's Technology Innovation Institute Launches Open-Source "Falcon 40B" Large Language Model for Research & Commercial Utilization | Technology Innovation Institute
数据参考来源:
Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org
2、LLMs排位赛—最新各个模型的实时排名
HuggingFace排行榜:更新时间—2023年6月8日
HuggingFace排行榜地址:
Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4
📐 随着大量的大型语言模型(LLM)和聊天机器人每周不断发布,往往伴随着对它们性能的夸大宣称,很难过滤出开源社区取得的真正进展以及当前的最先进模型。🤗 开放式LLM排行榜旨在追踪、排名和评估发布的LLM和聊天机器人。
🤗 这个排行榜的一个重要优势是,只要是在🤗模型库上具有权重的🤗转换器模型,社区的任何人都可以将其提交进行自动评估在🤗 GPU 集群上进行评估。我们还支持使用非商业许可模型(如LLaMa)进行具有增量权重的模型的评估。
📈 我们使用Eleuther AI Language Model Evaluation Harness的4个关键基准进行模型评估,这是一个统一的框架,用于在大量不同的评估任务上测试生成式语言模型:
- >> AI2推理挑战(25-shot)- 一组适合小学生的科学问题。
- >> HellaSwag(10-shot)- 一个常识推理测试,对人类来说很容易(约95%),但对于SOTA模型来说具有挑战性。
- >> MMLU(5-shot)- 用于测量文本模型的多任务准确性的测试。该测试涵盖57个任务,包括初等数学、美国历史、计算机科学、法律等等。
- >> TruthfulQA(0-shot)- 一个用于衡量语言模型在生成问题答案时是否真实的基准。
我们选择这些基准是因为它们在0-shot和few-shot设置中测试了各种推理和常识,并涵盖了广泛的领域的各种知识。
Model | Revision | Average | ARC (25-shot) | HellaSwag (10-shot) | MMLU (5-shot) | TruthfulQA (0-shot) |
---|---|---|---|---|---|---|
tiiuae/falcon-40b-instruct | main | 63.2 | 61.6 | 84.4 | 54.1 | 52.5 |
CalderaAI/30B-Lazarus | main | 60.7 | 57.6 | 81.7 | 45.2 | 58.3 |
tiiuae/falcon-40b | main | 60.4 | 61.9 | 85.3 | 52.7 | 41.7 |
ausboss/llama-30b-supercot | main | 59.8 | 58.5 | 82.9 | 44.3 | 53.6 |
llama-65b | main | 58.3 | 57.8 | 84.2 | 48.8 | 42.3 |
MetaIX/GPT4-X-Alpasta-30b | main | 57.9 | 56.7 | 81.4 | 43.6 | 49.7 |
Aeala/VicUnlocked-alpaca-30b | main | 57.6 | 55 | 80.8 | 44 | 50.4 |
digitous/Alpacino30b | main | 57.4 | 57.1 | 82.6 | 46.1 | 43.8 |
Aeala/GPT4-x-AlpacaDente2-30b | main | 57.2 | 56.1 | 79.8 | 44 | 49.1 |
TheBloke/dromedary-65b-lora-HF | main | 57 | 57.8 | 80.8 | 50.8 | 38.8 |
TheBloke/Wizard-Vicuna-13B-Uncensored-HF | main | 57 | 53.6 | 79.6 | 42.7 | 52 |
ausboss/Llama30B-SuperHOT | main | 56.9 | 57.1 | 82.6 | 45.7 | 42.3 |
llama-30b | main | 56.9 | 57.1 | 82.6 | 45.7 | 42.3 |
elinas/llama-30b-hf-transformers-4.29 | main | 56.9 | 57.1 | 82.6 | 45.7 | 42.3 |
cyl/awsome-llama | main | 56.8 | 54.4 | 79.7 | 41.8 | 51.3 |
NousResearch/Nous-Hermes-13b | main | 56.4 | 52.5 | 80 | 41.8 | 51.1 |
openaccess-ai-collective/wizard-mega-13b | main | 55.7 | 52.5 | 78.6 | 41 | 50.6 |
openaccess-ai-collective/manticore-30b-chat-pyg-alpha | main | 55.6 | 55.7 | 80.2 | 42.1 | 44.5 |
jondurbin/airoboros-13b | main | 55.6 | 52.3 | 79.1 | 40.1 | 51.1 |
dvruette/llama-13b-pretrained-sft-epoch-2 | main | 54.6 | 53.2 | 79.5 | 41.7 | 43.9 |
junelee/wizard-vicuna-13b | main | 54.4 | 50.2 | 77 | 40.4 | 49.8 |
project-baize/baize-v2-13b | main | 53.8 | 50.3 | 77.1 | 39.4 | 48.3 |
TheBloke/vicuna-13B-1.1-HF | main | 53.7 | 47.4 | 78 | 39.6 | 49.8 |
pillowtalks-ai/delta13b | main | 53.7 | 47.4 | 78 | 39.6 | 49.8 |
chavinlo/gpt4-x-alpaca | main | 53.6 | 47.8 | 77.7 | 39.1 | 49.7 |
eachadea/vicuna-13b | main | 53.1 | 45.1 | 77.9 | 38.1 | 51.3 |
chavinlo/alpaca-13b | main | 52.7 | 49.8 | 79.4 | 38.9 | 42.8 |
medalpaca/medalpaca-13b | main | 52.6 | 48 | 78.6 | 37.2 | 46.8 |
stable-vicuna-13b | main | 52.4 | 48.1 | 76.4 | 38.8 | 46.5 |
eachadea/vicuna-7b-1.1 | main | 52.2 | 47 | 75.2 | 37.5 | 48.9 |
medalpaca/medalpaca-7b | main | 51.9 | 50.4 | 79 | 37.8 | 40.5 |
llama-13b | main | 51.8 | 50.8 | 78.9 | 37.7 | 39.9 |
alpaca-13b | main | 51.7 | 51.9 | 77.6 | 37.6 | 39.6 |
facebook/galactica-120b | main | 51.2 | 46.8 | 66.4 | 50.4 | 41.3 |
xzuyn/MedicWizard-7B | main | 51.2 | 49.1 | 76.4 | 37.9 | 41.3 |
jondurbin/airoboros-7b | main | 50.8 | 48 | 75.6 | 36.3 | 43.3 |
AlekseyKorshuk/vicuna-7b | main | 50.7 | 45.3 | 75.5 | 36.5 | 45.5 |
LLMs/AlpacaGPT4-7B-elina | main | 50.6 | 48.8 | 76.6 | 35.9 | 41.2 |
TheBloke/wizardLM-7B-HF | main | 50.1 | 44.7 | 73.4 | 36.9 | 45.4 |
wordcab/llama-natural-instructions-13b | main | 49.7 | 48 | 77.1 | 36.1 | 37.7 |
chavinlo/alpaca-native | main | 49.6 | 48.9 | 76.1 | 36.3 | 37.2 |
Neko-Institute-of-Science/metharme-7b | main | 49.1 | 46.8 | 76 | 35.1 | 38.6 |
tiiuae/falcon-7b | main | 48.8 | 47.9 | 78.1 | 35 | 34.3 |
mosaicml/mpt-7b | main | 48.6 | 47.7 | 77.7 | 35.6 | 33.4 |
chainyo/alpaca-lora-7b | main | 48.4 | 45.5 | 75.2 | 34.4 | 38.7 |
tiiuae/falcon-7b-instruct | main | 48.4 | 45.9 | 70.8 | 32.8 | 44.1 |
facebook/opt-66b | main | 47.6 | 46.7 | 76.2 | 32.3 | 35.3 |
llama-7b | main | 47.6 | 46.6 | 75.6 | 34.2 | 34.1 |
shibing624/chinese-llama-plus-13b-hf | main | 47.2 | 44.2 | 70.4 | 33 | 41.1 |
JosephusCheung/Guanaco | main | 47.1 | 45.5 | 71.5 | 33.1 | 38.2 |
Salesforce/codegen-16B-nl | main | 46.4 | 46.8 | 71.9 | 32.8 | 34 |
nomic-ai/gpt4all-j | main | 46.2 | 41.2 | 64.5 | 33.3 | 45.6 |
EleutherAI/gpt-neox-20b | main | 45.9 | 45.2 | 73.4 | 33.3 | 31.7 |
togethercomputer/RedPajama-INCITE-Base-7B-v0.1 | main | 45.7 | 44.4 | 71.3 | 34 | 33.2 |
OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5 | main | 45.6 | 45.6 | 68.5 | 30.6 | 37.8 |
h2oai/h2ogpt-gm-oasst1-en-1024-12b | main | 45.4 | 43.2 | 69.7 | 30.7 | 38 |
digitous/Javelin-GPTJ | main | 45.2 | 42.6 | 70.5 | 31.5 | 36.1 |
databricks/dolly-v2-12b | main | 44.9 | 41.2 | 72.3 | 31.7 | 34.3 |
Pirr/pythia-13b-deduped-green_devil | main | 44.6 | 42.6 | 68.8 | 31.6 | 35.5 |
databricks/dolly-v2-7b | main | 44.4 | 43.7 | 69.3 | 30.2 | 34.5 |
EleutherAI/gpt-j-6b | main | 44.3 | 41.4 | 67.6 | 32.3 | 36 |
digitous/Javalion-R | main | 44.2 | 41.7 | 68.1 | 32.7 | 34.4 |
PygmalionAI/pygmalion-6b | dev | 44 | 38.8 | 64.8 | 32 | 40.4 |
facebook/opt-13b | main | 44 | 40.5 | 71.3 | 30.4 | 34 |
KoboldAI/OPT-13B-Nerybus-Mix | main | 43.8 | 40.2 | 70.7 | 30.1 | 34.4 |
Fredithefish/ScarletPajama-3B-HF | main | 43.2 | 39.8 | 65 | 30.5 | 37.6 |
amazon/LightGPT | main | 42.9 | 39.9 | 63.8 | 31.2 | 36.7 |
togethercomputer/RedPajama-INCITE-Base-3B-v1 | main | 42.2 | 40.2 | 64.7 | 30.6 | 33.2 |
databricks/dolly-v2-3b | main | 42.1 | 39.8 | 65.2 | 29.7 | 33.7 |
GeorgiaTechResearchInstitute/galactica-6.7b-evol-instruct-70k | main | 42 | 42.6 | 49.3 | 34.1 | 42.1 |
openlm-research/open_llama_7b_700bt_preview | main | 41.2 | 35 | 61.9 | 30.3 | 37.8 |
Writer/camel-5b-hf | main | 41.1 | 35.2 | 57.6 | 30.8 | 40.7 |
PSanni/Deer-3b | main | 40.8 | 38.4 | 57.6 | 27.2 | 40 |
NbAiLab/nb-gpt-j-6B-alpaca | main | 40.4 | 36.9 | 57.5 | 29.3 | 38 |
openlm-research/open_llama_7b_400bt_preview | main | 40 | 33.3 | 59.1 | 29.8 | 37.9 |
HuggingFaceH4/starchat-alpha | main | 39.8 | 31.7 | 49.4 | 34.4 | 43.7 |
Salesforce/codegen-16B-multi | main | 39.2 | 33.6 | 51.2 | 28.9 | 43.3 |
pythainlp/wangchanglm-7.5B-sft-en-sharded | main | 38.9 | 34.3 | 59.9 | 27.6 | 33.9 |
pythainlp/wangchanglm-7.5B-sft-enth | main | 38.9 | 33.8 | 59.1 | 28 | 34.6 |
openlm-research/open_llama_3b_350bt_preview | main | 38.8 | 33.6 | 54.7 | 29.7 | 37.4 |
stabilityai/stablelm-tuned-alpha-7b | main | 38.3 | 31.9 | 53.6 | 27.4 | 40.2 |
Writer/palmyra-base | main | 38.3 | 32.1 | 55.5 | 28 | 37.6 |
aisquared/dlite-v2-1_5b | main | 38 | 32.6 | 54 | 26.4 | 38.8 |
hakurei/lotus-12B | main | 37.8 | 30.9 | 52.7 | 27.5 | 40.1 |
facebook/opt-1.3b | main | 37.7 | 29.6 | 54.6 | 27.7 | 38.7 |
gpt2-xl | main | 36.8 | 30.3 | 51.4 | 26.9 | 38.5 |
aisquared/dlite-v2-774m | main | 35.9 | 30 | 47.7 | 25.9 | 40 |
Rachneet/gpt2-xl-alpaca | main | 34.6 | 27 | 43.8 | 28.3 | 39.4 |
gpt2-large | main | 34 | 25.9 | 45.6 | 25.6 | 38.7 |
gpt2-medium | main | 33.8 | 27.2 | 40.2 | 27 | 40.7 |
cerebras/Cerebras-GPT-1.3B | main | 33.4 | 26.1 | 38.5 | 26.2 | 42.7 |
xhyi/PT_GPTNEO350_ATG | main | 33.2 | 25.5 | 37.6 | 26.6 | 43 |
aisquared/dlite-v1-355m | main | 32.8 | 27.1 | 39.1 | 27.8 | 37.1 |
beomi/KoAlpaca-Polyglot-5.8B | main | 32.3 | 27.6 | 35.6 | 26.3 | 39.7 |
victor123/WizardLM-13B-1.0 | main | 32.3 | 29.1 | 26.1 | 25.4 | 48.6 |
WizardLM/WizardLM-13B-1.0 | main | 32.3 | 29.1 | 26.1 | 25.4 | 48.6 |
IDEA-CCNL/Ziya-LLaMA-13B-Pretrain-v1 | main | 32.2 | 28.9 | 26.1 | 25.5 | 48.5 |
facebook/opt-350m | main | 32.2 | 23.6 | 36.7 | 27.3 | 41 |
microsoft/CodeGPT-small-py | main | 32 | 22.6 | 27.2 | 27.1 | 51.2 |
MBZUAI/lamini-neo-125m | main | 31.6 | 24.7 | 30.2 | 28.9 | 42.8 |
concedo/OPT-19M-ChatSalad | main | 31.6 | 24.7 | 25 | 25.6 | 51.3 |
SebastianSchramm/Cerebras-GPT-111M-instruction | main | 31.6 | 24.3 | 26.2 | 26.5 | 49.5 |
Abe13/jgpt2-v1 | main | 31.2 | 23.4 | 30.4 | 28 | 42.8 |
microsoft/DialoGPT-large | main | 31.2 | 23.5 | 25.8 | 25.2 | 50.3 |
facebook/opt-125m | main | 31.2 | 23.1 | 31.5 | 27.4 | 42.9 |
anton-l/gpt-j-tiny-random | main | 31.2 | 26.4 | 25.8 | 25 | 47.4 |
ai-forever/rugpt3large_based_on_gpt2 | main | 31.2 | 22.6 | 32.8 | 26.1 | 43.4 |
gpt2 | main | 30.4 | 21.9 | 31.6 | 27.5 | 40.7 |
roneneldan/TinyStories-28M | main | 30.3 | 22.7 | 25.8 | 24.7 | 48.1 |
distilgpt2 | main | 30.2 | 22.2 | 27.5 | 26.8 | 44.5 |
cerebras/Cerebras-GPT-111M | main | 29.9 | 20 | 26.7 | 26.7 | 46.3 |
abhiramtirumala/DialoGPT-sarcastic-medium | main | 29.9 | 23.3 | 25.9 | 24.4 | 46 |
vicgalle/gpt2-alpaca-gpt4 | main | 29.8 | 22.7 | 31.1 | 27.3 | 38 |
Baseline | N/A | 25 | 25 | 25 | 25 | 25 |
lmsys排行榜:更新时间—2023年5月8日
lmsys排行榜地址:https://chat.lmsys/
使用Elo评分系统来计算模型的相对性能。
Rank | Model | Elo Rating | Description |
1 | gpt-4 | 1274 | ChatGPT-4 by OpenAI |
2 | claude-v1 | 1224 | Claude by Anthropic |
3 | gpt-3.5-turbo | 1155 | ChatGPT-3.5 by OpenAI |
4 | vicuna-13b | 1083 | a chat assistant fine-tuned from LLaMA on user-shared conversations by LMSYS |
5 | koala-13b | 1022 | a dialogue model for academic research by BAIR |
6 | RWKV-4-Raven-14B | 989 | an RNN with transformer-level LLM performance |
7 | oasst-pythia-12b | 928 | an Open Assistant for everyone by LAION |
8 | chatglm-6b | 918 | an open bilingual dialogue language model by Tsinghua University |
9 | stablelm-tuned-alpha-7b | 906 | Stability AI language models |
10 | alpaca-13b | 904 | a model fine-tuned from LLaMA on instruction-following demonstrations by Stanford |
11 | fastchat-t5-3b | 902 | a chat assistant fine-tuned from FLAN-T5 by LMSYS |
12 | dolly-v2-12b | 863 | an instruction-tuned open large language model by Databricks |
13 | llama-13b | 826 | open and efficient foundation language models by Meta |
LLMs各种维度对比
NLP之LLMs:《Zeno Chatbot Report》的翻译与解读—CMU副教授详细测评七款个类ChatGPT大模型
https://yunyaniu.blog.csdn/article/details/130863019
LLMs最新各个模型的性能在线测试对比
1、Lmsys
测试地址:https://chat.lmsys/
版权声明:本文标题:NLP之LLMs:大型语言模型领域LLMs排位赛—最新各个模型的实时排名、在线测试网站集合之详细攻略(持续更新) 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/xitong/1726171659a1058680.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论