admin管理员组

文章数量:1530085

NLP之LLMs:大型语言模型领域LLMs排位赛—最新各个模型的实时排名、在线测试网站集合之详细攻略(持续更新)

目录

相关文章

NLP之LLMs:Transformer的六大核心技术点(ED/SA/MHA/PE/FNN/RC-LN)、基于Transformer的1+2大划时代性模型(BERT模型/GPT模型)简介之详细攻略

LLMs:ChatGPT发展史—图灵测试→N-gram→Word2Vec→NPLM(BERT/GPT)→Seq2Seq→Attention→Transformer→GPT→ChatGPT→Prompt Engineering

LLMs领域最新模型的简介

1、大型语言模型领域最新各个模型的概览

2、LLMs排位赛—最新各个模型的实时排名

 HuggingFace排行榜:更新时间—2023年6月8日

lmsys排行榜:更新时间—2023年5月8日

LLMs各种维度对比

NLP之LLMs:《Zeno Chatbot Report》的翻译与解读—CMU副教授详细测评七款个类ChatGPT大模型

LLMs最新各个模型的性能在线测试对比

1、Lmsys


相关文章

NLP之LLMs:Transformer的六大核心技术点(ED/SA/MHA/PE/FNN/RC-LN)、基于Transformer的1+2大划时代性模型(BERT模型/GPT模型)简介之详细攻略

https://yunyaniu.blog.csdn/article/details/130652990

LLMs:ChatGPT发展史—图灵测试→N-gram→Word2Vec→NPLM(BERT/GPT)→Seq2Seq→Attention→Transformer→GPT→ChatGPT→Prompt Engineering

https://yunyaniu.blog.csdn/article/details/131261033

LLMs领域最新模型的简介

1、大型语言模型领域最新各个模型的概览

表格积累:

时间

参数量

时间硬件

机构

简介

GPT系列

GPT-4

2023年3月15日

未知

据说100万亿

未知未知OpenAI

GPT-4是OpenAI在扩展深度学习方面的最新里程碑。GPT-4是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实场景中不如人类,但在各种专业和学术基准上表现出人类水平的表现。

ChatGPT

2022年11月30日

未知一个月10000张A100

OpenAI

ChatGPT训练用了10000个A100,训练了一个月。训练一次ChatGPT需要花费450万美元。

GPT-31750亿参数一个月1024张A100-80GB显卡OpenAI

Claude-v1

2023年3月14日

Anthropic

Anthropic推出了新的AI助手系统Claude,它基于Anthropic开发的有助益、诚实和无害的AI训练系统。Claude支持聊天界面和API接口,能够处理广泛的对话和文本处理任务。

Vicuna

vicuna-13b

2023年3月30日

130亿参数

1天8张A100 GPU

LMSYS

中文名“羊驼”,基于ShareGPT生成的数据+LMSYS在LLaMA上细化调整

一个由LMSYS在用户共享对话上基于LLaMA(羊驼)进行微调而来的聊天助手。一个令GPT-4印象深刻的开源聊天机器人,具有90%的ChatGPT质量。

vicuna-13b,由LMSYS在用户共享对话上对LLaMA进行微调的聊天助手

(1)、8张A100 GPU,训练时间是一天,不到2000RMB。在LLaMA-7B上,140美元(training),而在LLaMA-13B上,300美元(training),不到2000RMB;

(2)、基于LLaMA13B(媲美GPT-3),网上网友选用的4090显卡,训练了10轮需要2天

ChatGLM

chatglm-6b

2023年3月14日

60亿参数

Tsinghua

由清华大学开发的开放双语对话语言模型

chatglm-6b 由清华大学开发的开放双语对话语言模型

Alpaca

Alpaca-13b

2023年3月14日

130亿参数

3个小时8张A100-80GB

Stanford

中文名“羊驼”,基于ChatGPT生成的数据+斯坦福大学在LLaMA-7B上细化调整。

 Alpaca=LLaMA 7B + GPT-3.5(text-davinci-003);

(1)、alpaca-13b,由斯坦福大学在LLaMA上进行细化调整的模型,用于遵循指令;

(2)、性能比肩GPT-3.5;仅用52k数据,在8张A100-80GB上训练了3个小时

(3)、关键是训练成本奇低,在LLaMA-7B上不到600美元=500美元(data)+100美元(training)。基于云计算供应商,训练花费大约100美元+使用OpenAI的API生成数据大约500美元;

LLaMA

LLaMA-13b

2023年2月25日

130亿参数

Meta

中文名”羊驼”,由Meta开发的开放高效基础语言模型

LLaMA-13b,由Meta开发的开放高效基础语言模型

备注
(1)、ShareGPT是一个分享ChatGPT对话的谷歌插件,目前拥有超过11万对话数量。

Falcon地址
UAE's Technology Innovation Institute Launches Open-Source "Falcon 40B" Large Language Model for Research & Commercial Utilization | Technology Innovation Institute

数据参考来源
Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org

2、LLMs排位赛—最新各个模型的实时排名

 HuggingFace排行榜:更新时间—2023年6月8日

 HuggingFace排行榜地址
Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4

📐 随着大量的大型语言模型(LLM)和聊天机器人每周不断发布,往往伴随着对它们性能的夸大宣称,很难过滤出开源社区取得的真正进展以及当前的最先进模型。🤗 开放式LLM排行榜旨在追踪、排名和评估发布的LLM和聊天机器人
🤗 这个排行榜的一个重要优势是,只要是在🤗模型库上具有权重的🤗转换器模型,社区的任何人都可以将其提交进行自动评估在🤗 GPU 集群上进行评估。我们还支持使用非商业许可模型(如LLaMa)进行具有增量权重的模型的评估。
📈 我们使用Eleuther AI Language Model Evaluation Harness的4个关键基准进行模型评估,这是一个统一的框架,用于在大量不同的评估任务上测试生成式语言模型:

  • >> AI2推理挑战(25-shot)- 一组适合小学生的科学问题。
  • >> HellaSwag(10-shot)- 一个常识推理测试,对人类来说很容易(约95%),但对于SOTA模型来说具有挑战性。
  • >> MMLU(5-shot)- 用于测量文本模型的多任务准确性的测试。该测试涵盖57个任务,包括初等数学、美国历史、计算机科学、法律等等。
  • >> TruthfulQA(0-shot)- 一个用于衡量语言模型在生成问题答案时是否真实的基准。

我们选择这些基准是因为它们在0-shot和few-shot设置中测试了各种推理和常识,并涵盖了广泛的领域的各种知识。

Model

Revision

Average 

ARC (25-shot) 

HellaSwag (10-shot) 

MMLU (5-shot) 

TruthfulQA (0-shot) 

tiiuae/falcon-40b-instruct

main

63.2

61.6

84.4

54.1

52.5

CalderaAI/30B-Lazarus

main

60.7

57.6

81.7

45.2

58.3

tiiuae/falcon-40b

main

60.4

61.9

85.3

52.7

41.7

ausboss/llama-30b-supercot

main

59.8

58.5

82.9

44.3

53.6

llama-65b

main

58.3

57.8

84.2

48.8

42.3

MetaIX/GPT4-X-Alpasta-30b

main

57.9

56.7

81.4

43.6

49.7

Aeala/VicUnlocked-alpaca-30b

main

57.6

55

80.8

44

50.4

digitous/Alpacino30b

main

57.4

57.1

82.6

46.1

43.8

Aeala/GPT4-x-AlpacaDente2-30b

main

57.2

56.1

79.8

44

49.1

TheBloke/dromedary-65b-lora-HF

main

57

57.8

80.8

50.8

38.8

TheBloke/Wizard-Vicuna-13B-Uncensored-HF

main

57

53.6

79.6

42.7

52

ausboss/Llama30B-SuperHOT

main

56.9

57.1

82.6

45.7

42.3

llama-30b

main

56.9

57.1

82.6

45.7

42.3

elinas/llama-30b-hf-transformers-4.29

main

56.9

57.1

82.6

45.7

42.3

cyl/awsome-llama

main

56.8

54.4

79.7

41.8

51.3

NousResearch/Nous-Hermes-13b

main

56.4

52.5

80

41.8

51.1

openaccess-ai-collective/wizard-mega-13b

main

55.7

52.5

78.6

41

50.6

openaccess-ai-collective/manticore-30b-chat-pyg-alpha

main

55.6

55.7

80.2

42.1

44.5

jondurbin/airoboros-13b

main

55.6

52.3

79.1

40.1

51.1

dvruette/llama-13b-pretrained-sft-epoch-2

main

54.6

53.2

79.5

41.7

43.9

junelee/wizard-vicuna-13b

main

54.4

50.2

77

40.4

49.8

project-baize/baize-v2-13b

main

53.8

50.3

77.1

39.4

48.3

TheBloke/vicuna-13B-1.1-HF

main

53.7

47.4

78

39.6

49.8

pillowtalks-ai/delta13b

main

53.7

47.4

78

39.6

49.8

chavinlo/gpt4-x-alpaca

main

53.6

47.8

77.7

39.1

49.7

eachadea/vicuna-13b

main

53.1

45.1

77.9

38.1

51.3

chavinlo/alpaca-13b

main

52.7

49.8

79.4

38.9

42.8

medalpaca/medalpaca-13b

main

52.6

48

78.6

37.2

46.8

stable-vicuna-13b

main

52.4

48.1

76.4

38.8

46.5

eachadea/vicuna-7b-1.1

main

52.2

47

75.2

37.5

48.9

medalpaca/medalpaca-7b

main

51.9

50.4

79

37.8

40.5

llama-13b

main

51.8

50.8

78.9

37.7

39.9

alpaca-13b

main

51.7

51.9

77.6

37.6

39.6

facebook/galactica-120b

main

51.2

46.8

66.4

50.4

41.3

xzuyn/MedicWizard-7B

main

51.2

49.1

76.4

37.9

41.3

jondurbin/airoboros-7b

main

50.8

48

75.6

36.3

43.3

AlekseyKorshuk/vicuna-7b

main

50.7

45.3

75.5

36.5

45.5

LLMs/AlpacaGPT4-7B-elina

main

50.6

48.8

76.6

35.9

41.2

TheBloke/wizardLM-7B-HF

main

50.1

44.7

73.4

36.9

45.4

wordcab/llama-natural-instructions-13b

main

49.7

48

77.1

36.1

37.7

chavinlo/alpaca-native

main

49.6

48.9

76.1

36.3

37.2

Neko-Institute-of-Science/metharme-7b

main

49.1

46.8

76

35.1

38.6

tiiuae/falcon-7b

main

48.8

47.9

78.1

35

34.3

mosaicml/mpt-7b

main

48.6

47.7

77.7

35.6

33.4

chainyo/alpaca-lora-7b

main

48.4

45.5

75.2

34.4

38.7

tiiuae/falcon-7b-instruct

main

48.4

45.9

70.8

32.8

44.1

facebook/opt-66b

main

47.6

46.7

76.2

32.3

35.3

llama-7b

main

47.6

46.6

75.6

34.2

34.1

shibing624/chinese-llama-plus-13b-hf

main

47.2

44.2

70.4

33

41.1

JosephusCheung/Guanaco

main

47.1

45.5

71.5

33.1

38.2

Salesforce/codegen-16B-nl

main

46.4

46.8

71.9

32.8

34

nomic-ai/gpt4all-j

main

46.2

41.2

64.5

33.3

45.6

EleutherAI/gpt-neox-20b

main

45.9

45.2

73.4

33.3

31.7

togethercomputer/RedPajama-INCITE-Base-7B-v0.1

main

45.7

44.4

71.3

34

33.2

OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5

main

45.6

45.6

68.5

30.6

37.8

h2oai/h2ogpt-gm-oasst1-en-1024-12b

main

45.4

43.2

69.7

30.7

38

digitous/Javelin-GPTJ

main

45.2

42.6

70.5

31.5

36.1

databricks/dolly-v2-12b

main

44.9

41.2

72.3

31.7

34.3

Pirr/pythia-13b-deduped-green_devil

main

44.6

42.6

68.8

31.6

35.5

databricks/dolly-v2-7b

main

44.4

43.7

69.3

30.2

34.5

EleutherAI/gpt-j-6b

main

44.3

41.4

67.6

32.3

36

digitous/Javalion-R

main

44.2

41.7

68.1

32.7

34.4

PygmalionAI/pygmalion-6b

dev

44

38.8

64.8

32

40.4

facebook/opt-13b

main

44

40.5

71.3

30.4

34

KoboldAI/OPT-13B-Nerybus-Mix

main

43.8

40.2

70.7

30.1

34.4

Fredithefish/ScarletPajama-3B-HF

main

43.2

39.8

65

30.5

37.6

amazon/LightGPT

main

42.9

39.9

63.8

31.2

36.7

togethercomputer/RedPajama-INCITE-Base-3B-v1

main

42.2

40.2

64.7

30.6

33.2

databricks/dolly-v2-3b

main

42.1

39.8

65.2

29.7

33.7

GeorgiaTechResearchInstitute/galactica-6.7b-evol-instruct-70k

main

42

42.6

49.3

34.1

42.1

openlm-research/open_llama_7b_700bt_preview

main

41.2

35

61.9

30.3

37.8

Writer/camel-5b-hf

main

41.1

35.2

57.6

30.8

40.7

PSanni/Deer-3b

main

40.8

38.4

57.6

27.2

40

NbAiLab/nb-gpt-j-6B-alpaca

main

40.4

36.9

57.5

29.3

38

openlm-research/open_llama_7b_400bt_preview

main

40

33.3

59.1

29.8

37.9

HuggingFaceH4/starchat-alpha

main

39.8

31.7

49.4

34.4

43.7

Salesforce/codegen-16B-multi

main

39.2

33.6

51.2

28.9

43.3

pythainlp/wangchanglm-7.5B-sft-en-sharded

main

38.9

34.3

59.9

27.6

33.9

pythainlp/wangchanglm-7.5B-sft-enth

main

38.9

33.8

59.1

28

34.6

openlm-research/open_llama_3b_350bt_preview

main

38.8

33.6

54.7

29.7

37.4

stabilityai/stablelm-tuned-alpha-7b

main

38.3

31.9

53.6

27.4

40.2

Writer/palmyra-base

main

38.3

32.1

55.5

28

37.6

aisquared/dlite-v2-1_5b

main

38

32.6

54

26.4

38.8

hakurei/lotus-12B

main

37.8

30.9

52.7

27.5

40.1

facebook/opt-1.3b

main

37.7

29.6

54.6

27.7

38.7

gpt2-xl

main

36.8

30.3

51.4

26.9

38.5

aisquared/dlite-v2-774m

main

35.9

30

47.7

25.9

40

Rachneet/gpt2-xl-alpaca

main

34.6

27

43.8

28.3

39.4

gpt2-large

main

34

25.9

45.6

25.6

38.7

gpt2-medium

main

33.8

27.2

40.2

27

40.7

cerebras/Cerebras-GPT-1.3B

main

33.4

26.1

38.5

26.2

42.7

xhyi/PT_GPTNEO350_ATG

main

33.2

25.5

37.6

26.6

43

aisquared/dlite-v1-355m

main

32.8

27.1

39.1

27.8

37.1

beomi/KoAlpaca-Polyglot-5.8B

main

32.3

27.6

35.6

26.3

39.7

victor123/WizardLM-13B-1.0

main

32.3

29.1

26.1

25.4

48.6

WizardLM/WizardLM-13B-1.0

main

32.3

29.1

26.1

25.4

48.6

IDEA-CCNL/Ziya-LLaMA-13B-Pretrain-v1

main

32.2

28.9

26.1

25.5

48.5

facebook/opt-350m

main

32.2

23.6

36.7

27.3

41

microsoft/CodeGPT-small-py

main

32

22.6

27.2

27.1

51.2

MBZUAI/lamini-neo-125m

main

31.6

24.7

30.2

28.9

42.8

concedo/OPT-19M-ChatSalad

main

31.6

24.7

25

25.6

51.3

SebastianSchramm/Cerebras-GPT-111M-instruction

main

31.6

24.3

26.2

26.5

49.5

Abe13/jgpt2-v1

main

31.2

23.4

30.4

28

42.8

microsoft/DialoGPT-large

main

31.2

23.5

25.8

25.2

50.3

facebook/opt-125m

main

31.2

23.1

31.5

27.4

42.9

anton-l/gpt-j-tiny-random

main

31.2

26.4

25.8

25

47.4

ai-forever/rugpt3large_based_on_gpt2

main

31.2

22.6

32.8

26.1

43.4

gpt2

main

30.4

21.9

31.6

27.5

40.7

roneneldan/TinyStories-28M

main

30.3

22.7

25.8

24.7

48.1

distilgpt2

main

30.2

22.2

27.5

26.8

44.5

cerebras/Cerebras-GPT-111M

main

29.9

20

26.7

26.7

46.3

abhiramtirumala/DialoGPT-sarcastic-medium

main

29.9

23.3

25.9

24.4

46

vicgalle/gpt2-alpaca-gpt4

main

29.8

22.7

31.1

27.3

38

Baseline

N/A

25

25

25

25

25

lmsys排行榜:更新时间—2023年5月8日

lmsys排行榜地址:https://chat.lmsys/

使用Elo评分系统来计算模型的相对性能。

Rank

Model

Elo Rating

Description

1

gpt-4

1274

ChatGPT-4 by OpenAI

2

claude-v1

1224

Claude by Anthropic

3

gpt-3.5-turbo

1155

ChatGPT-3.5 by OpenAI

4

vicuna-13b

1083

a chat assistant fine-tuned from LLaMA on user-shared conversations by LMSYS

5

koala-13b

1022

a dialogue model for academic research by BAIR

6

RWKV-4-Raven-14B

989

an RNN with transformer-level LLM performance

7

oasst-pythia-12b

928

an Open Assistant for everyone by LAION

8

chatglm-6b

918

an open bilingual dialogue language model by Tsinghua University

9

stablelm-tuned-alpha-7b

906

Stability AI language models

10

alpaca-13b

904

a model fine-tuned from LLaMA on instruction-following demonstrations by Stanford

11

fastchat-t5-3b

902

a chat assistant fine-tuned from FLAN-T5 by LMSYS

12

dolly-v2-12b

863

an instruction-tuned open large language model by Databricks

13

llama-13b

826

open and efficient foundation language models by Meta

LLMs各种维度对比

NLP之LLMs:《Zeno Chatbot Report》的翻译与解读—CMU副教授详细测评七款个类ChatGPT大模型

https://yunyaniu.blog.csdn/article/details/130863019

LLMs最新各个模型的性能在线测试对比

1、Lmsys

测试地址:https://chat.lmsys/

本文标签: 在线模型实时排位赛领域