admin管理员组

文章数量:1530034

诸神缄默不语-个人CSDN博文目录

因为比赛过程正好和我毕业答辩的时间段高度重合,所以我……最后其实还是相当于没有成功参赛。
呃反正现在已经咕咕咕了,就把当时写了一半(一小半)的参赛指南发一下吧。

官网:AIcrowd | Meta Comprehensive RAG Benchmark: KDD Cup 2024 | Challenges

注册一个AIcrowd账号就可以参赛,参赛后可以组队。现在(2024.5.21)已经进入Round 1b阶段了,在Round 1阶段有有效提交的队伍就可以进入Round 2阶段。

每周限制提交10次(每个任务)。

一共是3个任务,任务一是提供5个离线网站做RAG,任务二在任务一的基础上增加了一个KG API,任务三在任务二的基础上将离线网站提升为50个。
数据奇难无比。

官方baseline:https://gitlab.aicrowd/aicrowd/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024/meta-comphrehensive-rag-benchmark-starter-kit/-/blob/master/docs/baselines.md

如何开始提交:

  1. fork https://gitlab.aicrowd/aicrowd/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024/meta-comphrehensive-rag-benchmark-starter-kit
  2. 将forked repo克隆到本地,开始开发
    1. 添加SSH key到AIcrowd GitLab:https://gitlab.aicrowd/-/profile/keys
    2. 克隆:
      git clone git@gitlab.aicrowd:<YOUR-AICROWD-USERNAME>/meta-comphrehensive-rag-benchmark-starter-kit.git
      cd meta-comphrehensive-rag-benchmark-starter-kit
      

我的策略基本上就是用LLaMA3-7B了,主要因为80B那个版本没法微调,其次也因为我队友已经下好了8B的weights所以我直接用就行。

1. 任务一

https://www.aicrowd/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024/problems/meta-kdd-cup-24-crag-retrieval-summarization

baseline:DummyModel 全部输出“我不知道”

得分:{‘score’: 0.0, ‘exact_accuracy’: 0.0, ‘accuracy’: 0.0, ‘hallucination’: 0.0, ‘missing’: 1.0, ‘n_miss’: 10, ‘n_correct’: 0, ‘n_correct_exact’: 0, ‘total’: 10}

baseline:vanilla LLaMA3直接输出问题的答案

得分:{‘score’: -0.4, ‘exact_accuracy’: 0.0, ‘accuracy’: 0.2, ‘hallucination’: 0.6, ‘missing’: 0.2, ‘n_miss’: 2, ‘n_correct’: 2, ‘n_correct_exact’: 0, ‘total’: 10}

本文标签: 写了跑去正式指南论文