python通过调用OPENAI API(ChatGPT)快速提取参考文献的标题信息|电子爱好者

admin管理员组
文章数量:1530031

1.假定我们现在有一个参考文献列表，该如何从这些参考文献中快速提取参考文献的论文标题呢？

一开始，我想通过正则表达式的方法从参考文献中提取标题信息，例如：

1.对于中文参考文献，可以遍历每一个字符，从出现一个“.”开始，到出现下一个“."或者“[”符号结束，则中间的内容为该参考文献的标题，代码如下：

# 判断是否为中文参考文献或英文参考文献
                for char in f:
                    if '\u4e00' <= char <= '\u9fff':  # 中文字符范围
                        # 提取第一个 . 号后的部分
                        part = f.split('.', 1)[1]
                        # 提取标题，直到出现 [ 符号或者 . 符号
                        title = re.split(r'\[|\.', part)[0].strip()
                        break

2.对于英文标题，一开始想的是遍历该条参考文献的字符，找到三个连续的英文单词，如果存在，则从找到的第一个单词开始向左直到遇到 `.` 或 `]`，向右直到遇到 `.` 或 `[` 结束。

  elif 'A' <= char <= 'Z' or 'a' <= char <= 'z':  # 英文字母范围
                        words_and_symbols = re.findall(r'\b\w+\b|\S', f)
                        print(words_and_symbols)
                        title = 'Null'
                        for i in range(len(words_and_symbols) - 2):
                            if (re.match(r'[a-z]', words_and_symbols[i]) and
                                    re.match(r'[a-z]', words_and_symbols[i + 1]) and
                                    re.match(r'[a-z]', words_and_symbols[i + 2])):
                                # 从找到的第一个单词开始向左直到遇到 `.` 或 `]`，向右直到遇到 `.` 或 `[`
                                start_idx = i
                                while start_idx > 0 and words_and_symbols[start_idx - 1] not in ['.', ']']:
                                    start_idx -= 1
                                end_idx = i + 3
                                while end_idx < len(words_and_symbols) and words_and_symbols[end_idx] not in ['.', '[']:
                                    end_idx += 1
                                title = ' '.join(words_and_symbols[start_idx:end_idx]).strip()
                                break

奈何英文参考文献的格式千奇百怪，例如有的作者名字可能是4个英文单词组成，而有的标题可能只有三个连续的英文单词组成，就会导致标题被错误提取，想了两天也没有想到比较完美的判断方法。

2.通过chatgpt获取参考文献的标题

将参考文献列表输入到chatgpt中，并让他提取文献标题，它能够快速、准确的帮我提取参考文献的信息。

于是，我通过调用api的方法，实现了参考文献的信息提取，参考代码如下：

import csv
import json
import re
import requests
import pandas as pd

API_KEY = "你的openai key"
API_URL = "你的api网址"



def extract_title_from_references(references_content, prompt):
    """
    使用 OpenAI API 提取参考文献中的信息。
    """
    headers = {
        "Content-Type": "application/json",
        "Authorization": f"Bearer {API_KEY}"
    }

    data = {
        "model": "gpt-4o-mini-2024-07-18",
        "messages": [
            {"role": "system", "content": "你是一个可以提取文献信息的助手。"},
            {"role": "user", "content": prompt + references_content}
        ],
        "max_tokens": 2000,
        "temperature": 0.5
    }

    response = requests.post(f"{API_URL}/chat/completions", headers=headers, data=json.dumps(data))
    response_json = response.json()
    info = response_json['choices'][0]['message']['content'].strip().split('\n')
    return info


def GetInfo(references_content):
    """
    提取参考文献中的标题、DOI 和 arXiv 信息，并判断文献类型。
    """
    # 将 references_content 拆分为每组 60 行
    lines = references_content.split('\n')
    grouped_content = ['\n'.join(lines[i:i+60]) for i in range(0, len(lines), 60)]

    all_titles = []
    for group in grouped_content:
        title_prompt = "请你帮我将每一个参考文献的标题提取出来，注意，输出结果只要参考文献的标题，如果找不到标题，输出NULL，每个输出结果占一行\n"
        titles = extract_title_from_references(group, title_prompt)
        all_titles.extend(titles)

    # 清除标题前后的空白字符串
    all_titles = [title.strip() for title in all_titles]

    doilist = []
    arxivlist = []

    for f in references_content.split('\n'):
        # DOI
        try:
            if 'doi' in f:
                DOI = f.split('org/')[1].strip()
            elif 'doi:' in f:
                DOI = f.split('doi:')[1].strip()
            else:
                DOI = 'Null'
        except:
            DOI = 'Null'
        doilist.append(DOI)

        # arXiv
        try:
            if 'arXiv' in f:
                arxiv_match = re.search(r'arXiv.*?(\d{4}\.\d{5})', f)
                if arxiv_match:
                    arxiv = arxiv_match.group(1).strip()
                else:
                    arxiv = 'Null'
            else:
                arxiv = 'Null'
        except:
            arxiv = 'Null'
        arxivlist.append(arxiv)

    # Debugging output
    print(f"Total titles: {len(all_titles)}")
    print(f"Total DOIs: {len(doilist)}")
    print(f"Total arXiv IDs: {len(arxivlist)}")

    # 判断文献类型
    typelist = []
    for title in all_titles:
        if re.search(r'[\u4e00-\u9fff]', title):
            typelist.append('中文文献')
        else:
            typelist.append('英文文献')

    refdata = {
        'Title': all_titles,
        'DOI': doilist,
        'arXiv': arxivlist,
        'Type': typelist
    }
    refdata = pd.DataFrame(refdata)
    return refdata

通过这种方式，能够高效的提取参考文献的信息，我还提取了参考文献的doi/arxiv号，当然这部分可以通过表达式去获取。

本代码采用pt-4o-mini-2024-07-18模型，api价格是openai开发的api中价格最低的，经过测试，提取300条参考文献消耗约0.06美元的额度，精度在98%以上，除了一些特别特殊的参考文献除外。例如：

或许通过增强prompt可以进一步提高识别率。

识别完每条参考文献之后，我们就可以通过爬取百度学术，获取每条参考文献的doi号，在scihub中进行批量下载。（开发中）

本文标签：参考文献快速标题信息 openAI

版权声明：本文标题：python通过调用OPENAI API(ChatGPT)快速提取参考文献的标题信息内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726698342a1081329.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

uniapp 小程序接入腾讯云实时音视频通话踩坑快速集成(uni-app)tuicalling组件实时音视频bug

2天前

去官方下载demo tuicalling-miniprogram 按照官方 npm install 不可行需要手动npm install js-xx-wx 大概就是这名字配置好id和秘钥一直提示登录两个账号的时候进行通信一直报

计算机软件系统崩溃,系统崩溃了怎么办如何快速还原崩溃的系统【步骤方法】...

2天前

系统崩溃了怎么办? 如今的软件是越来越复杂、越来越庞大。由系统本身造成的崩溃即使是最简单的操作，比如关闭系统或者是对BIOS进行升级都可能会对PC合操作系统造成一定的影响。如果仔细研究的话就会发现软件才是真凶。那么&

「干货」Web安全红队外围信息收集「详细总结」

2天前

也许每个人出生的时候都以为这世界都是为他一个人而存在的，当他发现自己错的时候，他便开始长大少走了弯路，也就错过了风景，无论如何&#xff

latex 1图加标题_LaTeX的下载与安装教程

2天前

LaTeX软件有很多，小编在此推荐的是使用者非常多的正版免费软件，软件包括两部分：引擎和编辑器，小编推荐的引擎为TexLive，编

快速成为短视频达人：四大热门视频剪辑软件盘点！

2天前

在这个短视频风靡的时代，越来越多的人开始尝试制作属于自己的短视频。想要在众多作品中脱颖而出，一款好用的视频剪辑软件至关重要。今天，就为大家推荐几款热门的视频剪辑工具&

视频剪辑可以赚钱吗快速学会视频剪辑的方法

2天前

由于视频剪辑的需求不断增长，学会视频剪辑成为一项自媒体必备的技能，这个技能可以为个人带来收入和职业发展带来机会。无论是作为自由职业者还是在公司工作，掌握视频剪辑技能都可以为你

本地html如何封装成app,新手适用：如何把网页快速封装成APP

1天前

原标题：新手适用：如何把网页快速封装成APP 最近有小伙伴找到小微：小微呀，我们家有个网站，但是我们没有APP&#xff0

add contact层对比_第四十九篇 -- 添加联系人信息Addcontact

1天前

packagecom.aimee.android.play.addcontact;importandroid.Manifest;importandroid.content.ContentResolver;importandroid.cont

用ChatGPT快速生成高质量SEO内容的技巧

1天前

随着科技的快速进步，每一次技术更新都给我们带来了许多惊喜。那么，当我们把ChatGPT和搜索引擎优化（SEO）结合起来，会有什么样

试试让ChatGPT 4.0告诉我们Fluent如何快速入门？

1天前

又快到了新的一学期了，可能有一些研0的同学已经提前进入课题组了，如果做流体相关的内容，初次接触Fluent，应该怎么学习呢？ Ch

和OpenAI ChatGPT不相上下的AI聊天机器人

1天前

和OpenAI ChatGPT不相上下的AI聊天机器人：OpenAssistant. 模型可在huggingface.co上找到: https:huggingface.coOpenAssistantoass

信息收集-邮箱信息

18小时前

目录一、查找邮件服务器 1.1：命令查询 1.2：谷歌语法查询 1.3：子域名查询 1.4：网站查询二、邮件服务器常见子域名三、邮箱账

xxljob默认登录_XXL-JOB快速入门

18小时前

概述 XXL-JOB是一个轻量级分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线，开箱即用。官方地址中文版：http:www.xuxuelixxl-job 目前已有多家公

web入门——ctfshow（3-20）（信息搜集）

18小时前

目录 web3 web4 web5 web6 web7 web8 web9 web10 web11 web12 web13 web14 web15 web16 web17 web18 web19 web20 感

win10-cmd查看硬盘接口信息

16小时前

cmd查看硬盘接口信息 cmd打开输入diskprt 进入DiskPart界面 DiskPart输入list disk 输入select disk 0 输入 detail disk 补充： Dis

Win10：将打开文件管理器快速访问改为我的电脑

15小时前

windows 10版本下用户打开文件资源管理器默认显示的是快速访问界面，而不是熟悉的我的电脑界面新入手一台电脑，又忘记怎么改了！... 好的，挨

自己动手制作路由器固件之快速开始

12小时前

如今市面上一两百元的双频（2.4G和5G，802.11ac）智能路由，几乎全部都是联发科的MT7620（2.4G交换机&#

修复win10出现蓝底白字的方法（Windows10蓝屏的快速解决方案）

10小时前

修复win10出现蓝底白字的方法修复win10出现蓝底白字的方法1. 引言：Windows 10蓝屏概述2. 蓝屏原因分析2.1 硬件故障导致蓝屏2.2 软件问题引发蓝屏 3. 常见蓝屏错误代码解析4. 快速解决方案

通过Tensorflow-DirectML 快速启用 AMD及NVIDIA GPU 加速

4小时前

系列文章目录第一章 Tensorflow 机器学习入门之环境搭建及图片训练与识别文章目录目录前言一、本文目的是什么？ 二、使用步骤 1.安装微软 Tensorflow-DirecTML支持 2.Python

使用C语言快速制作一个视频播放器

1小时前

一、FFmpeg 概念 FFmpeg 的视音频编解码功能非常强大，几乎囊括了现存所有的视音频编码标准，因此只要做视音频开发，几乎离不开它。例如，它可

电子爱好者 - 最新技术资讯及电子产品介绍！

python通过调用OPENAI API(ChatGPT)快速提取参考文献的标题信息

1.假定我们现在有一个参考文献列表，该如何从这些参考文献中快速提取参考文献的论文标题呢？

2.通过chatgpt获取参考文献的标题

更多相关文章

uniapp 小程序接入腾讯云实时音视频通话踩坑 快速集成(uni-app)tuicalling组件实时音视频bug

计算机软件系统崩溃,系统崩溃了怎么办 如何快速还原崩溃的系统【步骤方法】...

「干货」Web安全红队外围信息收集「详细总结」

latex 1图加标题_LaTeX的下载与安装教程

快速成为短视频达人：四大热门视频剪辑软件盘点！

视频剪辑可以赚钱吗 快速学会视频剪辑的方法

本地html如何封装成app,新手适用：如何把网页快速封装成APP

add contact层对比_第四十九篇 -- 添加联系人信息Addcontact

用ChatGPT快速生成高质量SEO内容的技巧

试试让ChatGPT 4.0告诉我们Fluent如何快速入门？

和OpenAI ChatGPT不相上下的AI聊天机器人

信息收集-邮箱信息

xxljob默认登录_XXL-JOB快速入门

web入门——ctfshow（3-20）（信息搜集）

win10-cmd查看硬盘接口信息

Win10：将打开文件管理器快速访问改为我的电脑

自己动手制作路由器固件之快速开始

修复win10出现蓝底白字的方法（Windows10蓝屏的快速解决方案）

通过Tensorflow-DirectML 快速启用 AMD及NVIDIA GPU 加速

使用C语言快速制作一个视频播放器

发表评论

推荐文章

Legion Y9000X IRH8 2023款(82Y3)原装出厂OEM预装Windows11系统

FYI|OHBM BrainArt Competition DDL: June062021

解决Chrome浏览器被2345网站劫持的方法

CSDN免费下载方法

苹果手机突然闪退的7个原因及修复方法

热门文章

共享文件夹怎么设置密码？

如何打开路由器的配置界面

2023年前端面试题总结

【赛中必备】ChatGPT辅助数学建模技巧分享

【日常计算机问题】装系统的烧录的U盘恢复方法

WebStorm长春工业大学学生注册以及安装

Yandex 免费域名邮箱和配置 SMTP

win10同账号多人远程破解

左神算法笔记之贪心算法和暴力递归

小白记录，以便回忆：不联网状态下将dell 440重装为ubuntu 18.04系统（server版本），并将3块2T的硬盘组建为raid5.

最新文章

JetBrains IntelliJ IDEA 优化教程

Parallels对Mac的损害大吗 pd虚拟机怎么设置内存和CPU 运行Parallels发热

Linux基本使用-vmware及centos安装-day01

云上武功秘籍（四）金蝶最新产品KIS全版本华为云部署

IDEA 下载、安装、配置和案例

2023.5.15老男孩网络安全集训营第一节

c#物联网_C# 开发工具比较

IDEA使用技巧

Diffblue Cover AI Java：Difflane如何利用Diffblue Cover AI实现Java自动化的单元测试

IDEA新手使用教程（详解）

1-1 IDEA的下载安装

r5处理器_【玩码】RedmiBook 三款齐发，标配最新锐龙 4000 系列处理器

idea部署tomcat并实现简单的web项目

JAVA之开发神器——IntelliJ IDEA的下载与安装

eset nod32 v11无限试用补丁

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

uniapp 小程序接入腾讯云实时音视频通话踩坑快速集成(uni-app)tuicalling组件实时音视频bug

计算机软件系统崩溃,系统崩溃了怎么办如何快速还原崩溃的系统【步骤方法】...

视频剪辑可以赚钱吗快速学会视频剪辑的方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载