RAG文本溯源的PDF高亮显示，让知识一目了然！|电子爱好者

admin管理员组
文章数量:1649929

工具介绍

在web环境下嵌入页面渲染pdf并不是一个常见的需求，这方面的文档教程也是很匮乏的。

先介绍一下要用到的工具包：pdfjs 和 react-pdf;

● pdfjs：https://github/mozilla/pdf.js

● react-pdf：https://github/mozilla/pdf.js

实际上 react-pdf 是对pdfjs的进一步封装，但是我们的需求中需要高亮段落，所以仅仅使用 react-pdf不能满足需求，故须引入核心库pdfjs

PDFJS是一个用于显示PDF的模块，主要用于前端显示PDF,但是这个库使用起来还是比较复杂的，主要是由于缺乏API文档，很多时候主要是依靠看源码。

pdf的显示主要分为两种模式：一个是svg的格式、另一个是canvas格式;

如果仅显示纯文本的pdf，svg够用了，但是对于包含有图片的复杂pdf，使用canvas模式是一个更好的选择。

使用说明-业务示例

接下来我们结合业务需求来介绍一下他的使用。

业务需求：高亮PDF中指定的段落，并滚动的高亮位置

需求分析：

● 浏览器中PDF预览

● 搜索匹配PDF中的段落

● 高亮效果

● 滚动到高亮位置

难点分析：

● web环境下预览PDF

● 匹配PDF中的高亮段落

匹配算法（核心）
性能优化

● 高亮样式以及滚动到高亮的位置

● 对于大文件的加载、预览优化

基于此我们开始实现pdf高亮溯源的功能。

安装开发工具包

pnpm add pdfjs-dist react-pdf -S

引入react-pdf组件渲染pdf

<Document
        file={file}
         {...reastProps}
        >
  <Page pageNumber={pageNumber}></Page>
</Document>

渲染pdf已经完成了，重要的是高亮pdf中的段落以及自动跳转到高亮位置。

高亮匹配算法

设：

PDF文档: D;

PDF中的每一页: P1、P2、…、P(n-1)、Pn;

搜索的段落: S;

S在D中有三种情况:

不匹配
单页匹配
跨页匹配

核心逻辑

如果S在P1中匹配，则返回匹配结果
如果P1不匹配，则累加P2到P1，尝试在P1、P2中匹配S
迭代D中的每一页

核心代码如下：

/**
 * 按照页解析，pdfjs以TextItem[]的数据格式，将页面的数据暴露出来
 * 高亮算法的思路是:
 * 0、取出当前page的文本项，放入累加文本中；
 * 1、判断累加的文本是否匹配，符合条件的TextItem 打标识
 * 2、否则开始下一页（将下一页数据累加到文本中）
 *
 * resolveItemsChain：由每页的文本项节点组成的链表，头节点空
 * pointer一个游荡的指针
 */
export default class DocumentTracker {
    maxPage;
    trackedPage: number = 0; // 已经解析的页码个数
    resolveItemsChain: resolveItemNode; // 头节点
    pointer: resolveItemNode | null = null;
    resolveText = '';
    highlightMap: HighlightMap = new Map();
    highlightPageIndexSet: Set<number> = new Set();
    readonly regex = /[^\u4e00-\u9fa5a-zA-Z0-9]/g;

    constructor(maxPage = 3, regex?: RegExp) {
        this.maxPage = maxPage;

        this.resolveItemsChain = {
            value: [],
            next: null,
            prev: null
        }
    }
    // 这里使用双向链表来优化算法
    async track(items: TextItem[], pageIndex: number, text: string) {
        // 最多跨页: maxPage
        if (this.trackedPage >= this.maxPage && this.resolveItemsChain.next) {
            const len = this.resolveItemsChain.next.value.reduce((prev, cur) => {
                return prev.concat(cur.str)
            }, '').replace(this.regex, '').length;
            this.resolveText = this.resolveText.slice(len)
            this.resolveItemsChain.next.prev = null
            this.resolveItemsChain.next = this.resolveItemsChain.next.next
        }

        const resolveItems: TextItem[] = [];

        this.pointer = this.resolveItemsChain;
        while (this.pointer.next != null) {
            this.pointer = this.pointer.next
        }

        this.pointer.next = {value: resolveItems, next: null, prev: this.pointer} // 双向
        this.pointer = this.pointer.next
        this.trackedPage += 1;

        const searchText = text.replace(this.regex, '');
        for (let index = 0; index < items.length; index++) {
            resolveItems.push(items[index])
            this.resolveText += items[index].str.replace(this.regex, '');
            if (this.resolveText.indexOf(searchText) != -1) {
                // resolveItems has been searched Text
                let str = '';

                while (this.pointer.prev) {
                    const resolveItems = this.pointer.value;
                    for (let reverseIndex = resolveItems.length - 1; reverseIndex >= 0; reverseIndex--) {
                        str = resolveItems[reverseIndex].str.replace(this.regex, '') + str;
                        if(this.highlightMap.has(pageIndex)){
                            this.highlightMap.get(pageIndex)?.push(reverseIndex)
                        }else {
                            this.highlightMap.set(pageIndex, [reverseIndex])
                        }
                        this.highlightPageIndexSet.add(pageIndex)
                        if (str.indexOf(searchText) != -1) {
                            return true
                        }
                    }

                    this.pointer = this.pointer.prev
                }
            }
        }

        return false
    }
}

通过高亮算法我们已经拿到了段落的高亮信息：第几页第几项

结下来就是高亮并滚动

滚动到高亮位置

这里我们借用H5锚点来滚动到目标段落，涉及到“打锚点”以及“跳转到锚点”两个关键：

打锚点指的是匹配到目标段落后，标记段落

跳转到锚点就是跳转到高亮的位置，跳转时机很重要，需要在匹配完成，指定段落渲染之后才能跳转到对应的锚点，并且在计算量比较大的单线程环境中，滚动行为容易被打断（页面其他地方平凡的刷新）。需要优化处理滚动的时机。

上述有大量的对于pdf信息的计算存储，对于内存消耗以及cpu资源是十分消耗的，需要进行必要的优化：

优化

网络下载优化
渲染优化
高亮匹配优化
滚动优化

网络下载优化：浏览器缓存策略（对于太大的文件会失效）

● 渲染优化

单线成任务阻塞，web worker渲染PDF

pdfjs.GlobalWorkerOptions.workerSrc = new URL('worker.js', import.meta.url).toString();

只渲染高亮所在的页的文本层，可以提升80%的性能

const renderPDF = (hitInfo) => {
  return (page) => {
    return hitInfo.has(page)? <Page page={page}></Page> : false;
  }
};

● 高亮匹配优化

缓存命中优化：针对每次高亮的信息做缓存

const hitInfo = hit ? cached[hashKey] : calculateHitInfo(hashKey)；

快速失败：当高亮信息匹配失败时，抛出异常信息，优先渲染pdf

const getHighlightInfo = () => {
  if(failure){
    throw Error('some message!')
  }
};

try {
  const hitInfo = getHighlightInfo();
  renderPDF(hitInfo);
} catch {
  renderPDF(null);
}

● 滚动优化

页面中如果有大量的计算和渲染任务，那么程序的滚动指令可能会被打断，对此可以使用web api 来判断每一帧执行完成后是否有足够的时间去完成滚动

// 等待其他密集型任务先行执行，寻找每一帧的闲置时间，并且在超时5s放入循环队列，交给事件循环处理此任务
requestIdleCallback((idle) => {
  console.log("idle", idle.timeRemaining());
  // 滚动指令
}, { timeout: 5000 });

总结

web环境中页面内嵌渲染PDF是一种常见的需求，但是高亮搜索文档中的段落（不是关键字，段落来自大模型）有难度。

原创作者: u_16807488 转载于: https://blog.51cto/u_16807488/11314941

本文标签：文本知识 RAG 高亮 PDF

版权声明：本文标题：RAG文本溯源的PDF高亮显示，让知识一目了然！内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729504594a1203480.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

react react-pdf实现在线pdf加载（翻页加载、下拉滚动加载）

8小时前

目录导入react-pdf在文件中引入并使用下拉展示导入react-pdf npm i react-pdf -S或 yarn add react-pdf在文件中引入并使用从react-pdf引入会有不知名错误&#xff0c

vue-pdf实现预览pdf文件以及含有电子印章的pdf文件

8小时前

话不多说，上代码~ 1.页面： <template><el-dialog:title"title":visible.sync"openViewP

html页面导出pdf截断问题,vue页面生成pdf且避免分页截断处理

8小时前

要求按A4纸大小生成pdf，支持分页且内容不被截断使用html2canvas和jspdf插件实现通过html2canvas将HTML页面转换成图片，然后再通过jspdf将图片生成为pdf文件一、添加依赖模块 npm install h

页面截图导出为PDF，以及PDF强行截断分页问题的处理

8小时前

页面截图导出为PDF，以及PDF强行截断分页问题的处理需求将页面内容截图导出为PDF文件，如果有高度过高的表格或图片，尽量不截断而是放在下一页展示。思路 1.将

vue实现pdf高亮显示，以及矩形绘图(vue-pdf插件使用)

8小时前

<template><div class"container" ><el-row style"padding: 10px 10px 10px 10px;width: 100% ;

word转PDF空白页的添加与删除

8小时前

word转PDF空白页的添加与删除 word转PDF空白页的添加与删除 **关于论文排版中页面设置的一些小技巧。 1：不希望用换行的方式将“第二章”的标题赶到下一页，如下图&#xff1

vue项目实现本地PDF翻页预览功能（使用vue-pdf）

8小时前

1.需求在页面中预览本地在工程文件publicpdfs目录下多页码可翻页的PDF文件2.实现 （主要功能代码，精简版） 安装vue-pdf npm insta

Vue 集成 PDF.js 实现 PDF 预览和添加水印

8小时前

在 Vue 中集成 MozillaPDF.js ，实现自定义的 PDF 预览器，以及给被预览的 PDF 添加水印实现效果可用插件介绍 Mozilla 提供了 PDF.js 和 pdfjs-

antd 实现pdf 预览_react下实现一个PDF展示组件

8小时前

简介：在react的antd-pro的框架下展示本地的PDF文件效果图：一、插件选取。听说过大名鼎鼎的PDF.js，但是因为是在react框架下，所以选取了两个可行的插件两个插件都是对PDF进行的封装。两个插件都进行了尝试，相对而言

wkhtmltopdf生成的pdf分页后文字重叠

8小时前

加入以下代码解决 thead { display: table-header-group; }tfoot { display: table-row-group; }tr { page-break-inside: avoid; }

使用vue-pdf 给pdf加水印

8小时前

<template><el-container><el-main id"myIframe"><pdf :page"pageNum" :src"fil

[高级]pdf生成(可水印)、pdf预览(可分页)、pdf打印：全栈一条龙方案

8小时前

前言每个前端开发者的一生中总会遇到一些与pdf有关的需求，但是搜寻网上的文章，大多都是部分功能的实现，想要获得与自身需求相契合的完整方案并不是一件容易的事情&#xf

Java使用 itext7 导出pdf ，表格跨页分行问题

8小时前

Java使用 itext7 导出pdf ，表格跨页分行问题问题描述： 项目中使用的是7版本的itext，创建document后，往文档中插入表示使用

vue-pdf实现文件预览放大、缩小、上下页

8小时前

1.下载依赖 cnpm install --save vue-pdf 2.代码 <style lang"less" scoped>.main {overflow: auto;max-width: 3

python使用fpdf2包和pdfrw包在已有的PDF页面上添加新的页

8小时前

python使用fpdf2包和pdfrw包在已有的PDF页面上添加新的页目录 python使用fpdf2包和pdfrw包在已有的PDF页面上添加新的页 #包安装 #新内容添加到已有的PDF页面上 #包安装 pip install

vue3 + vite + pdfjs-dist 实现pdf预览，支持翻页和滚动翻页

8小时前

环境说明：vue3viteantdesignVue，使用pdfjs-dist插件，版本为2.16.105 提示：pdfjs-dist版本>

如何在reportlab中,自动为pdf添加空白页

8小时前

在 reportlab 中，可以使用 canvas.showPage() 方法来添加空白页。例如，在创建一个 PDF 文档时，可以在写入内容后调用 canvas.showPa

使用itextpdf5的PdfContentByte 进行文本的绝对定位和字体的加粗、导入图片、画指定位置线条、创建下一页。

8小时前

itext7的出现使得生成个性化的pdf变得相当容易，但是itext7不能支持jdk1.6，如果要在jdk1.6上使用itext，那就只得使用itext5了。下面是个人项

低版本360浏览器下，PDF.js部分文字显示不全的问题

4小时前

在低版本360极速模式下，使用 pdf.js 看pdf文件时，除了数字和符合，其它文字都不显示。在其它浏览器显示是正常的。此时，可以进行如下操作

简单的文本文件加密小程序

2小时前

文件加密解密的学习一.main函数的命令行参数的使用一个程序的main()函数的可以包括两个参数第一个参数的类型为int型； 第二个参数为字符串数组。通常情况下，将第一个参数命名为arg

电子爱好者 - 最新技术资讯及电子产品介绍！

RAG文本溯源的PDF高亮显示，让知识一目了然！

在web环境下嵌入页面渲染pdf并不是一个常见的需求，这方面的文档教程也是很匮乏的。

使用说明-业务示例

安装开发工具包

高亮匹配算法

核心逻辑

滚动到高亮位置

优化

总结

更多相关文章

react react-pdf实现在线pdf加载（翻页加载、下拉滚动加载）

vue-pdf实现预览pdf文件以及含有电子印章的pdf文件

html页面导出pdf截断问题,vue页面生成pdf且避免分页截断处理

页面截图导出为PDF，以及PDF强行截断分页问题的处理

vue实现pdf高亮显示，以及矩形绘图(vue-pdf插件使用)

word转PDF空白页的添加与删除

vue项目实现本地PDF翻页预览功能（使用vue-pdf）

Vue 集成 PDF.js 实现 PDF 预览和添加水印

antd 实现pdf 预览_react下实现一个PDF展示组件

wkhtmltopdf生成的pdf分页后文字重叠

使用vue-pdf 给pdf加水印

[高级]pdf生成(可水印)、pdf预览(可分页)、pdf打印：全栈一条龙方案

Java使用 itext7 导出pdf ，表格跨页分行问题

vue-pdf实现文件预览放大、缩小、上下页

python使用fpdf2包和pdfrw包在已有的PDF页面上添加新的页

vue3 + vite + pdfjs-dist 实现pdf预览，支持翻页和滚动翻页

如何在reportlab中,自动为pdf添加空白页

使用itextpdf5的PdfContentByte 进行文本的绝对定位和字体的加粗、导入图片、画指定位置线条、创建下一页。

低版本360浏览器下，PDF.js部分文字显示不全的问题

简单的文本文件加密小程序

发表评论

推荐文章

超牛逼的几款轻量级笔记软件！

三星SideSync下载，一个神奇的软件

编写Java程序，使用ThreadLocal类，项目中创建账户类 Account，类中包括账户名称name、 ThreadLocal 类的引用变量amount，表示存款

长安车机升级公版高德

建议收藏 | 可实操，数据中台选型示例

热门文章

note pro 国际版_改装Redmi Note 8 Pro —一次冒险

Jenkins安装: this account either does not have the privilege logon as a service

IDEA申请学生账号Jet Brains Account教程

模型训练篇 | yolov10来了！手把手教你如何用yolov10训练自己的数据集（含网络结构 + 模型训练 + 模型推理等）

12个免费的文本编辑器

网站加速与Linux服务器防护

dnp服务器未响应,360浏览器没响应怎么办 360浏览器未响应死机解决方法分享

win10快捷键冲突检测与解决方法

成功解决SyntaxError: future feature annotations is not defined错误，亲测有效

记录一次 This feature requires ASM6 错误

最新文章

U盘文件损坏删除文件办法

featureClass 和featureDataSet的区别

mapbox中对同一图层（layer）的不同要素（feature）设置不同的颜色

解决java.lang.AbstractMethodError: javax.xml.parsers.DocumentBuilderFactory.setFeature 异常

dgl._ffi.base.DGLError: Cannot assign node feature “n_feat“ on device cuda:0 to a graph on device

恢复U盘分区:windows自带工具diskpart

FSSD: Feature Fusion Single Shot Multibox Detector论文笔记

CNN中卷积层参数量与输出特征图(feature map)尺寸的计算公式

论文阅读笔记之——《Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform》

【语义分割】DFANet --Deep Feature Aggregation for Real-Time Semantic Segmentation

【已解决】U盘文件误删 恢复，实用有效 免费无充值 Recuva

Android Arcgis入门(五)、FeatureLayer加载本地shp文件与要素查询

SGE——Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks

python报错：Do not support special JSON characters in feature name

Docker问题——Docker安装报错 Containers Windows Feature is not available

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

【已解决】U盘文件误删恢复，实用有效免费无充值 Recuva

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载