Table of Contents

PDF

即使是PDF,仍然有可能会出现因为软件,操作系统等的不同而造成的渲染效果的不同,不能完全得相信

最专业的工具还得是:Adobe Acrobat Pro


AI:
PDF(Portable Document Format,便携式文档格式)的标准是由Adobe Systems公司制定的。Adobe于1993年首次发布了PDF的规范,并逐步将其发展成为一种广泛使用的电子文档格式。虽然Adobe制定了PDF的初始标准,但现在已经成为国际标准组织(ISO)的标准,称为ISO 32000-1:2008。
AI:
FDF(Forms Data Format,表单数据格式)文件是一种与PDF文件相关的文件格式,用于存储表单数据和批注。当用户在PDF表单中输入数据或添加批注时,这些信息将保存在FDF文件中。FDF文件通常用于将表单数据从一个PDF文件导出到另一个支持FDF的应用程序或系统中,以便进一步处理或存档。

工具

2024.04 没有找到开源的,可以正确获取PDF Annotations信息的工具,以下工具或多或少都有一些问题

PDF相关的常用工具:

  1. 通过Python操作PDF文件:Python操作PDF

PDF格式标准

xref(交叉引用表)

AI
在 PDF 文件中,“xref”代表“交叉引用表”(Cross-Reference Table),这是 PDF 文件结构的一个重要组成部分。交叉引用表用于索引文件中的各种元素(如页面、字体、图像、注释等),以便快速、有效地定位这些对象的物理位置(即字节偏移量)。这样可以使 PDF 查看器或处理器快速访问文件内容,而无需逐个字节地读取整个文件。

DA

AI
在 PDF 文件中,/DA 是指默认外观字符串(Default Appearance string),这是一个非常重要的元素,尤其是在处理 PDF 表单和注释时。/DA 字符串定义了表单字段或注释在没有特别指定的情况下应如何显示,包括字体、字体大小和颜色等属性。
/DA 字符串通常包含一系列 PDF 内容流操作,指定了文本的外观属性。例如,一个典型的 /DA 字符串可能看起来像这样:
/Helv 12 Tf 0 0 1 rg