扫描版 PDF 怎么压缩,才不会看不清?
扫描版 PDF 往往比普通文字 PDF 更难压缩,因为每一页通常都是一张图片。普通报告可以通过清理对象和压缩结构变小,但扫描件更多要靠降低图片体积、分辨率或颜色信息。
实用规则是:压缩扫描 PDF 时,不要只看文件大小;还要检查姓名、日期、印章、签名、勾选框和小字是否仍然清楚。
BaseToolbox 的 PDF 压缩工具 可以在浏览器里处理 PDF,适合身份证明、合同、发票、表格和其他不想上传的扫描文件。
为什么扫描 PDF 特别大?
扫描 PDF 常常是一页对应一张整页图片。如果扫描仪用了高分辨率、彩色模式和较低压缩率,几页文件就可能很大。
常见体积来源包括:
- 300-600 DPI 彩色扫描。
- 照片被整页嵌入。
- 大量空白边距也被保存成像素。
- 同一页重复扫描。
- OCR 文字层和原始图片同时存在。
- 扫描仪默认按归档质量保存。
文件大不一定是因为文字多,而是因为每一页都像一张大图。
先决定压缩目标
压缩前先判断这个 PDF 要用来做什么。
| 场景 | 优先考虑 |
|---|---|
| 邮件附件 | 屏幕可读,文件更小。 |
| 合同或 HR | 保留签名、印章、日期。 |
| 后续打印 | 保留足够纸面清晰度。 |
| 上传限制 | 达到大小上限且关键字段可读。 |
| 长期归档 | 保留原件,另做分享版。 |
不要在没检查结果前覆盖唯一高清原件。更稳妥的做法是保留原扫描件,再导出一个较小版本。
压缩后检查什么?
打开压缩后的文件,逐项检查:
- 每页最小的文字。
- 印章、签名、勾选框和手写备注。
- 页码顺序和页面方向。
- 彩色高亮或批注。
- 如果原文件能搜索,确认 OCR 搜索是否还在。
- 文件大小是否低于上传限制。
只缩小到页面宽度看一眼不够。扫描件在屏幕上远看正常,打印或放大后可能就会糊。
彩色、灰度、黑白怎么选?
彩色扫描通常比灰度大,灰度通常比黑白大。但切换颜色模式可能丢信息。
纯文字材料可以尝试黑白,但要确认小字和表格线仍然清晰。合同、表格、普通文件多半适合灰度。包含照片、证件、彩色印章、批注和高亮时,最好保留颜色。
如果是正式提交,保留原扫描件很重要。上传系统接受较小文件,不代表所有视觉细节都保留下来了。
本地压缩和隐私
扫描件经常包含个人信息。远程压缩工具如果在服务器处理,就可能接收到完整文件。本地浏览器压缩可以减少这一步暴露。
尤其要注意这些文件:
- 护照、身份证、驾照。
- 已签署合同。
- 保险表格。
- 银行流水。
- 学校或考试记录。
- 医疗、薪资和人事文件。
如果这份文件作为图片很敏感,那么它作为 PDF 也同样敏感。
压不下来怎么办?
如果压缩后仍然太大,可以删除重复页面、裁掉空白边距、用更合适分辨率重新扫描,或者按章节拆分 PDF。多页扫描件带照片时,强行压到 100KB 可能不现实。
上传系统报“文件太大”时,也要看它是否同时限制页数、文件类型、加密 PDF 或文件名。不要只盯着体积一个指标。
常见错误
最常见的错误,是直接压缩唯一原件,结果发现细节丢了却没有可回退版本。更稳妥的方式是导出一个较小副本,原始扫描件保持不变。
第二个错误是只看第一页。扫描件常常有某一页特别淡、某一页横着、某一页有手写备注,压缩后问题不一定出现在首页。
第三个错误是把“小”当成唯一目标。给人审核的文件,稍微大一点但清楚,通常比极小但看不清的文件更容易通过。
如果文件被退回,不要马上继续降低质量。先确认退回原因:是大小超过限制、页面缺失、文字不清、还是文件格式不符合要求。不同原因对应的修法完全不同。
常见问题
为什么扫描 PDF 压缩后还是很大?
因为页面主体仍然是高分辨率图片。只清理文字或结构,对图片占主导的文件帮助有限。
压缩会破坏 OCR 吗?
可能会。如果原文件可以搜索文字,压缩后要再搜索几个关键词确认。
可以删除原件吗?
不建议。至少等压缩版被接收并复查无误后,再决定怎么归档原扫描件。