如何用类似ChatGPT的对话方式,快速阅读并分析PDF内容?
chatpdf.com(可能需要科学上网访问)
ChatPDF 近期备受关注,只需上传文章或书籍的 PDF 文件,系统便能迅速借助 GPT 完成内容解析,之后用户可针对文档内容自由提问。
开发者表示,学生们十分喜爱这一工具,常用来研读厚重的参考书籍。
由于太过火爆,开发者迅速推出了付费功能,免费用户最多只能分析少于50页的PDF。这让不少用户感到困扰,尤其是研究生群体,若想分析一本十几万字的书籍,页数远超限制,显然无法满足需求。
笔者经测试,选取一本喜爱的EPUB电子书,解压后获得二十余个XHTML文件,将其全部合并为一个大型TXT文档,清除其中所有HTML代码,随后在Word中打开该文本,将字体调整至5pt,通过紧凑排版,最终生成一份仅10页的PDF文件,实现了内容的高度压缩与便携保存。
生成的PDF仅有纯文字内容,毫无结构可言。用它进行测试时却发现,ChatGPT不仅能识别文字,还能精准提取书名、作者、章节等信息,展现出强大的理解与分析能力。
但缺点明显,目前功能简单,分析结果和聊天记录无法直接导出。
尽管走红出圈,我仍觉得有必要澄清大众的诸多误解。
ChatPDF无法提升ChatGPT处理长文本的能力,其阅读范围仍受限于4096个token。
将PDF内容切分为固定长度的片段,分别生成向量嵌入。用户提问时,通过向量检索召回相关片段,再交由ChatGPT进行最终回答。
字体缩小导致成本成倍增加
