my-ai-assistant / README_PDF_QA.md
Nanny7's picture
Add PDF document QA feature optimized for Hugging Face free tier
457ed7d

A newer version of the Gradio SDK is available: 6.0.1

Upgrade

PDF文档问答助手

这是一个专为Hugging Face免费方案优化的PDF文档问答应用,允许用户上传PDF文档并提出问题,AI将基于文档内容提供答案。

🚀 功能特点

  • 资源优化:专为Hugging Face免费方案设计,适应16GB内存限制
  • 智能问答:基于上传的PDF文档内容回答用户问题
  • 内容限制:自动处理PDF前3页,每页限制600字符以节省资源
  • 响应优化:答案长度限制在150字以内,提高响应速度
  • 并发支持:启用排队机制,支持最多10人同时使用

🛠️ 技术实现

核心依赖

  • gradio:用于构建Web界面
  • huggingface_hub:访问Hugging Face模型推理API
  • PyPDF2:处理PDF文档提取文本

模型优化策略

  1. 模型选择:优先使用适合中文的轻量级模型

    • THUDM/chatglm3-6b
    • google/gemma-2b-it
    • mistralai/Mistral-7B-Instruct-v0.2
  2. 资源管理

    • 内容限制:仅处理PDF前3页
    • 字符限制:每页不超过600字符
    • 响应限制:回答长度不超过150字

📖 使用方法

  1. 上传PDF文档(仅处理前3页以节省资源)
  2. 在问题输入框中输入您想了解的内容
  3. 点击"获取答案"按钮等待AI分析
  4. 答案生成后可点击"下载答案"保存结果

⚠️ 注意事项

  • 首次使用时模型加载可能需要几分钟时间
  • 为保证响应速度,系统会自动限制处理内容的大小
  • 回答长度限制在150字以内以节省计算资源
  • 在Hugging Face Spaces环境中运行时,需要设置HF_TOKEN环境变量

🚀 部署到Hugging Face Spaces

  1. 创建一个新的Gradio Space
  2. 上传以下文件:
    • pdf_qa_app.py(主应用文件)
    • requirements.txt(依赖文件)
  3. 在Space的Settings中添加环境变量:
    • HF_TOKEN:您的Hugging Face访问令牌
  4. 应用会自动启动并运行

📄 示例使用场景

  • 学术研究:快速提取论文要点
  • 商业文档:分析报告关键信息
  • 法律文件:查找合同条款
  • 技术手册:获取操作指南

🔧 故障排除

如果遇到问题,请检查:

  1. HF_TOKEN环境变量是否正确设置
  2. 上传的PDF文件是否可读
  3. 网络连接是否稳定
  4. 是否超出了Hugging Face的使用限制