--- license: cc-by-4.0 language: - zh base_model: - Qwen/Qwen3-8B library_name: transformers tags: - ner - chinese - address - information-extraction repo_url: https://github.com/Scisaga/addr-resolver --- # 中文地址要素抽取 LoRA(Qwen3‑8B‑Instruct) > 将中文地址文本直接生成 **XML 标签串**(如 ``)。适配器采用 **LoRA/QLoRA**,与基座一起加载即可用于抽取省/市/区/道路/门牌/POI 等要素。 ## 一、简介 * 任务:中文地址结构化(信息抽取 → 文本生成)。 * 形式:SFT 指令跟随;输入原始地址,输出 XML 标签串。 * 工程配套:提供 Web/REST 界面与 AMap 集成,以及 LoRA 数据与脚本。 ## 二、代码与数据 * 代码仓库:[Scisaga/addr-resolver](https://github.com/Scisaga/addr-resolver)(含 Web 端、API、LoRA 数据脚本、示例地址库等)。 * 关键目录/文件:`lora/bio2sft.py`、`lora/build_sft_from_adm.py`、`func/amap_call.py`、`func/qwen_call.py`、`app.py`、`resolver.py`、`address.db`(示例库)等。 * 系统能力:结合 **高德地图 API** 与 **通义千问** 进行解析/推理/定位;私有化地址库管理;提供 Docker 部署与前端页面。 ## 三、训练 > 以 `lora/` 目录产出的 `sft.jsonl` 为训练数据(BIO/BIES → SFT 一步式转换脚本已提供)。 ```bash CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node=2 lora/train_hf_qlora.py \ --data lora/sft.jsonl --bf16 ``` ## 四、推理(docker) ```shell docker run --gpus all --shm-size 1g -p 8080:80 \ -v $PWD/qwen3-8b-instruct-lora-address-struct-cn:/data \ ghcr.io/huggingface/text-generation-inference:latest \ --model-id /data \ --dtype bfloat16 \ --num-shard 2 \ --max-input-tokens 2048 --max-total-tokens 2304 ``` ## 五、许可 * 本仓库权重(适配器)与代码:**CC BY 4.0**(需署名、注明修改、不得施加额外法律/技术限制)。 * 基座 **Qwen3‑8B‑Instruct**:**Apache‑2.0**。如分发**合并权重**,需同时满足 **Apache‑2.0(保留 LICENSE/NOTICE)** 与 **CC BY 4.0(署名/注明修改)** 的要求。 **推荐署名模板**(在 README 或产品“关于”页中标注): > Uses the model ** by *Scisaga* (CC BY 4.0). Based on *Qwen/Qwen3‑8B‑Instruct* (Apache‑2.0). Changes: LoRA fine‑tuning for Chinese address slot extraction. ## 六、致谢 / 变更 * 2025‑10‑26:首版精简模型卡,补充仓库链接与目录映射;许可调整为 **CC BY 4.0**。