BISHENG可选组件部署

输入“/”快速插入内容

BISHENG可选组件部署

用户1272

用户5076

用户639

用户5343

用户2520

昨天修改

22588

50512

1.
可选组件功能说明​

模型推理框架

如果使用公网的模型接口则可以不用部署模型推理框架；如果是本地部署模型，则需要使用模型推理框架，推荐的开源模型推理框架（任选其一）：Ollama、Xinference、llamacpp、vllm​

具体下载链接或部署方法请参考这些推理框架的官方文档。比如​

Ollama：https://github.com/ollama/ollama

Xinference：https://github.com/xorbitsai/inference

模型推理框架用来运行以下类型模型的推理服务：LLM（大语言模型）、Embedding（转向量模型）、Rerank（重排序模型）​

bisheng-ft

提供本地模型微调能力，基于llamafactory封装

bisheng-office

onlyoffice 开源版，在工作流报告节点/技能 report 组件中，实现基于 word 模板生成报告。​

ETL4LM【非开源】

提供通用文档解析能力

•
包含文字识别、版式分析、表格识别、公式识别、阅读顺序识别能力​

•
仅适用于BISHENG1.3.0及之后版本​

•
该模块替代之前 OCR SDK + bisheng-unstructured 的能力​

•
未部署ETL4LM时，支持的文件类型包括：pdf、txt、docx、doc、ppt、pptx、md、html、xls、xlsx​

•
部署ETL4LM之后，额外新增支持的文件类型包括：pdf（含扫描件）、png、jpg、jpeg、bmp​

•
闭源收费产品，模型需要在GPU上运行，我们会为每家公司/组织提供 1张GPU卡 免费授权，若需要更多算力授权以及维保服务，可购买毕昇商业扩展套件：​BISHENG商业拓展套件介绍​

已经申请过OCR SDK license的用户可以直接使用之前获得的授权，不用再申请。​

国产机器有专门安装包，免费版暂不支持，有需求请联系我们。​

ETL4LM中部分模块复用了MinerU的代码，我们会尽快把这个模块代码开源出来。​

ETL4LM自带的文字识别模型效果一般，若针对模糊文字、手写体等识别效果不满意，可申请部署OCR SDK，在ETL4LM的配置中配置上OCR SDK的地址，这样文字识别会调用OCR SDK服务（我们会逐步将OCR SDK中的文字识别模型集成到ETL4LM中，后续只需部署ETL4LM即可）。​

bisheng-gateway【非开源】

提供流量控制、SSO/LDAP 登录、内容安全审查能力。

详细功能介绍见：BISHENG商业拓展套件介绍

商业版统计看板【非开源】

通过直观的图表展示平台使用情况、应用价值、用户体验和成本投入，助力企业进行管理决策、资源配置优化与治理。​

OCR SDK【非开源】

•
提供高精度OCR、版式分析、表格识别能力​

•
使用该模块可以提升知识库中文档的切分效果（基于版式分析能力提供基于文档结构的切分能力），并且支持知识库问答类会话中对知识库原文件进行段落溯源​

•
闭源收费产品，模型需要在GPU上运行，我们会为每家公司/组织提供 1卡 免费授权，若需要更多算力授权以及维保服务，可购买毕昇商业扩展套件：​毕昇商业拓展套件介绍​

国产机器有专门安装包，免费版暂不支持，有需求请联系我们​

OCR SDK效果问题反馈（我们优先针对反馈的问题进行优化）：https://dataelem.feishu.cn/share/base/form/shrcnxJxITBW1PocrCbGtTRMNUh

bisheng-unstructured

仅适用于1.2及之前版本，1.3版本之后不再使用

提供非结构化数据的解析能力。不同的部署情况，对应的能力不同：​

•
未部署bisheng-unstructured时，毕昇知识库支持文件类型包括 pdf、txt、docx、pptx、md、html，不支持溯源​

•
部署bisheng-unstructured后，毕昇知识库支持文件类型包括 pdf、txt、docx、pptx、md、html、xls、xlsx、doc、ppt，不支持溯源​

•

部署bisheng-unstructured + OCR SDK后，毕昇知识库支持文件类型包括 pdf（含扫描件）、txt、docx、pptx、md、html、xls、xlsx、doc、ppt、png、jgp、jpeg、bmp，支持溯源定位（需使用OCR SDK 2.4.2 及之后版本）

2.
ETL4LM​

❗

适用版本

此部署文档适用于ETL4LM 1.0.3版本

❗

部署方式变更

1.0.1版本部署过程中需要sudo bash etl4lm_host_cli.sh init. 生成/home/work/.etl4lm/config/etl4lm.json​

1.0.2版本部署方式为了去除难以在内网环境安装的jq包依赖，去除了通过加载配置文件etl4lm.json来启动，所有配置参数都列在etl4lm_host_cli.sh文件头部。部署etl4lm_host_cli命令中的init命令也去除；去除安装包下config.json安装包元信息。请参照以下内容进行安装部署。​

❗

FAQ

Q：如何配置使用哪一张显卡。

A：需要在etl4lm_host_cli.sh中GPUS参数配置device=1（显卡号）。

BISHENG可选组件部署​

BISHENG可选组件部署