用户1272用户1272
用户5076用户5076
用户639用户639
用户5343用户5343
用户2520用户2520模型推理框架 | 如果使用公网的模型接口则可以不用部署模型推理框架;如果是本地部署模型,则需要使用模型推理框架,推荐的开源模型推理框架(任选其一):Ollama、Xinference、llamacpp、vllm 具体下载链接或部署方法请参考这些推理框架的官方文档。比如 模型推理框架用来运行以下类型模型的推理服务:LLM(大语言模型)、Embedding(转向量模型)、Rerank(重排序模型) |
bisheng-ft | 提供本地模型微调能力,基于llamafactory封装 |
bisheng-office | onlyoffice 开源版,在工作流报告节点/技能 report 组件中,实现基于 word 模板生成报告。 |
ETL4LM【非开源】 | 提供通用文档解析能力 • 包含文字识别、版式分析、表格识别、公式识别、阅读顺序识别能力 • 仅适用于BISHENG1.3.0及之后版本 • 该模块替代之前 OCR SDK + bisheng-unstructured 的能力 • 未部署ETL4LM时,支持的文件类型包括:pdf、txt、docx、doc、ppt、pptx、md、html、xls、xlsx • 部署ETL4LM之后,额外新增支持的文件类型包括:pdf(含扫描件)、png、jpg、jpeg、bmp • 闭源收费产品,模型需要在GPU上运行,我们会为每家公司/组织提供 1张GPU卡 免费授权,若需要更多算力授权以及维保服务,可购买毕昇商业扩展套件:BISHENG商业拓展套件介绍 已经申请过OCR SDK license的用户可以直接使用之前获得的授权,不用再申请。 国产机器有专门安装包,免费版暂不支持,有需求请联系我们。 ETL4LM中部分模块复用了MinerU的代码,我们会尽快把这个模块代码开源出来。 ETL4LM自带的文字识别模型效果一般,若针对模糊文字、手写体等识别效果不满意,可申请部署OCR SDK,在ETL4LM的配置中配置上OCR SDK的地址,这样文字识别会调用OCR SDK服务(我们会逐步将OCR SDK中的文字识别模型集成到ETL4LM中,后续只需部署ETL4LM即可)。 |
bisheng-gateway【非开源】 | 提供流量控制、SSO/LDAP 登录、内容安全审查能力。 详细功能介绍见:BISHENG商业拓展套件介绍 |
商业版统计看板【非开源】 | 通过直观的图表展示平台使用情况、应用价值、用户体验和成本投入,助力企业进行管理决策、资源配置优化与治理。 |
OCR SDK【非开源】 | • 提供高精度OCR、版式分析、表格识别能力 • 使用该模块可以提升知识库中文档的切分效果(基于版式分析能力提供基于文档结构的切分能力),并且支持知识库问答类会话中对知识库原文件进行段落溯源 • 闭源收费产品,模型需要在GPU上运行,我们会为每家公司/组织提供 1卡 免费授权,若需要更多算力授权以及维保服务,可购买毕昇商业扩展套件:毕昇商业拓展套件介绍 国产机器有专门安装包,免费版暂不支持,有需求请联系我们 OCR SDK效果问题反馈(我们优先针对反馈的问题进行优化):https://dataelem.feishu.cn/share/base/form/shrcnxJxITBW1PocrCbGtTRMNUh |
bisheng-unstructured | 仅适用于1.2及之前版本,1.3版本之后不再使用 提供非结构化数据的解析能力。不同的部署情况,对应的能力不同: • 未部署bisheng-unstructured时,毕昇知识库支持文件类型包括 pdf、txt、docx、pptx、md、html,不支持溯源 • 部署bisheng-unstructured后,毕昇知识库支持文件类型包括 pdf、txt、docx、pptx、md、html、xls、xlsx、doc、ppt,不支持溯源 • 部署bisheng-unstructured + OCR SDK后,毕昇知识库支持文件类型包括 pdf(含扫描件)、txt、docx、pptx、md、html、xls、xlsx、doc、ppt、png、jgp、jpeg、bmp,支持溯源定位(需使用OCR SDK 2.4.2 及之后版本) |