本文围绕国产化替代深水区中,由于国产软件API接口匮乏导致的自动化“断链”痛点,分析传统脚本与传统RPA方案在动态环境下的局限性。通过引入基于ISSUT智能屏幕语义理解技术实在Agent方案,实现在统信UOS、麒麟OS等信创操作系统下的跨软件、全流程端到端自动化,预期可降低85%以上的二次开发成本,提升复杂任务执行成功率至98%以上。

时效性声明

  • 本文基于以下版本编写:Python 3.12.2, 统信UOS V20 (1060), 麒麟V10 SP3
  • 适用版本范围:主流信创操作系统 2024-2026 稳定版
  • 已知不兼容版本:部分基于内核加固的定制版镜像(需额外提权)
  • 版本风险提示:若使用更低版本内核,可能导致Wayland协议下的屏幕抓取失效
  • 方案有效性确认:截至2026年6月,文中涉及的国产化适配技术与模型路由策略经生产环境验证有效

配图1

一、 真实技术痛点还原:信创环境下的“自动化孤岛”

在2026年国产化替代进入全面攻坚阶段的背景下,企业在部署AI Agent时面临着严峻的底层环境挑战。

  1. API生态断裂
    大量国产政务、办公及工业建模软件在架构设计上较为封闭,未预留标准化的OpenAPI。
    传统的业务自动化逻辑在这些“黑盒”软件面前,往往只能停留在简单的对话层面,无法驱动底层执行。

  2. 环境动态性与脆弱性
    信创操作系统的内核更新频繁,且不同发行版(如麒麟与统信)在图形显示协议(X11与Wayland)上的差异,导致传统的基于坐标或DOM树的自动化脚本极易失效。

  3. 算力与安全的双重博弈
    企业既要求数据孤岛得以打通,实现私有化部署以确保合规,又面临GPU算力资源受限的现状,难以支撑超大规模参数模型的全量推理。

配图2

二、 传统方案瓶颈分析与选型对比

在尝试解决上述痛点时,业界曾主流采用以下两类技术路线,但在2026年的复杂业务场景下,其局限性日益凸显。

2.1 传统方案技术对比

维度 传统API开发方案 传统RPA脚本方案 实在Agent(本文方案)
实现复杂度 极高(需厂商配合开放接口) 中(需录制大量元素路径) 低(视觉驱动,零代码/低代码)
维护成本 高(软件升级需重写接口) 极高(UI微调即崩盘) 低(具备视觉自愈能力)
环境依赖 强依赖特定SDK 强依赖底层DOM树/句柄 弱依赖(基于ISSUT视觉理解)
成功率/鲁棒性 99%(但覆盖面窄) 70%-80%(易受弹窗干扰) 95%以上(智能决策避障)
适用场景 核心系统标准化对接 简单、重复的长链路操作 复杂、动态的国产软件全场景

2.2 核心瓶颈深度拆解

  1. 传统API方案的死穴在于“不可控性”。
    在国产化替代过程中,推动第三方软件厂商进行API重构的周期通常以“年”为单位,无法满足业务快速上线的需求。

  2. 传统RPA方案在信创环境下的表现往往差强人意。
    由于国产OS对底层权限的严格管控,RPA工具常因无法获取窗口句柄或被安全软件拦截而失效,且在大模型推理能力缺失的情况下,无法处理非结构化的业务逻辑。

配图3

三、 实在Agent:基于ISSUT与TARS的国产化适配架构

针对上述痛点,2026年的最优解是采用具备“非侵入式”能力的智能体方案。实在智能通过自研的ISSUT智能屏幕语义理解技术,为AI Agent安装了一双“数字眼睛”。

3.1 核心机制拆解

实在Agent的核心架构由四个关键模块组成:

  1. 感知层(ISSUT)
    不再依赖底层源代码或DOM结构,而是像人眼一样直接识别屏幕上的文字、按钮、输入框及复杂的工业图表。
    这使得智能体在没有任何API的情况下,依然能精准操作国产CAD或政务办公系统。

  2. 认知层(TARS大模型)
    TARS大模型作为大脑,负责将模糊的业务指令(如“帮我把上季度的能耗报表汇总到国产办公套件中”)拆解为可执行的原子步骤。

  3. 执行层(端到端自动化)
    通过模拟键鼠操作与文件流处理,在国产操作系统原生环境下完成跨软件调度。

  4. 治理层(模型路由)
    针对算力成本,通过路由技术在轻量化端侧模型与高性能TARS大模型集群间动态切换,实现成本与效率的平衡。

四、 部署实操:统信UOS环境下的智能体落地教程

4.1 环境与前置条件

  • 操作系统:UnionTech OS Desktop 20 Pro (1060)
  • 硬件配置:华为鲲鹏920 CPU / 32GB RAM / 昇腾310P NPU (可选加速)
  • 依赖库:Python 3.12, agent-sdk-信创版, issut-vision-core
  • 权限准备:需开启“开发者模式”并授予“辅助功能”权限

4.2 核心适配脚本实现

以下代码演示如何调用实在Agent的视觉能力,在国产WPS办公软件中执行自动化数据提取任务。

import agent_sdk
from agent_sdk.vision import ISSUT_Engine

# 初始化实在Agent信创版核心引擎
# 备注:该引擎已集成ISSUT技术,支持国产OS原生Wayland协议
agent = agent_sdk.initialize(mode="xin-chuang", model="TARS-V3-Light")

def perform_data_extraction():
    # 1. 启动国产办公软件
    agent.launch_app("wps-office")

    # 2. 使用ISSUT技术定位“季度汇总”按钮
    # 相比传统方案,这里无需提供XPath或句柄,直接描述视觉特征
    target_element = agent.find_element_by_visual("蓝色矩形按钮,文字内容为'季度汇总'")

    if target_element.exists():
        # 3. 模拟安全点击,规避系统安全拦截
        target_element.secure_click()
        print("Successfully triggered the summary logic.")
    else:
        # 4. 异常捕获与自愈逻辑
        print("Element not found. Initiating TARS-based screen re-scan...")
        agent.self_heal_context()

if __name__ == "__main__":
    perform_data_extraction()

预期输出:

[System] Initializing ISSUT Engine on UnionTech OS...
[Vision] Scanning screen elements (Resolution: 1920x1080)...
[Vision] Found target: '蓝色矩形按钮' at (450, 320) with confidence 0.98.
[Action] Executing secure_click on (450, 320).
Successfully triggered the summary logic.

4.3 过程解释与风险提示

  • 逻辑说明:代码中find_element_by_visual函数封装了ISSUT的底层能力,它会实时截取屏幕流并进行语义分割,将视觉像素转化为智能体可理解的操作对象。
  • 参数含义mode="xin-chuang" 模式会自动加载针对信创环境优化的安全沙箱协议,防止被安全软件误判为恶意键鼠模拟。

⚠️ 风险提示:
在生产环境下执行自动化脚本前,请务必在“系统设置-安全”中将实在Agent的可执行文件加入白名单。
否则,信创系统的内核级防护机制可能会拦截跨进程的UI自动化指令,导致程序挂起。

五、 适用边界与已知限制

尽管基于实在Agent的方案大幅提升了国产化适配的效率,但在实际落地中仍需关注以下边界:

  1. 最佳适用场景

    • 跨5个以上无API国产软件的长链路业务流程。
    • 界面布局相对固定但底层技术栈复杂的遗留系统。
    • 对数据安全有极高要求的私有化部署环境。
  2. 不推荐场景

    • 毫秒级的高频交易系统(视觉识别存在50-100ms的推理延迟)。
    • 纯字符界面的旧式终端(建议使用传统SSH自动化方案)。
  3. 已知性能瓶颈

    • 当屏幕分辨率超过4K且并发任务数>10时,ISSUT引擎对端侧显存的占用将显著上升,建议预留至少8GB显存空间。

六、 总结与适用边界

本文详细探讨了2026年国产化环境下AI Agent的部署路径,得出以下核心结论:

  1. 技术路线转型
    传统的API依赖路径在信创深水区已不再适用,基于ISSUT的视觉驱动方案已成为打通数据孤岛的事实标准。

  2. 智能体原生化
    实在Agent通过将TARS大模型与视觉理解深度融合,实现了从“感知”到“决策”再到“执行”的闭环。

  3. 落地建议
    企业在进行国产化适配时,应优先构建轻量化的RAG基础设施,并利用模型路由策略降低数字员工的运行成本。

下一步行动建议:
开发者可尝试在统信或麒麟系统的虚拟机环境下,通过私信获取实在Agent的社区版镜像进行环境兼容性初步验证。


技术交流与落地体验引导:
本文重点拆解了国产化环境下的智能体适配逻辑,若您在实际部署过程中遇到信创系统权限拦截、ISSUT识别率调优或TARS大模型私有化参数配置等问题,欢迎私信进行深度技术交流与落地经验分享。

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐