纯视觉 RPA
截图 + VLM 定位聊天区、输入框与未读红点,不依赖 Accessibility 控件树,适配真实桌面环境。
桌面智能体 · Chat Desktop Agent
基于视觉大模型(VLM)的桌面 RPA 客户端。通过屏幕截图理解微信 / 企业微信界面,生成回复并模拟键鼠发送——无需接入 IM 内部接口,纯视觉驱动。
聊天达人自动识别微信窗口、分析未读消息并生成回复的完整流程录屏。
截图 + VLM 定位聊天区、输入框与未读红点,不依赖 Accessibility 控件树,适配真实桌面环境。
聊天 Provider 分析截图上下文,生成口语化回复;内置防自我循环,避免对自己消息重复回复。
聊天能力通过 manifest + bundle 插件化接入,默认内置通义千问(阿里云百炼),可替换为自有模型。
测试模式仅生成不发送;白名单限定回复对象;API Key 仅存本地,不上传云端。
微信 / 企微自动布局识别;钉钉、飞书等可通过框选向导手动标定区域后使用。
像素 diff 检测新消息、红点本地扫描,空闲轮询几乎不调用 API,降低日常使用成本。
启动时测量聊天主区、输入框与未读区域坐标并缓存。
轮询像素 diff 与未读红点,发现新消息后截取聊天区域。
Provider 返回回复文案,客户端模拟粘贴 + Enter 完成发送(可开测试模式跳过)。
默认使用通义千问(百炼)作为聊天服务,Base URL 为阿里云兼容模式,一般无需额外修改。