桌面智能体 · Chat Desktop Agent

让 AI 看懂你的聊天窗口
自动、自然、可控地回复

基于视觉大模型(VLM)的桌面 RPA 客户端。通过屏幕截图理解微信 / 企业微信界面,生成回复并模拟键鼠发送——无需接入 IM 内部接口,纯视觉驱动。

效果演示

聊天达人自动识别微信窗口、分析未读消息并生成回复的完整流程录屏。

核心能力

👁

纯视觉 RPA

截图 + VLM 定位聊天区、输入框与未读红点,不依赖 Accessibility 控件树,适配真实桌面环境。

💬

智能对话回复

聊天 Provider 分析截图上下文,生成口语化回复;内置防自我循环,避免对自己消息重复回复。

🔌

可扩展 AI 服务

聊天能力通过 manifest + bundle 插件化接入,默认内置通义千问(阿里云百炼),可替换为自有模型。

🛡

安全可控

测试模式仅生成不发送;白名单限定回复对象;API Key 仅存本地,不上传云端。

📐

多应用支持

微信 / 企微自动布局识别;钉钉、飞书等可通过框选向导手动标定区域后使用。

省 Token 设计

像素 diff 检测新消息、红点本地扫描,空闲轮询几乎不调用 API,降低日常使用成本。

工作原理

  1. 01

    识别布局

    启动时测量聊天主区、输入框与未读区域坐标并缓存。

  2. 02

    感知变化

    轮询像素 diff 与未读红点,发现新消息后截取聊天区域。

  3. 03

    生成并发送

    Provider 返回回复文案,客户端模拟粘贴 + Enter 完成发送(可开测试模式跳过)。

快速上手

环境要求

  • macOS 或 Windows
  • 微信 / 企业微信(或其他支持框选的 IM)
  • 阿里云百炼 API Key(或自定义 Provider)
  • macOS 需授权屏幕录制与辅助功能

使用步骤

  1. 安装并打开聊天达人桌面客户端
  2. 进入设置,填写视觉接口密钥(API Key)
  3. 选择目标应用(微信 / 企业微信等)
  4. 建议先开启测试模式,点击启动验证回复效果
  5. 确认无误后关闭测试模式,开始正式自动回复

默认使用通义千问(百炼)作为聊天服务,Base URL 为阿里云兼容模式,一般无需额外修改。