前言不搭后语

整个周末感觉时间全被浪费掉了,脑子发热又捣鼓起来我这个博客站点(hexo+github page+cloudflare),换了个主题和《配置GitHub Action发布网站》,搭进去一整天不说,本来是好好的,现在弄得访问不了了(必须挂代理)。

编程可能第一个被 AI 干掉

本周 AI的应用产品大爆发,首先是Manus被炒作的一个邀请码都上万了,然后是开源平替产品 Open-Manus又完美复刻了它。其实 Manus 炒作的意味过大,本质就是智能 Agent + 任务拆解 + 工具链(预开发好的)+一个能运行任务的虚拟机,目的是打造一个能自动完成指定任务的RPA自动化工具,并无什么实质的创新。

另外就是 MCP 产品的大量兴起,MCP 可以理解为 Manus 的最小化demo 产品,通过 MCP 协议,能实现AI编程工具和外部服务(本地服务)的交互,这个是有必要专门展开说一说,因为这个东西是未来自动化编程很重要的一环。

本周我用 Cursor + Claude 3.7 完美实现了一个计算员工工时的小软件(帮老婆做的),AI 写了 95%,我只改了改显示内容,软件虽然很小,但是足以震惊到我了,因为如何我独自开发的话,不说我并不太懂 python 这种工具类语言,我用擅长的 java 去做,也得两天,特别是前端界面也是我一拖再拖迟迟不做的原因之一,但是有个 AI 编程,我用了两个小时就完成了。

AI模型的研发到 AI 模型的应用,都和编程开发紧密相连,也就是AI 圈子里面的创业者和从业者的第一手需求就是编程,虽然普通人用 AI 来写文章问答案的更多,但是最深度使用者的最迫切想解决的问题就是编程,另外就是,编程工作几乎所有的操作都是在PC 上完成的。

随着 MCP 工具的不断完善,好用的智能体、工具链越来越多,AI 大模型认知能力迭代升级,预计三年内,编程开发范式会出现革命性的变革。这个曾需要专业训练的工作,正在变成自然语言与机器理解的简单翻译游戏。

当然编程不会消失,如何能从业务需求中提炼出AI能理解的精准描述,可能是未来工程师重点要锻炼的技能,我感觉就是产品经理+程序员的复合体。

项目和产品

1、微信聊天机器人 KouriChat

同事邱凯发现的一款微信聊天机器人产品,python 应用,通过监控桌面端的微信实现自动聊天的工具,后台对接了 AI 模型。

  1. 微信监控使用的是 pyautogui 库,通过图像识别功能,根据指定图片的样式点击屏幕上对应的按钮或位置。
  2. 后台用的是 Flask框架

网址:
https://github.com/KouriChat/KouriChat

https://kourichat.com/docs/

2、视觉Agent解析框架 OmniParser V2

微软产品,可以理解图片上的内容,比如上传一张电脑桌面或者软件界面,这个产品能返回图片上的各个元素的名称和位置,这个产品的牛逼之处是配合上面说的payautogui 能真正实现自动化点击。

网址:
https://huggingface.co/spaces/microsoft/OmniParser-v2

识别桌面图片如下图所示:
![[Pasted image 20250309155654.png]]
![[Pasted image 20250309155519.png]]

autoMate 是一款革命性的AI+RPA自动化工具,基于OmniParser构建,让AI成为你的”数字员工”,它能够

  • 📊 自动操作您的电脑界面,完成复杂的工作流程
  • 🔍 智能理解屏幕内容,模拟人类视觉和操作
  • 🧠 自主决策,根据任务需求进行判断并采取行动
  • 💻 支持本地化部署,保护您的数据安全和隐私
  • 刚刚的新闻:手机自动化操作的应用也出来了,AppAgentXhttps://github.com/Westlake-AGI-Lab/AppAgentX,
    西湖大学 AGI 实验室张驰团队推出,号称是一款具备自我进化能力的 GUI 代理。底层框架也是OmniParser。

3、人工智能编程工具

  • Cursor
  • WindSurf
  • Trae
  • Copilot
  • Reflection AI

文章和信息

其他

  • 在 spaceship 上新购买了一个域名ianilla.com 三年207 元,还没想好怎么用,就是觉着含义不错,all in ai 的倒序,做个 AI 站点的导航站也可以。
  • 研究了一下 AI 写小说的可能性:

    从世界观设定,到故事角色,再到剧情设计全部交给 AI 去做,然后针对细节比如等级体系、技能列表、人物关系等等,并让 AI 自己编写不断细化角色的形象、背景故事、桥段或者编写一个技能修炼说明手册,最后在框定大的故事纲要的前提下,由 AI 产出全书的大纲和目录,然后再根据大纲编写每一集的故事概要。虽然最后卡在了 token 数量不够用的问题上(因为每编写下一篇文章都要上传前面所有的资料),导致没有继续下去,但是也证明了这个流程的可行性。我想着如果让 AI 不断的细化,生成更多的文件资料,作为知识库,最后是否可以真得写一本小说。

参考资料

  1. 一文看懂:MCP(大模型上下文