Skyvern-AI/skyvern

Published on Jul 23, 2024

LLM

GitHub 仓库 Skyvern-AI/skyvern 提供了一个使用大语言模型(LLMs)和计算机视觉技术自动化浏览器基础工作流程的开源项目,旨在提高在多种网站上执行任务的稳定性和效率。

摘要

Skyvern 项目通过结合 Playwright 等浏览器自动化库和 LLMs 的能力,实现了对浏览器基础工作流程的自动化,这些工作流程包括但不限于填写在线表单、下载发票、申请工作等。与传统的依赖 DOM 解析和 XPath 的自动化方法不同,Skyvern 利用 LLMs 和计算机视觉来识别和交互网页上的视觉元素,从而提供了一种更加健壮和适应性强的自动化解决方案。该项目支持多种 LLMs(如 OpenAI、Anthropic、Azure OpenAI 和 AWS Bedrock),并且提供了一个简单的 API 调用接口,用户可以通过 API 发送请求来执行复杂的任务,同时还提供了一个可视化工具来帮助用户调试和优化自动化流程。此外,项目还提供了一个托管在云端的 Skyvern Cloud 服务,该服务允许用户在不管理基础设施的情况下运行 Skyvern,并包括了反作弊检测、代理网络和 CAPTCHA 解决等功能。

项目还提供了详细的快速启动指南和高级配置选项,包括支持的 LLMs、环境变量和其他开发者所需的信息。Skyvern 的未来发展计划包括开源核心代码库、增强上下文理解能力、降低运行成本、优化用户界面和集成公共数据集等。社区贡献者被鼓励参与项目,并且可以通过提交问题(PRs)和建议来帮助改进项目。

观点

  • Skyvern 的自动化方法通过 LLMs 和计算机视觉技术,具有更强的适应性和稳定性,能够在没有自定义代码的情况下处理未知网站上的任务。这种方法减少了对特定 DOM 结构或 XPath 表达式的依赖,使得自动化流程更加健壮。
  • Skyvern Cloud 服务提供了一个无需管理基础设施的解决方案,支持并行运行多个实例,并且包含了反作弊检测和 CAPTCHA 解决等先进功能。
  • 通过 Skyvern 的可视化工具,用户可以详细地查看和分析每个任务的执行步骤和动作,这对于调试和优化自动化流程至关重要。
  • Skyvern 项目支持多种 LLMs,包括 OpenAI、Anthropic、Azure OpenAI 和 AWS Bedrock 提供的模型,用户可以根据需要配置使用这些模型。
  • 项目的未来发展计划包括开源 Skyvern 的核心代码库、实现工作流支持、优化 LLM 调用成本、改进用户界面和提供更多的工具集成。这些计划旨在提高性能、降低使用成本和优化用户体验。
  • 项目鼓励社区贡献,并提供了详细的贡献指南,以促进项目的持续发展和改进。
Read Original Article

《Maeiee成长感悟》- 从北漂到准父亲的生活洞察

生活在快速节奏的都市,作为程序员和即将迎来人生新角色的我,经历了无数难忘的瞬间和深刻的思考。这些体验和感悟,我渴望与你分享。

《Maeiee成长感悟》是一个收集我所有重要生活事件和心得的地方。每一篇文章都是对过去经历的反思和对未来生活的展望,真实记录作为一个程序员、副业探索者、终身学习者、一个准爸爸和一个北漂的多重身份之间的平衡与挑战。

这里没有华丽的辞藻,只有最真实的思考和感受,希望它们能触动你的心弦,也许能在你的生活旅程中提供一些启示和慰藉。