菜单

路线图和未来发展

相关源文件

目的与范围

本文档概述了 Open Interpreter 当前的开发重点和未来计划。它提供了即将推出的功能、架构变更和长期愿景的全面概览。有关项目代码贡献的信息,请参阅开发与贡献;有关遥测和数据收集的详细信息,请参阅遥测与数据收集

开发理念与项目范围

Open Interpreter 的开发遵循明确的极简主义理念和清晰的界限。该项目由两个独立但互补的组件组成

项目范围内

  1. 核心:致力于使大型语言模型(LLM)能够通过代码执行安全地控制计算机
  2. 终端界面:用于指导运行代码的大型语言模型(LLM)的纯文本用户界面

项目范围外

  1. 核心功能中超出代码执行的其他功能
  2. 超出文本的更复杂交互(尽管可以包含指向图像/视频等复杂输入的文件路径)

来源:docs/ROADMAP.md52-65

当前开发重点

当前的路线图分为三个主要类别

文档改进

优先级描述状态
翻译与 Mintlify 合作翻译文档待办事项
代码注释在整个软件包中添加更好的注释以帮助贡献者待办事项
LLM 集成关于用自定义大型语言模型(LLM)替换 interpreter.llm 的文档待办事项

来源:docs/ROADMAP.md3-6

用户界面增强

来源:docs/ROADMAP.md9-18

核心功能更新

功能描述状态
异步支持使用 interpreter.chat(async=True) 允许 OI 使用 OI待办事项
受限功能通过 interpreter.functions 使用正则表达式限制特定功能待办事项
嵌入函数用于语义搜索的自定义嵌入函数待办事项
开发者模式系统消息中的 Git 检测和文件结构显示待办事项
安全模式Docker 支持和 Cosmopolitan LibC 探索待办事项
截图改进操作系统模式下的活动窗口聚焦和更改检测待办事项

来源:docs/ROADMAP.md19-32

未来发展规划

路线图的很大一部分重点在于确保 Open Interpreter 保持稳健和适应性

来源:docs/ROADMAP.md33-50

浏览器集成计划

计划中的功能模块是 computer.browser,它将使语言模型能够与网络浏览器交互

功能目的实现说明
browser.ask(query)使用 Perplexity 快速回答网页搜索集成
browser.open(url)导航到网站基于 Selenium API
browser.screenshot()捕获网页视觉内容为非视觉模型返回可访问性树
browser.click()与网页元素交互为非视觉模型使用 HTML 查找文本

该实现将利用 Chrome 的远程调试功能

来源:docs/ROADMAP.md72-171

遥测和模型训练贡献

路线图包括增强支持项目开发的两个系统

遥测系统

遥测系统收集匿名使用数据以指导开发重点

  • 当前实现允许通过 CLI 标志、API 设置或环境变量选择退出
  • 未来的改进可能包括更精细的控制和透明度功能

来源:interpreter/core/utils/telemetry.py1-64 docs/telemetry/telemetry.mdx1-68

模型训练贡献

对话贡献系统允许用户贡献他们的对话用于模型训练

  • 用户可以选择发送过去和未来的对话
  • 实现包括同意工作流和隐私考量
  • 未来的改进可能包括更好的过滤和选择性贡献选项

来源:interpreter/terminal_interface/contributing_conversations.py1-193

总体架构愿景

长期架构愿景旨在使 Open Interpreter 更具模块化、鲁棒性和适应性

来源:docs/ROADMAP.md30-50

结论

Open Interpreter 路线图反映了一种平衡的方法,旨在改善用户体验、增强核心功能并确保长期可持续性。该项目对极简主义的承诺指导着这些开发工作,将重点放在使语言模型能够安全有效地通过代码执行控制计算机,同时保持一个简单但强大的基于文本的界面。

开发团队欢迎与这些优先事项以及项目整体范围和理念相符的社区贡献。

来源:docs/ROADMAP.md1-171