本文档概述了 Open Interpreter 当前的开发重点和未来计划。它提供了即将推出的功能、架构变更和长期愿景的全面概览。有关项目代码贡献的信息,请参阅开发与贡献;有关遥测和数据收集的详细信息,请参阅遥测与数据收集。
Open Interpreter 的开发遵循明确的极简主义理念和清晰的界限。该项目由两个独立但互补的组件组成
当前的路线图分为三个主要类别
| 优先级 | 描述 | 状态 |
|---|---|---|
| 翻译 | 与 Mintlify 合作翻译文档 | 待办事项 |
| 代码注释 | 在整个软件包中添加更好的注释以帮助贡献者 | 待办事项 |
| LLM 集成 | 关于用自定义大型语言模型(LLM)替换 interpreter.llm 的文档 | 待办事项 |
| 功能 | 描述 | 状态 |
|---|---|---|
| 异步支持 | 使用 interpreter.chat(async=True) 允许 OI 使用 OI | 待办事项 |
| 受限功能 | 通过 interpreter.functions 使用正则表达式限制特定功能 | 待办事项 |
| 嵌入函数 | 用于语义搜索的自定义嵌入函数 | 待办事项 |
| 开发者模式 | 系统消息中的 Git 检测和文件结构显示 | 待办事项 |
| 安全模式 | Docker 支持和 Cosmopolitan LibC 探索 | 待办事项 |
| 截图改进 | 操作系统模式下的活动窗口聚焦和更改检测 | 待办事项 |
路线图的很大一部分重点在于确保 Open Interpreter 保持稳健和适应性
计划中的功能模块是 computer.browser,它将使语言模型能够与网络浏览器交互
| 功能 | 目的 | 实现说明 |
|---|---|---|
browser.ask(query) | 使用 Perplexity 快速回答 | 网页搜索集成 |
browser.open(url) | 导航到网站 | 基于 Selenium API |
browser.screenshot() | 捕获网页视觉内容 | 为非视觉模型返回可访问性树 |
browser.click() | 与网页元素交互 | 为非视觉模型使用 HTML 查找文本 |
该实现将利用 Chrome 的远程调试功能
路线图包括增强支持项目开发的两个系统
遥测系统收集匿名使用数据以指导开发重点
来源:interpreter/core/utils/telemetry.py1-64 docs/telemetry/telemetry.mdx1-68
对话贡献系统允许用户贡献他们的对话用于模型训练
来源:interpreter/terminal_interface/contributing_conversations.py1-193
长期架构愿景旨在使 Open Interpreter 更具模块化、鲁棒性和适应性
Open Interpreter 路线图反映了一种平衡的方法,旨在改善用户体验、增强核心功能并确保长期可持续性。该项目对极简主义的承诺指导着这些开发工作,将重点放在使语言模型能够安全有效地通过代码执行控制计算机,同时保持一个简单但强大的基于文本的界面。
开发团队欢迎与这些优先事项以及项目整体范围和理念相符的社区贡献。