OpenAI DevDay 发布实时 API 和 Vision 微调功能，助力 AI 开发者

OpenAI的2024 DevDay上发布了面向开发者的新工具，尽管近期有高管离职。亮点是Realtime API的公开测试版，使应用程序能够实现低延迟的AI生成语音响应。提供六种不同的声音，但第三方选项受到限制以避免版权问题。

一个演示展示了使用Realtime API的旅行规划应用程序，具有与AI助手的口头交互和实时地图标注。该API还可以与Twilio等呼叫服务集成，用于订餐等任务，尽管它缺乏直接呼叫功能。

引入了Vision fine-tuning，允许开发者使用图像与文本一起增强GPT-4o的视觉理解能力。OpenAI强调禁止使用受版权保护或不适当的图像。

Prompt caching类似于Anthropic的功能，承诺通过缓存常用上下文来降低API成本和延迟。Model distillation允许开发者使用较大的AI模型微调较小的AI模型，以实现成本节省和性能提升。

尽管有这些进展，OpenAI并未宣布新的AI模型或GPT Store的更新，该商店去年曾被预告。开发者期待OpenAI o1或Sora视频生成模型的发布还需等待更长时间。

关键术语：

Scores	Value	Explanation
Objectivity	6	Comprehensive reporting with in-depth analysis.
Social Impact	4	Strong social discussion, influencing some public opinion.
Credibility	5	Solid evidence from authoritative sources.
Potential	5	Very high potential to trigger larger events.
Practicality	5	Extremely practical, widely applied in practice.
Entertainment Value	3	Some entertainment value, attracts a portion of the audience.