YC总裁开源AI记忆系统:万级文件检索的终结者

2026年4月12日

67

672

YC总裁开源AI记忆系统:万级文件检索的终结者

当你的个人知识库积累到上万条笔记、会议记录和日程安排时,AI Agent真的能像贴身秘书一样准确调取信息吗?现实往往很残酷——大多数情况下,你问它「上个月和某公司的会议聊了什么」,它大概率答不上来。这不是AI不够聪明,而是底层记忆系统的检索能力跟不上数据增长速度。

上万文件的检索困境

双引擎架构:精准与语义兼得

以YC总裁Garry Tan的真实数据为例:13年的日历积累了21000+个事件,5800条苹果笔记,280多条会议记录,300多条原创想法——全部存为Markdown文件,总计超过一万个。面对这样的体量,传统grep检索在3000个文件以内还能勉强支撑,一旦超过这个量级,响应时间直接从几毫秒飙升到30秒以上。更关键的是,grep只能做关键词匹配,当你需要搜索「找一些反常识的创业建议」这样的语义需求时,它完全无能为力,因为文档中根本没有「反常识」这个关键词。

语义搜索和精确检索必须同时存在,缺一个都不行。

“GBrain”

「编译事实+时间线」的创新设计

GBrain的解决方案采用了双引擎混合搜索架构:一路使用Postgres的tsvector做关键词检索,专门处理「查找某人的邮箱」这类精确查找;另一路用pgvector做向量搜索,负责「找关于反常识创业的建议」这类语义匹配。两路结果通过RRF算法融合排序,最终输出综合排名。这种架构让精确搜索和语义搜索各司其职,互不干扰。

在知识管理层面,GBrain引入了「编译事实+时间线」的创新设计。每个知识条目的顶部是动态更新的核心结论(可随时修改),底部是原始证据链(永远不动)。这就像写论文——摘要可以反复优化,但引用的文献和数据不能变。如此设计让AI在调取记忆时既能拿到最新结论,又能追溯原始出处。此外,系统还具备「夜间梦境循环」功能——在用户不使用AI时,系统会自动分析当天对话记录,修复断掉的引用链接,合并碎片化记忆,相当于在后台默默帮你整理笔记。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI