README
🌌 DataGallery
以 Agent 范式重构数据工程全链路 · 产业级 Data + AI 解决方案
让数据被理解、被推理、被自演进 —— 从「人找数据」到「智能体驯服数据」。
🎯 Data + AI ⚙️ Agentic 📜 Apache 2.0 🟢 Actively Open Sourcing
👋 我们是谁
DataGallery 是一个专注于 Data + AI 的开源组织,致力于打造一套产业级、端到端的数据智能解决方案。
我们相信:数据的价值不在于「存得多」,而在于能否被机器真正理解、推理与持续进化。为此,我们围绕「数据」这一核心,构建了从语义理解 → 智能体执行 → 自我演进 → 量化评测的完整闭环,把传统数据工程中依赖人工排期、手写 SQL、反复核验的低效链路,重构为由智能体驱动的自动化、可信赖的数据生产力。
🎯 一句话:用统一语义为地基、用 Agent 为引擎、用自演进为飞轮、用评测为标尺,做产业级可落地的 Data + AI 基础设施。
🧭 技术版图
我们的解决方案由四大支柱构成,彼此咬合形成完整闭环:
| 支柱 | 定位 | 状态 |
|---|---|---|
| 🤖 DataAgent | 面向 Data + AI 场景的企业级智能体框架,承载 NL2SQL、特征工程、数据分析等数据任务的端到端执行 | ✅ 已开源(首发) |
| 🧩 统一语义(本体 + 增强元数据) | 为机器构建可理解的数据世界模型:业务本体建模 + 增强元数据,统一对齐多源异构数据的语义 | 🔜 规划开放 |
| 🔄 Agent 与语义的自演进 | 智能体在执行中反哺语义、语义在沉淀中增强智能体,形成数据资产持续自优化的飞轮 | 🔬 研发中 |
| 📊 整体评测框架 | 面向数据智能任务的统一评测体系,量化准确率、稳定性与演进收益,让能力可度量、可对比 | 🔬 研发中 |
🗺️ 整体架构
⭐ 当前开放:DataAgent
🚀 我们决定优先开放组织内最核心的执行引擎 —— DataAgent,欢迎 Star、试用与共建。
DataAgent 是面向 Data + AI 场景的新一代企业级智能数据平台,以 Agent 范式重构数据工程全链路。深度融合 NL2SQL、统一语义层与多智能体协同,在金融问数、AI for Science 等核心场景实现端到端的数据分析与特征挖掘闭环。
| 能力 | 亮点 |
|---|---|
| 🧠 NL2SQL 智能引擎 | 感知→生成→校验→反思四阶段流水线,BIRD 等 Benchmark 执行准确率 74%+,自然语言即问即答 |
| 🔬 自动特征工程 | 自主探索数百张表关联,自动发现特征组合,效率提升 10 倍+ |
| 🏭 全链路数据工厂 | 数据接入→Schema 感知→特征挖掘→模型训练→报告生成,一套 YAML 跑通全流程 |
| 📡 多 Agent 协同原生 | 完整 A2A 1.0 协议支持,自动能力发现与标准化通信 |
| 🧩 YAML 即 Agent | 模型 / 工具 / 记忆 / 工作流声明式编排,分钟级从想法到可运行 Agent |
| 🛡️ 企业级安全沙箱 | Workspace 隔离 + 路径白名单 + 全链路审计,满足金融级合规 |
👉 仓库地址:gitcode.com/datagallery/DataAgent
🗓️ 开源路线图
- DataAgent 智能体框架开源(首发)
- 统一语义服务:本体建模 + 增强元数据(MetaVisor)逐步开放
- 自演进引擎:Agent 与语义协同进化能力
- 统一评测框架:面向数据智能任务的标准化基准
🤝 参与共建
我们正处于活跃的开源建设期,欢迎你以任何方式加入:
- ⭐ Star DataAgent,关注我们的最新进展
- 🐛 提交 Issue 反馈问题与需求
- 🔧 提交 Pull Request 参与代码与文档共建
- 💬 分享你的 Data + AI 落地场景与想法
📄 我们的项目基于 Apache License 2.0 开源。
DataGallery · 让数据拥有理解力与进化力 🌌
企业级 Data+AI Agent | NL2SQL · 多源查询 · 智能分析 · 开箱即用
