Databricks公司介绍
Databricks 是目前大数据和人工智能领域最炙手可热的平台之一。简单来说,它是一个统一的数据分析平台,旨在帮助企业解决“数据杂乱”和“模型难落地”的问题。
它的诞生极具传奇色彩:其创始人正是流行开源计算框架 Apache Spark 的原班人马。
特性 | 传统方案 | Databricks (Lakehouse) |
存储 | 结构化与非结构化分开 | 统一存储 |
计算引擎 | 多种引擎碎片化 | 统一的高性能引擎 (Spark/Photon) |
支持任务 | 偏向 BI 报表 | BI + 机器学习 + 实时流处理 |
开放性 | 往往是闭源格式 | 基于 Delta Lake 等开源格式 |
核心理念:湖仓一体 (Lakehouse)


在 Databricks 出现之前,企业通常需要维护两套系统:
- 数据湖 (Data Lake):存海量原始数据,便宜但乱,查询慢。
- 数据仓库 (Data Warehouse):存结构化数据,快但贵,不支持 AI 模型训练。
Databricks 首创了 Lakehouse(湖仓一体) 架构,试图把两者的优点结合起来:在廉价的对象存储(如 AWS S3 或 Azure Blob)上,实现数据仓库级别的性能和治理能力。
Databricks 的四大核心组件
Databricks 的强大建立在几个关键的开源技术之上:
- Apache Spark:核心引擎,处理大规模分布式数据计算。
- Delta Lake:这是 Lakehouse 的基石。它给普通的数据湖文件加上了“版本控制”和“事务支持”(ACID),确保数据不会读到一半出错。
- MLflow:一个管理机器学习全生命周期的平台,负责实验跟踪、模型打包和部署。
- Unity Catalog:统一的治理层,让企业能在一个地方管理所有数据的权限和审计。
为什么它这么受欢迎?
1. 极高的性能
通过自研的 Photon 引擎(用 C++ 编写的向量化查询引擎),Databricks 处理 SQL 查询的速度极快,在很多 Benchmark 测试中甚至超过了传统的云端数据仓库(如 Snowflake)。
2. 全能型选手
它打破了团队间的壁垒:
- 数据工程师:用 Spark 和 SQL 做 ETL。
- 数据科学家:用 Python/R 在交互式 Notebook 里跑机器学习模型。
- 数据分析师:用内置的 Databricks SQL 编写报表和仪表盘。
3. 多云战略
Databricks 与三大云厂商(Azure, AWS, GCP)深度集成。特别是 Azure Databricks,它是微软的一方服务,集成度极高。
4.现状:进军生成式 AI (Generative AI)
最近一年,Databricks 动作频频,收购了 MosaicML,并推出了 Dolly 等开源大模型。他们的目标很明确:让企业用自己的私有数据,在自己的平台上,训练自己的 AI 模型,而不必担心隐私泄露给公共大模型厂商。
Databricks 是一家软件服务商,而 AWS、Azure 和 Google Cloud (GCP) 是它运行的“地基”
它们之间既是深度合作伙伴,在某些领域(如 AI 模型和数据仓库)也是竞争对手。
1. 核心关系:房客与房东
你可以把 AWS/Azure/GCP 想象成提供水电煤和土地的“地产商”,而 Databricks 是在这些土地上盖好的“全装修豪华办公楼”。
- 运行环境:Databricks 自己不盖机房,它运行在这些云厂商的虚拟机(如 AWS EC2)和存储(如 S3, Azure Data Lake Storage)之上。
- 付费模式:当你使用 Databricks 时,你需要付两份钱:
- 给云厂商:付底层的计算(CPU/内存)和存储费用。
- 给 Databricks:付它的软件服务费(按 DBU 计费)。
2. 与三大云厂商的具体关系
虽然 Databricks 是多云可用的,但它在每个云平台上的“待遇”不太一样:
Microsoft Azure:亲儿子待遇
- 产品名称:Azure Databricks。
- 关系:这是微软的第一方服务(First-party service)。这意味着它是微软自家的产品经理和 Databricks 联合开发的。
- 优势:你可以直接在 Azure 控制台创建它,账单直接合在 Azure 里面,客服也是微软的人。它与 Power BI 和 Azure Active Directory (AD) 的集成是最丝滑的。
AWS:最早且最强的搭档
- 关系:Databricks 最早是在 AWS 上成名的,目前 Databricks 约一半以上的收入来自 AWS 用户。
- 2026 年新动态:双方最近加强了在 生成式 AI 上的合作。Databricks 现在深度集成了 AWS 的 Amazon Bedrock(模型库),并且开始使用 AWS 自研的 Trainium 芯片 来训练 AI 模型,以降低成本。
Google Cloud (GCP):后起之秀
- 关系:合作起步较晚,但发展很快。
- 优势:主要侧重于与 Google 的 AI 生态集成。例如,你可以方便地将 Databricks 里的数据喂给 Google 的 Vertex AI 或者 Gemini 模型。
3. 既是队友,也是对手 (Co-opetition)
这是云时代最典型的“竞合关系”:
- 合作点:云厂商非常欢迎 Databricks。因为 Databricks 消耗了海量的计算和存储资源,变相帮云厂商卖掉了“水电煤”。
- 竞争点:
- 在数据仓库领域:Databricks 的 SQL Warehouse 与 AWS 的 Redshift、Azure 的 Synapse、Google 的 BigQuery 直接竞争。
- 在 AI 领域:Databricks 的 Mosaic AI 与 AWS 的 SageMaker、Google 的 Vertex AI 争夺开发者。
Databricks三大核心功能
1. AI / ML(这是你最关心的部分)
这一块是目前 Databricks 的精华,专门用来做大模型(LLM)和 AI 应用:
- Playground(操场):
- 用途:最简单的起步点。你可以直接在这里调用各种大模型(如 Llama 3, Mixtral, DBRX),通过聊天界面测试 Prompt,对比不同模型的效果。
- 建议:先去这里试下不同的 Prompt 效果,不需要写代码。
- Agents(代理):
- 用途:这是 Databricks 最新的 Mosaic AI Agent Framework。它可以帮你构建能“思考”并调用工具(比如查询数据库、搜索文档)的智能体。
- 建议:如果你想做一个“能根据你私有数据回答问题的机器人”,就研究这里。
- AI Gateway (Beta):
- 用途:像一个管家。如果你要调用外部模型(比如 OpenAI 的 GPT-4),通过它来统一管理,可以控制成本和安全。
- Experiments(实验):
- 用途:这是集成的 MLflow。当你训练模型或调优参数时,它会自动帮你记录每一次的成功和失败。
2. Data & SQL(这是 AI 的地基)
AI 需要数据,这部分是 Databricks 处理数据的老本行:
- Catalog(目录):
- 用途:数据的仓库管理员。在这里查看你的表、文件、模型权限。它是基于 Unity Catalog 的,非常方便管理你的私有知识库。
- Compute(计算):
- 用途:开关在这里! 所有的计算都需要“虚拟机集群”。你得先创建一个集群(Cluster),Notebook 才能运行。
- SQL Editor / SQL Warehouses:
- 用途:如果你习惯用 SQL 而不是 Python,这里就是你写 SQL 查询、做数据清洗的地方。
3. Workflow & Data Engineering(自动化)
当你把 AI 逻辑写好后,如何让它自动运行?
- Workspace(工作区):
- 用途:你的文件管理器。里面是你写的 Notebooks(代码笔记本)。
- Jobs & Pipelines:
- 用途:定时任务。比如你写了一个每天自动抓取新闻并做 AI 总结的脚本,就在这里设置每天早上 8 点自动跑。
- Data Ingestion(数据摄取):
- 用途:把你在别处的数据(比如 Excel, S3 存储, 数据库)搬进 Databricks 的快速通道。
Databricks Fundamentals
1. Core Mission & Positioning
Mission
Databricks aims to democratize data and AI.
Platform Definition
Databricks is a unified data and AI platform built on a lakehouse architecture.
2. Core Design Principles
2.1 Open Architecture
- Supports open formats:
- Delta Lake
- Apache Iceberg
- Avoids vendor lock-in
- Works with external engines and tools
2.2 Unified Platform
Single system for:
- Data engineering
- Data analytics
- Machine learning
- AI / LLM applications
2.3 Interoperability
- Cross-engine access
- Open APIs
- Multi-tool compatibility
3. Lakehouse Architecture
Definition
Lakehouse combines:
- Data lake (low cost, flexibility)
- Data warehouse (performance, structure)
Key Benefits
- Single source of truth
- Reduced data duplication
- Lower storage and pipeline costs
- Unified governance
Open Data Formats (High-Frequency Exam Point)
Correct:
- Prevent vendor lock-in
- Allow any engine to read/write data
- Reduce duplication costs
Incorrect:
- Not inherently about encryption
- Not guaranteed faster than proprietary formats
4. Data Intelligence Platform
5. Unity Catalog (Governance Layer)
A universal governance layer for data and AI assets
Capabilities
- Access control (fine-grained)
- Data lineage tracking
- Auditing and compliance
- Cross-workspace governance
What “Universal” Means
- Works across any engine
- Works across any client
- Supports any data format
- Supports any asset type
- Includes open APIs (e.g., Iceberg REST)
Common Misconceptions
- Not limited to Databricks compute
- Not proprietary storage
- Not a search engine
6. AI Interaction Layer
7. Data Engineering & Orchestration
8. Analytics Layer
10. Data Sharing
- Open protocol
- Cross-platform data sharing
- No data duplication required
11. Databricks Marketplace
- Exchange platform for:
- Data
- AI models
- Analytics assets
12. Lakebase (OLTP for AI)
13. Workspace vs Account Layer (Critical Distinction)
14. Agent System Tooling
Correct:
- Agent Framework → development
- Agent Tracing → observability
- Agent Evaluation → quality monitoring
Incorrect:
- Agent Designer (distractor)
15. Full System Mental Model
Databricks stack can be understood as:
- Governance Layer → Unity Catalog
- Storage Layer → Lakehouse (open formats)
- Processing Layer → SQL, MLflow, pipelines
- AI Layer → Genie, Assistant, Vector Search
- Orchestration → Lakeflow Jobs