云计算百科
云计算领域专业知识百科平台

Azure Databricks Unity Catalog的自动配置与管理

在Azure上部署Databricks工作空间时,你可能会注意到Databricks会自动创建一个名为’unity-catalog-access-connector’的Unity访问连接器。这个现象引发了许多用户的疑问:这个连接器是否必要?能否避免其自动创建?本文将通过实例探讨Unity Catalog的作用及其配置管理。

Unity Catalog简介

Unity Catalog是Databricks提供的一体化治理解决方案,旨在管理组织内所有的数据和AI资产。它通过三级命名空间(catalog.schema.table)来引用数据,使得数据管理更为统一和直观。例如,当默认目录设置为retail_prod时,执行SELECT * FROM myTable将自动引用retail_prod.default.myTable。

自动创建的Unity Catalog访问连接器

当在Azure上创建Databricks工作空间时,即使工作空间未启用Unity Catalog,Databricks也会自动创建一个名为’unity-catalog-access-connector’的连接器。这是因为该连接器是支持Unity Catalog的基础设施的一部分:

  • 目的:该连接器使得工作空间能够与Unity Catalog进行交互,实现数据治理和访问控制。
  • 自动创建:每个工作空间默认都会有一个连接器,确保即便未启用Unity Catalog,基础设施也已准备就绪。

如何管理和配置

  • 启用Unity Catalog:

    • 在工作空间设置中启用Unity Catalog。
    • 创建或选择一个Unity Catalog metastore并将其分配给工作空间。
  • 配置默认目录:

    • 设置工作空间的默认目录以简化查询。
    • 注意:此设置需要重启集群和SQL仓库才能生效。
  • 避免自动创建连接器:

    • 如果不希望使用Unity Catalog,可以通过以下步骤避免自动创建连接器:
      • 进入Databricks工作空间的Catalog选项。
      • 选择工作空间并撤销对该目录的访问权限(REVOKE)。
      • 结果是用户将无法访问该目录,任何尝试访问的查询都将返回权限错误。
  • 实例说明

    假设我们有一个名为dileepdbx的工作空间,我们创建了一个Delta表d01。如果我们未启用Unity Catalog,这个表将直接位于默认目录下:

    %sql
    describe extended d01

    输出将显示表d01属于目录dileepdbx。如果我们撤销对这个目录的访问权限,再次执行相同的查询将得到:

    %sql
    describe extended d01

    结果将是:

    [UNAUTHORIZED_ACCESS] Unauthorized access: PERMISSION_DENIED: Catalog 'dilepdbx' is not accessible in current workspace SQLSTATE: 42501

    结论

    虽然Unity Catalog的访问连接器是自动创建的,但通过适当的配置和权限管理,用户可以控制其使用。了解这些功能和配置选项可以帮助更好地管理Databricks工作空间内的数据访问和治理策略。希望通过本文的介绍,你能对Unity Catalog及其相关配置有更深入的理解。

    赞(0)
    未经允许不得转载:网硕互联帮助中心 » Azure Databricks Unity Catalog的自动配置与管理
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!