Skip to main content

数据库分析

分析数据库,在源代码的上下文中生成有意义的结果。

谁可以使用此功能?

GitHub CodeQL 在安装后按用户授权。 根据许可证限制,只能将 CodeQL 用于某些任务。 有关详细信息,请参阅“关于 CodeQL CLI”。

如果你有 GitHub Advanced Security 许可证,则可以使用 CodeQL 进行自动分析、持续集成和持续交付。 有关详细信息,请参阅“关于 GitHub 高级安全性”。

本文内容

此内容描述了 CodeQL CLI 的最新版本。 有关此版本的详细信息,请参阅 https://github.com/github/codeql-cli-binaries/releases

若要查看早期版本中此命令可用选项的详细信息,请在终端中使用 --help 选项运行命令。

摘要

Shell
codeql database analyze --format=<format> --output=<output> [--threads=<num>] [--ram=<MB>] <options>... -- <database> <query|dir|suite|pack>...

说明

分析数据库,在源代码的上下文中生成有意义的结果。

针对 CodeQL 数据库运行查询套件(或一些单独的查询),以 SARIF 或其他解释格式生成警报或路径样式的结果。

此命令结合了 codeql database run-queriescodeql database interpret-results 命令的效果。 如果你想运行一些查询,但这些查询的结果不满足解释为源代码警报的要求,请改为使用 codeql database run-queriescodeql query run,然后使用 codeql bqrs decode 将原始结果转换为可读表示法。

选项

主要选项

<database>

[必需] 要查询的 CodeQL 数据库的路径。

<querysuite|pack>...

要执行的查询。 每个参数均采用 scope/name@range:path 形式,其中:

  • scope/name 是 CodeQL 包的限定名称。
  • range 是一个 SemVer 范围。
  • path 是文件系统路径。

如果指定了 scope/name,则 rangepath 是可选的。 如果缺少 range,则使用指定包的最新版本。 如果缺少 path,则使用指定包的默认查询套件。

path 可以是 *.ql 查询文件、包含一个或多个查询的目录或 .qls 查询套件文件。 如果未指定包名,则必须提供 path,并将其解释为相对于当前进程的当前工作目录。

要指定包含文字 @:path,请使用 path: 作为参数的前缀,如下所示:path:directory/with:and@/chars

如果指定 scope/namepath,则 path 不能为绝对路径。 此路径应为 CodeQL 包的根的相对路径。

如果未指定任何查询,CLI 将自动确定要运行的一组合适的查询。 具体而言,如果在创建数据库时使用 --codescanning-config 指定了代码扫描配置文件,则将使用来自此路径的查询。 否则,将使用所分析语言的默认查询。

--format=<format>

[必需] 写入结果时采用的格式。 下列其中一项:

csv:逗号分隔的带格式的值,包括具有规则和警报元数据的列。

sarif-latest:静态分析结果交换格式 (SARIF),这是一种基于 JSON 的格式,用于描述静态分析结果。 此格式选项使用最新的受支持版本 (v2.1.0)。 此选项不适合用于自动化,因为它在不同 CodeQL 版本之间生成不同版本的 SARIF。

sarifv2.1.0:SARIF v2.1.0。

graphtext:表示图形的文本格式。 仅与具有 @kind 图形的查询兼容。

dgml:有向图形标记语言,一种基于 XML 的格式,用于描述图形。 仅与具有 @kind 图形的查询兼容。

dot:Graphviz DOT 语言,一种基于文本的格式,用于描述图形。 仅与具有 @kind 图形的查询兼容。

-o, --output=<output>

[必需] 要向其写入结果的输出路径。 对于图形格式,这应该是一个目录,结果(如果此命令支持解释多个查询,则为多个结果)将写入该目录中。

--[no-]rerun

评估数据库中已存储 BQRS 结果的偶数查询。

--no-print-diagnostics-summary

请勿将分析诊断的摘要打印为标准输出。

--no-print-metrics-summary

请勿将分析指标的摘要打印为标准输出。

--max-paths=<maxPaths>

要为每个具有路径的警报生成的最大路径数。 (默认值:4)

--[no-]sarif-add-file-contents

[仅限 SARIF 格式] 包括至少一个结果中引用的所有文件的完整文件内容。

--[no-]sarif-add-snippets

[仅限 SARIF 格式] 包括结果中提到的每个位置的代码片段,在报告的位置前后包含两行上下文。

--[no-]sarif-add-query-help

[仅限 SARIF 格式] [已弃用] 包含所有查询的 Markdown 查询帮助。 它从 /path/to/query.md 文件加载 /path/to/query.ql 的查询帮助。 如果未提供此标志,则默认行为仅包含自定义查询(即查询包中并非 `codeql/<lang&rt;-queries` 形式的查询)的帮助。 此选项在传递给 codeql bqrs interpret 时不起作用。

--sarif-include-query-help=<mode>

[仅限 SARIF 格式] 指定是否在 SARIF 输出中包含查询帮助。 下列其中一项:

always:包含所有查询的查询帮助。

custom_queries_only(默认值)__:仅包含自定义查询(即查询包中并非 `codeql/<lang&rt;-queries` 形式的查询)的查询帮助。

never:不包含任何查询的查询帮助。

此选项在传递给 codeql bqrs interpret 时不起作用。

v2.15.2 起可用。

--[no-]sarif-group-rules-by-pack

[仅限 SARIF 格式] 将每个查询的规则对象置于 <run>.tool.extensions 属性中的相应 QL 包下。 此选项在传递给 codeql bqrs interpret 时不起作用。

--[no-]sarif-multicause-markdown

[仅限 SARIF 格式] 对于有多种原因的警报,除作为纯字符串外,还应将它们作为 Markdown 格式的逐项列表包含在输出中。

--no-group-results

[仅限 SARIF 格式] 每条消息生成一个结果,而不是每个唯一位置生成一个结果。

--csv-location-format=<csvLocationFormat>

在 CSV 输出中生成位置时采用的格式。 即以下值之一:uri、line-column、offset-length。 (默认值:line-column)

--dot-location-url-format=<dotLocationUrlFormat>

一个格式字符串,用于定义在 DOT 输出中生成文件位置 URL 时采用的格式。 可使用以下占位符:{path} {start:line} {start:column} {end:line} {end:column}, {offset}, {length}

--[no-]sublanguage-file-coverage

[仅 GitHub.com 和 GitHub Enterprise Server v3.12.0+] 使用子语言文件覆盖信息。 这会为共享 C 和 C++、Java 和 Kotlin,以及 JavaScript 和 TypeScript 等 CodeQL 提取程序包的语言计算、显示和导出单独的文件覆盖信息。

v2.15.2 起可用。

--sarif-category=<category>

[仅限 SARIF 格式] [建议] 指定要包含在 SARIF 输出中的此分析的类别。 类别可用于区分在同一提交和存储库上(但在不同语言或代码的不同部分)执行的多次分析。

如果以几种不同的方式(例如,针对不同的语言)分析同一版本的代码库并将结果上传到 GitHub 以在代码扫描中展示,则该值在每次分析之间应该不同,这告知代码扫描分析是相互补充的而不是相互取代的 。 (对于不同版本的代码库,相同分析的运行之间的值应保持一致。)

此值将显示为 <run>.automationDetails.id 属性(如果尚不存在,则会在结尾追加斜线)。

--no-database-extension-packs

[高级] 在数据库创建(无论通过代码扫描配置文件还是通过分析代码库“扩展”目录中存储的扩展文件)期间忽略数据库中存储的扩展包。

--no-database-threat-models

[高级] 在通过代码扫描配置文件创建数据库期间,忽略数据库中存储的威胁模型配置。

--[no-]download

在分析之前下载任何缺失的查询。

控制要使用的威胁模型的选项

--threat-model=<name>...

要启用或禁用的威胁模型列表。

该参数是威胁模型的名称,可以选择加“!”前缀。 如果“!”不存在,则启用指定的威胁模型及其所有后代。 如果“!”存在,则禁用指定的威胁模型及其所有后代。

默认启用“default”威胁模型,但可以通过指定“--threat-model !default”来禁用。

“all”威胁模型可用于启用或禁用所有威胁模型。

--threat-model 选项按顺序进行处理。 例如,“--threat-model local --threat-model !environment”启用“local”组中除“environment”威胁模型之外的所有威胁模型。

此选项仅对支持威胁模型的语言有效。

v2.15.3 起可用。

用于控制查询计算器的选项

--[no-]tuple-counting

[高级] 显示查询计算器日志中每个评估步骤的元组计数。 如果提供了 --evaluator-log 选项,则元组计数将包含在命令生成的基于文本的 JSON 日志和结构化 JSON 日志中。 (这对复杂 QL 代码的性能优化非常有用)。

--timeout=<seconds>

[高级] 设置查询评估的超时长度(以秒为单位)。

超时功能旨在捕获复杂查询需要“长久时间”来评估的情况。 这不是限制查询评估可花费的总时间的有效方法。 只要计算的每个单独计时部分在超时时间内完成,就允许评估继续进行。 目前,这些单独计时部分是已优化查询的“RA 层”,但将来可能会变化。

如果未指定超时或将其指定为 0,则不会设置超时(codeql test run 除外,默认超时为 5 分钟)。

-j, --threads=<num>

使用如此多的线程来评估查询。

默认值为 1。 可以传递 0 以在计算机上对每个核心都使用一个线程,也可以传递 -N 以将 N 个核心保留为未使用状态(仍至少使用一个线程的情况除外) 。

--[no-]save-cache

[高级] 主动将中间结果写入磁盘缓存。 这需要更多时间并使用更多(多得多)的磁盘空间,但可能会加快类似查询的后续执行。

--[no-]expect-discarded-cache

[高级] 根据执行查询后将丢弃缓存的假设,决定要评估哪些谓词以及要写入磁盘缓存的内容。

--[no-]keep-full-cache

[高级] 评估完成后,不要清理磁盘缓存。 如果以后要执行 codeql dataset cleanupcodeql database cleanup,这样可能会节省时间。

--max-disk-cache=<MB>

设置磁盘缓存可用于中间查询结果的最大空间量。

如果未显式配置此大小,计算器将根据数据集大小和查询复杂性尝试使用“合理的”缓存空间量。 显式设置高于此默认使用量的限制将启用额外的缓存,从而加快以后的查询速度。

--min-disk-free=<MB>

[高级] 设置文件系统上的目标可用空间量。

如果未提供 --max-disk-cache,当文件系统上的可用空间低于此值时,计算器便会努力减少磁盘缓存使用量。

--min-disk-free-pct=<pct>

[高级] 设置文件系统可用空间的目标部分。

如果未提供 --max-disk-cache,当文件系统上的可用空间低于此百分比时,计算器便会努力减少磁盘缓存使用量。

--external=<pred>=<file.csv>

包含外部谓词 <pred> 的行的 CSV 文件。 可以提供多个 --external 选项。

--xterm-progress=<mode>

[高级] 使用 xterm 控制序列控制是否在 QL 评估期间显示进度跟踪。 可能的值包括:

no:从不产生绚丽的进度;假设是一个非智能终端。

auto(默认值):自动检测命令是否在相应的终端中运行。

yes:假设终端可以理解 xterm 控制序列。 该功能仍取决于能否自动检测终端的大小,并将能够禁用(如果给定 -q)。

25x80(或类似):类似于 yes,并显式指定终端的大小。

25x80:/dev/pts/17(或类似):在不同于 stderr 的终端上显示绚丽的进度。 主要对内部测试有用。

用于控制结构化计算器日志输出的选项

--evaluator-log=<file>

[高级] 将有关计算器性能的结构化日志输出到给定文件。 此日志文件的格式可能会更改,恕不通知,但是它将是一连串用两个换行符(默认)或一个换行符(通过传递了 --evaluator-log-minify 选项)分隔的 JSON 对象。 请使用 codeql generate log-summary <file> 生成此文件的更稳定的摘要,并避免直接分析该文件。 如果文件存在,将覆盖该文件。

--evaluator-log-minify

[高级] 如果传递了 --evaluator-log 选项,则另外传递此选项将最大程度地减小生成的 JSON 日志的大小,但代价是降低其用户可读性。

用于控制 RAM 使用情况的选项

-M, --ram=<MB>

查询计算器将努力将其总内存占用情况保持在此值以下。 (但对于大型数据库而言,阈值可能会被文件支持的内存图破坏,如果出现内存压力,可以交换到磁盘)。

该值应至少为 2048 MB;较小的值将以透明方式向上舍入。

用于控制 QL 编译的选项

--warnings=<mode>

如何处理来自 QL 编译器的警告。 下列其中一项:

hide:禁止显示警告。

show(默认值):输出警告,但继续编译。

error:将警告视为错误。

--no-debug-info

在 RA 中没有发出源位置信息以供调试。

--[no-]fast-compilation

[已弃用] [高级] 省略特别缓慢的优化步骤。

--no-release-compatibility

[高级] 使用最新的编译器功能,但代价是可移植性降低。

QL 评估器的部分版本将时不时支持新的 QL 语言功能和计算器优化并会在 QL 编译器中默认启用它们。 这有助于确保你在最新的 CodeQL 版本中开发查询时体验到的性能可以与代码扫描或 CI 集成中可能仍在使用的稍旧版本相匹配。

如果你不关心查询是否与其他 CodeQL 版本(更低版本或更高版本)兼容,有时可以通过使用此标志提前在编译器中启用最新改进来实现少量的额外性能。

如果版本中最近没有要启用的改进,此选项以无提示方式不执行任何操作。 因此,可以安全地在全局 CodeQL 配置文件中一劳永逸地设置它。

v2.11.1 起可用。

--[no-]local-checking

仅对所使用的部分 QL 源执行初始检查。

--no-metadata-verification

为保证有效性,请勿在 QLDoc 注释中检查嵌入的查询元数据。

--compilation-cache-size=<MB>

[高级] 替代编译缓存目录的默认最大大小。

--fail-on-ambiguous-relation-name

[高级] 如果在编译期间生成不明确的关系名称,则编译失败。

用于设置编译环境的选项

--search-path=<dir>[:<dir>...]

可在其中找到 QL 包的目录列表。 每个目录可以是一个 QL 包(或在根目录下包含一个 .codeqlmanifest.json 文件的多个包),也可以是一个或多个此类目录的直接父目录。

如果路径包含多个目录,则它们的顺序定义了它们之间的优先级:当必须解析的包名称在多个目录树中匹配时,给定的第一个目录树优先。

在查询其中一种语言时,将其指向开源 CodeQL 存储库的签出应该是可行的。

如果已将 CodeQL 存储库签出为未打包的 CodeQL 工具链的同级,则无需提供此选项;将始终在此类同级目录中搜索以其他方式找不到的 QL 包。 (如果此默认值不起作用,强烈建议在每用户配置文件中一次性设置 --search-path)。

(注意:在 Windows 上,路径分隔符为 ;)。

--additional-packs=<dir>[:<dir>...]

如果给定了此目录列表,则先在这些目录中的搜索包,然后在 --search-path 中的目录搜索包。 它们之间的顺序并不重要;如果在此列表的两个不同位置发现同一个包名称,这是一个错误。

如果你正临时开发一个同时出现在默认路径中的新版本的包,这将非常有用。 另一方面,建议不要在配置文件中替代此选项;一些内部操作将动态添加此选项,覆盖任何配置的值。

(注意:在 Windows 上,路径分隔符为 ;)。

--library-path=<dir>[:<dir>...]

[高级] 将添加到 QL 库的原始导入搜索路径的目录的可选列表。 只有在使用未打包为 QL 包的 QL 库时,才应使用此选项。

(注意:在 Windows 上,路径分隔符为 ;)。

--dbscheme=<file>

[高级] 显式定义应针对哪些 dbscheme 查询进行编译。 这只能由非常确定自己在做什么的调用方提供。

--compilation-cache=<dir>

[高级] 指定要用作编译缓存的其他目录。

--no-default-compilation-cache

[高级] 请勿在标准位置(例如在包含查询的 QL 包中或在 CodeQL 工具链目录中)使用编译缓存。

用于配置 CodeQL 包管理器的选项

--registries-auth-stdin

通过传递逗号分隔的 <registry_url>=<token> 对列表,向 GitHub Enterprise Server 容器注册表进行身份验证。

例如,可以传递 https://containers.GHEHOSTNAME1/v2/=TOKEN1,https://containers.GHEHOSTNAME2/v2/=TOKEN2 向两个 GitHub Enterprise Server 实例进行身份验证。

这会替代 CODEQL_REGISTRIES_AUTH and GITHUB_TOKEN 环境变量。 如果只需向 github.com 容器注册表进行身份验证,则可以改用更简单的 --github-auth-stdin 选项进行身份验证。

--github-auth-stdin

通过标准输入传递 github.com GitHub 应用令牌或个人访问令牌,对 github.com 容器注册表进行身份验证。

若要向 GitHub Enterprise Server 容器注册表进行身份验证,请传递 --registries-auth-stdin 或使用 CODEQL_REGISTRIES_AUTH 环境变量。

这会替代 GITHUB_TOKEN 环境变量。

常用选项

-h, --help

显示此帮助文本。

-J=<opt>

[高级] 为运行命令的 JVM 提供选项。

(请注意,无法正确处理包含空格的选项。)

-v, --verbose

以增量方式增加输出的进度消息数。

-q, --quiet

以增量方式减少输出的进度消息数。

--verbosity=<level>

[高级] 将详细级别显式设置为“错误”、“警告”、“进度”、“进度+”、“进度++”、“进度+++”之一。 重写 -v-q

--logdir=<dir>

[高级] 将详细日志写入给定目录中的一个或多个文件,其中生成的名称包括时间戳和正在运行的子命令的名称。

(若要使用可以完全控制的名称编写日志文件,请根据需要提供 --log-to-stderr 并重定向 stderr。)

--common-caches=<dir>

[高级] 控制磁盘上缓存数据的位置,此位置会在多次运行 CLI(例如下载的 QL 包和已编译查询计划)期间暂留。 如果未明确设置,则默认为用户主目录中名为 .codeql 的目录;如果尚不存在,则会创建该目录。

v2.15.2 起可用。