在数据分析领域,我们早已熟悉这样一套标准流程:理解业务→数据清洗→建模分析→可视化呈现→总结结论。这一系列步骤往往需要数据分析师在多款工具间反复切换,历经多轮试错迭代,才能最终输出一份可用的分析报告。
而 DeepAnalyze 的核心价值,正是要破解这一效率瓶颈。
一、DeepAnalyze 是什么?
DeepAnalyze 是由中国人民大学与清华大学联合推出的首个面向自主数据科学的代理式大语言模型。
它的核心目标,并不是“辅助分析”,而是在尽可能少的人类干预下,完整跑通一整套数据分析流程。

用一句话概括其核心能力:将原始数据交给 AI,明确分析目标后,无需任何中间操作,即可直接等待数据分析师Agent输出一份完整的数据分析报告。
从数据接入开始,DeepAnalyze 会自动完成全链路工作:
- 数据理解与解析
- 数据清洗与预处理
- 分析建模与指标计算
- 可视化图表生成
- 最终结论提炼输出
以往需要数据分析师花费数天完成的工作,在 DeepAnalyze 中被压缩为两个步骤:上传数据、等待结果。
二、DeepAnalyze 的核心工作机制
DeepAnalyze 并不是简单地“一次性生成答案”,而是模拟人类数据科学家的工作方式,通过一套明确的交互动作与数据环境持续互动。
其核心动作包括:
Analyze:对用户需求进行规划、推理和反思。
Understand:理解数据源结构,包括表格、数据库或文档。
Code:生成用于数据处理与分析的 Python 代码。
Execute:执行代码并获取结果或错误反馈。
Answer:整合分析结果,输出最终报告或结论。

这些动作并非线性执行,而是构成一个完整的
“思考 → 行动 → 观察 → 修正” 的循环。
当代码执行失败或结果不可用时,错误会被反馈给模型,DeepAnalyze 会重新调整分析策略并生成新的代码,直到结果符合分析目标且模型自身完成校验。
这一机制,使它具备了真正意义上的自主数据分析能力。


三、从模型到产品:Ryypol 数据分析师 Agent
DeepAnalyze 的自主分析能力并未停留在模型演示阶段,而是已经以完整产品形态落地。在 Ryypol Agent Store 中,它被封装为可直接调用的数据分析师 Agent。用户无需关注模型部署、运行环境配置或流程编排等技术细节,只需上传数据并提出分析需求,即可快速启动分析流程。
作为承载载体,Ryypol 是一套搭载 Agent OS 的本地 AI 算力中心,所有计算与推理过程均基于本地算力完成,既保障了核心数据的安全性,又确保了分析过程的性能稳定性。

四、传统数据分析 vs DeepAnalyze:差异到底在哪里?
在进入具体案例之前,先看一个现实问题:
如果不用 DeepAnalyze,这类分析通常是怎么做的?
以本案例的 ROI 分析为例,传统方式通常需要经历以下步骤:
哪怕只关注“APP_077 在 2025 年 11 月每天的 ROI”,
代码层面也不可避免地涉及多个步骤。
下面是一段简化后的示意代码(非完整实现),用于说明传统分析中最核心的计算逻辑:
import pandas as pd
import matplotlib.pyplot as plt
# 加载数据
ads = pd.read_csv("ad_performance.csv")
revenue = pd.read_csv("revenue_table.csv")
# 过滤指定 App 与时间范围
ads["date"] = pd.to_datetime(ads["date"])
revenue["date"] = pd.to_datetime(revenue["date"])
ads_nov = ads[(ads["appid"] == "APP_077") &
(ads["date"].dt.month == 11) &
(ads["date"].dt.year == 2025)]
rev_nov = revenue[(revenue["appid"] == "APP_077") &
(revenue["date"].dt.month == 11) &
(revenue["date"].dt.year == 2025)]
# 按天聚合
cost_daily = ads_nov.groupby("date")["cost"].sum()
rev_daily = rev_nov.groupby("date")["revenue"].sum()
# 计算 ROI
roi_daily = rev_daily / cost_daily
# 可视化
roi_daily.plot(kind="line", title="APP_077 ROI – Nov 2025")
plt.show()
即便是这样一段“看似简单”的代码,在真实业务中也往往会遇到:
- 字段命名不一致
- 日期格式异常
- 某些天数据缺失导致 NaN
- 聚合逻辑写错、列被覆盖
- 图表生成失败或结果不可信
这些问题,往往需要反复调试和人工修正。
五、实战案例:广告投放数据分析
为验证数据分析师 Agent 在真实业务场景中的实用性,我们选取了典型的广告投放分析场景展开实测。
1. 原始数据准备
本次实测共上传三份真实业务结构的数据文件,还原完整的广告投放业务数据链路:
广告投放数据:记录不同 App 每天的投放成本与效果
收入数据:反映广告投放为 App 带来的实际变现情况
用户关联数据:用于建立用户、广告与 App 之间的关系,还原真实业务数据结构

2.明确分析任务
给数据分析师 Agent 的目标非常明确:
针对 APPID 为 APP_077 的应用,计算 2025 年 11 月每天的 ROI(投资回报率),并生成对应的趋势折线图。
任务提交后,分析过程即完全交由 数据分析师Agent 自主完成。
六、深度拆解:最终一轮分析的核心动作
在最终输出结果的关键分析轮次中,我们可清晰观测到数据分析师 Agent
的自主工作逻辑:它主动优化了分析路径,采用更稳健的多表关联策略计算每日投放成本与收入,同时全程跟踪关键字段的完整性,规避了多表操作中常见的列丢失、日期解析错误等问题,确保数据处理链路稳定运行。
在此基础上,Agent 自动生成最终的计算与可视化代码,完成三大核心操作:
- 按日期维度汇总每日投放成本与变现收入
- 精准计算每日 ROI 核心指标
- 生成 ROI 趋势折线图,直观呈现变化规律
最终结果显示:
11 月内 ROI 波动明显
个别日期出现 NaN,反映原始数据存在缺失
整体分析逻辑成立,图表能够真实反映投放效果变化


核心结论
平均每日 ROI:2.14
最佳表现日:11 月 23 日(ROI = 7.47)
最差表现日:11 月 30 日(ROI = -0.70)
基于这些结果,Agent 进一步给出了业务建议,例如:
- 重点复盘高 ROI 日期的投放策略
- 排查负 ROI 日期背后的原因
- 从原始数据、到可视化结果、再到业务结论,整个流程由数据分析师 Agent 独立完成。

七、应用场景与核心价值
上述广告投放分析案例仅是 DeepAnalyze 应用价值的一个缩影。在真实业务环境中,该数据分析师 Agent 可广泛适配多行业场景:

其核心价值在于:只要提供完整的原始数据和清晰的分析目标,即可将专业、复杂的数据处理全流程,转化为直观的可视化结果和具备决策指导意义的业务结论,大幅降低数据分析门槛,提升业务决策效率。
八、结语
这一切高效的自主分析能力,均构建于 Ryypol 平台之上。作为搭载 Agent OS 的本地 AI 算力中心,Ryypol 内置 Agent Store,覆盖多种专业工作场景。数据分析师只是其中的一个 Agent,更多面向真实工作的 AI 能力,正在同一平台中持续扩展与落地。
当 AI 不再只是工具,而是能够独立完成完整工作的智能体,数据分析的方式,也正在发生改变。
网硕互联帮助中心






评论前必须登录!
注册