火山引擎 LAS AI 数据湖助力千万小时级视频数据处理实践

火山引擎 LAS AI 数据湖助力千万小时级视频数据处理实践 | 极客日志

pip install "daft[ray]" scenedetect torch torchvision ray PIL transformers vllm qwen_vl_utils

def detect_scenes(self, video_path): # 检测场景
    video = open_video(video_path)
    scene_manager.detect_scenes(video)
    scenes = []
    for start, end in scene_manager.get_scene_list():
        scenes.append((start.get_seconds(), end.get_seconds()))
    return scenes

def filter_scenes(self, scene_list, min_duration=4):
    filtered = []
    for start, end in scene_list:
        if end - start >= min_duration:
            filtered.append((start, end))
    return filtered

def _split_and_save_scene(self, scene, video_path, output_dir):
    cmd = [
        "ffmpeg", "-loglevel", "error",
        "-ss", str(start_sec), "-to", str(end_sec),
        "-i", video_path,
        "-c", "copy", clip_path
    ]
    return clip_path

import daft

@daft.udf(return_dtype=daft.DataType.list(daft.DataType.list(daft.DataType.float64())))
class SceneDetectionUDF:
    def __init__(self, min_duration=4):
        self.min_duration = min_duration

    def __call__(self, video_path_series):
        results = []
        video_paths = video_path_series.to_pylist()
        for video_path in video_paths:
            scenes = self.detect_scenes(video_path)
            scenes = self.filter_scenes(scenes, self.min_duration)
            results.append(scenes)
        return results

import daft

@daft.udf(return_dtype=daft.DataType.string())
class VideoSplitUDF:
    def __init__(self, output_dir: str):
        self.output_dir = output_dir
        os.makedirs(output_dir, exist_ok=True)

    def __call__(self, video_path_series, scene_series):
        results = []
        for video_path, scene in zip(video_path_series.to_pylist(), scene_series.to_pylist()):
            # 镜头切分
            clip_path = self._split_and_save_scene(video_path, scene, self.output_dir)
            results.append(clip_path)
        return results

import daft

@daft.udf(
    return_dtype=daft.DataType.struct({
        "clip_path": daft.DataType.string(),
        "frame_paths": daft.DataType.list(daft.DataType.string())
    }),
    num_cpus=10, concurrency=100
)
class FrameSamplerUDF:
    """ 帧采样 UDF, 从视频 clip 中采样帧并保存 """
    def __init__(self, max_frames: int = 8, output_dir: str = "./frames"):
        self.max_frames = max_frames
        self.output_dir = output_dir
        os.makedirs(output_dir, exist_ok=True)

    def __call__(self, clip_path_series):
        results = []
        for clip_path in clip_path_series.to_pylist():
            # 采样帧
            frame_paths = self._sample_frames(clip_path)
            results.append({"clip_path": clip_path, "frame_paths": frame_paths})
        return results

import daft

@daft.udf(
    return_dtype=daft.DataType.struct({
        "clip_path": daft.DataType.string(),
        "passed": daft.DataType.bool(),
        "scores": daft.DataType.python()
    }),
    num_gpus=0.2, num_cpus=10, concurrency=200
)
class FrameFilterUDF:
    def __init__(self, target_size: tuple = (320, 320), threshold: float = 100.0):
        ... # 加载模型
        self.model = self._load_model()

    def __call__(self, frames_data_series):
        results = []
        for frames_data in frames_data_series.to_pylist():
            result = self._score_predict(frame_data)
            results.append(result)
        return results

import daft

@daft.udf(
    return_dtype=daft.DataType.string(),
    num_gpus=1, num_cpus=20, concurrency=800
)
class VideoCaptionUDF:
    def __init__(self, model_path):
        self.model = self._load_caption_model(model_path)
        self.prompt = """基于上述理解，用一段简洁自然的语言描述当前视频场景。不要加入无法从视频判断的内容。请先理解视频片段的具身智能巡检场景，再生成一段客观准确的说明。分析内容包括：
- 环境类型与结构（如车间/仓库/管道区、空间结构是否为狭窄通道/楼梯、设施布局）
- 周围对象（设备、障碍物、环境元素）的相对位置和状态（如阀门开关状态、指示灯颜色、地面杂物位置）
- 关键标识与异常（如设备状态标识、安全警示标识、设施异常情况）
- 环境条件（光照、地面状况、空间约束）
- 重要动态变化或潜在风险（如设备状态变化、新出现的障碍物、机器狗自身姿态变化）
基于上述理解，用一段简洁自然的语言描述当前视频场景。不要加入无法从视频判断的内容。"""

    def __call__(self, frames_data_series):
        frames_data_list = frames_data_series.to_pylist()
        results = []
        for frame_data in frames_data_list:
            # 生成描述
            caption = self._generate_caption(frame_data)
            results.append(caption)
        return results

import daft

def main():
    """完整视频处理 Pipeline"""
    daft.context.set_runner_ray() # 从 TOS 扫描.mp4 视频文件
    io_config = IOConfig(s3=S3Config(...))
    s3_path = "s3://bucket/test_path/**/*.mp4"
    output_s3_path = "s3://bucket/output/parquet/"
    df = daft.from_glob_path(s3_path, io_config=io_config).select('path').with_column_renamed('path', 'video_path')

    # 步骤 1: 场景检测
    df = df.with_column("scene_list", scene_detect_udf(col("video_path")))
    # 将数据从视频维度展开到镜头维度
    df = df.explode(col("scene_list"))
    df = df.with_column("clip_path", video_split_udf(col("video_path"), col("scene_list")))

    # 步骤 2：视频切分
    df = df.with_column("frames", frame_sampler_udf(col("clip_path")))
    # 步骤 3: 帧采样
    df = df.with_column("filtered", frame_filter_udf(col("frames")))
    # 步骤 4: 视频滤波
    df = df.with_column("caption", caption_udf(col('frames')))
    # 步骤 5: 视频描述生成

    # 结果保存到 parquet，上传到 TOS
    df.write_parquet(output_s3_path, io_config=io_config)

def generate_resume_result_daft(input_df, processed_df, join_key):
    if processed_df is None:
        return input_df
    if join_key is None:
        return input_df
    processed_df = processed_df.select(join_key).distinct()
    filtered_df = input_df.join(processed_df, on=join_key, how='anti')
    return filtered_df

操作	是否保序	保序条件 / 不保序原因
collect / to_pylist	是	默认 maintain_order=True，执行引擎采用有序分发 (RoundRobinDispatcher) 和接收 (OrderingAwareReceiver) 机制，最终按分区顺序聚合结果。
show	是	show 本质是获取前 N 行数据 (limit(n)) 进行预览，希望每次看到的结果是一致的
write_csv / write_parquet/ write_json	否	写出操作是典型的 Blocking Sink，为了最大化并行写入性能，它们会强制 maintain_order=False，并使用 UnorderedDispatcher，导致各分区并发写入，输出文件内的数据顺序不等于全局顺序。

火山引擎 LAS AI 数据湖助力千万小时级视频数据处理实践

背景

LAS AI 数据湖

架构升级

实现细节

更多推荐文章

相关免费在线工具

准备工作

步骤 1：视频分镜

场景检测

过滤过短片段

场景切分

Daft Explode 增大并发粒度

步骤 2：视频滤波

解码抽帧

视频打分&过滤

步骤 3：视频理解&Caption

Caption 强化

步骤 4：Daft 的 Pipeline 流式调度

步骤 5：GPU 任务的 Checkpoint

Daft 优化实践

实践 1：CPU 使用超 100% 的情况，Daft 为何还能加速

实践 2：视频类型如何能够做到 Zero Copy

实践 3：在 Daft 场景中如何增大吞吐

实践 4：视频分镜步骤的分布式加速

实践 5：基于 Daft 解耦解码/抽帧与 GPU 推理，构建异步流水线提升 GPU 使用率

最终效果

总结

更多推荐文章

相关免费在线工具

火山引擎 LAS AI 数据湖助力千万小时级视频数据处理实践

背景

LAS AI 数据湖

架构升级

实现细节

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

准备工作

步骤 1：视频分镜

场景检测

过滤过短片段

场景切分

Daft Explode 增大并发粒度

步骤 2：视频滤波

解码抽帧

视频打分&过滤

步骤 3：视频理解&Caption

Caption 强化

步骤 4：Daft 的 Pipeline 流式调度

步骤 5：GPU 任务的 Checkpoint

Daft 优化实践

实践 1：CPU 使用超 100% 的情况，Daft 为何还能加速

实践 2：视频类型如何能够做到 Zero Copy

实践 3：在 Daft 场景中如何增大吞吐

实践 4：视频分镜步骤的分布式加速

实践 5：基于 Daft 解耦解码/抽帧与 GPU 推理，构建异步流水线提升 GPU 使用率

最终效果

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具