WebRTC 远程控制里的 AI 编排实践 | 极客日志

KotlinNode.jsSaaSWeChatAI大前端

WebRTC 远程控制里的 AI 编排实践

系统把 WebRTC、语音识别、OCR 和任务编排组合成一个 Android 远程控制方案：语音先转成意图，再通过 OCR 找到目标位置，最后用 DataChannel 发送点击、滑动等控制指令。架构上分为交互、AI 协调、通信和设备控制四层，支持远程控制和本地助手两种模式。实现上以 Android 原生 SpeechRecognizer、ML Kit、TextToSpeech 和 WebRTC 为主，配合信令服务器与 TURN 中继完成连接。方案的重点在于低延迟、可兜底和易扩展，适合远程协助、无障碍辅助和智能家居等场景。

极光发布于 2026/6/300 浏览

WebRTC 远程控制里的 AI 编排实践

项目概述

这套系统是一个双端合一的 Android 应用，把远程控制、语音助手和 OCR 识别放在一起做。它的思路不复杂：用户说一句话，系统先理解意图，再找目标位置，最后把操作落到设备上。真正有价值的地方，不是'能远控'，而是把原本要手动点很多次的事情压缩成一次语音触发。

架构怎么拆

系统大致分成四层：用户交互层、AI 协调层、WebRTC 通信层和设备控制层。交互层负责语音、智能界面和手势入口；AI 层做语音识别、视觉分析、任务规划和执行；WebRTC 负责视频流、DataChannel 和信令；底层则通过录屏、无障碍服务和触控注入去真正操作设备。

这种拆法有个现实好处：AI 不是直接碰设备，而是先生成可执行的任务，再交给执行器处理。这样出错时更容易定位，回滚也不会太狼狈。

项目支持两种模式。

远程控制模式：控制端通过 WebRTC 连接被控端，发送 AI 生成的控制指令。
本地助手模式：设备自己完成语音输入、AI 分析和执行。

前者更适合企业 IT 支持、家人协助这类场景；后者更像本地无障碍助手，离线感也更强。

WebRTC 负责实时通信

视频流通过 PeerConnection 做 P2P 传输，局域网直连优先，公网环境下再走 TURN。控制指令则放在 DataChannel 里传，延迟比走普通接口要低得多，这点对点击和滑动很重要，慢一拍就会明显卡顿。

// 创建 PeerConnection
val rtcConfig = PeerConnection.RTCConfiguration(listOf(
    PeerConnection.IceServer.builder("stun:stun.l.google.com:19302").createIceServer()
))
val peerConnection = factory.createPeerConnection(rtcConfig, object : PeerConnection.Observer {
    override fun onIceCandidate(candidate: IceCandidate?) {
        // 通过信令服务器交换 ICE 候选
        signalingChannel.sendIceCandidate(candidate)
    }
    override fun onAddStream(stream: MediaStream?) {
        // 接收远程视频流
        remoteVideoView.setStream(stream)
    }
})

// 创建数据通道
val dataChannel = peerConnection.createDataChannel("control", DataChannel.Init())
dataChannel.registerObserver(object : DataChannel.Observer {
    override  {
        
         message = String(buffer!!.)
        handleControlMessage(message)
    }
})


 {
     message = JSONObject().apply {
        put(, )
        put(, x) 
        put(, y)
    }
    dataChannel.send(DataChannel.Buffer(message.toString().toByteArray(Charsets.UTF_8), ))
}

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

class VoiceRecognitionModule {
    private val speechRecognizer = SpeechRecognizer.createSpeechRecognizer(context)
    
    fun startListening() {
        val intent = Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH).apply {
            putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_FREE_FORM)
            putExtra(RecognizerIntent.EXTRA_LANGUAGE, "zh-CN")
        }
        speechRecognizer.startListening(intent)
    }
    
    fun setRecognitionListener(listener: RecognitionListener) {
        speechRecognizer.setRecognitionListener(listener)
    }
}

class IntentParser {
    fun parseIntent(text: String): Intent {
        return when {
            text.contains("打开") -> Intent.OPEN_APP
            text.contains("点击") -> Intent.CLICK
            text.contains("输入") -> Intent.INPUT_TEXT
            text.contains("滚动") || text.contains("滑动") -> Intent.SCROLL
            text.contains("返回") -> Intent.BACK
            else -> Intent.UNKNOWN
        }
    }
    
    fun extractTarget(text: String, intent: Intent): String? {
        return when (intent) {
            Intent.OPEN_APP -> extractAppName(text)
            Intent.CLICK -> extractButtonText(text)
            Intent.INPUT_TEXT -> extractInputText(text)
            else -> null
        }
    }
}

class SmartCoordinateFinder {
    private val textRecognizer = TextRecognition.getClient(ChineseTextRecognizerOptions.Builder().build())
    
    suspend fun findTarget(text: String, image: InputImage): Coordinate? {
        return withContext(Dispatchers.IO) {
            val result = textRecognizer.process(image).await()
            // 精确匹配
            result.textBlocks.forEach { block ->
                block.lines.forEach { line ->
                    if (line.text.contains(text)) {
                        val center = calculateCenter(line.boundingBox)
                        return@withContext Coordinate(
                            x = center.x.toFloat() / image.width,
                            y = center.y.toFloat() / image.height,
                            confidence = 1.0f
                        )
                    }
                }
            }
            // 模糊匹配（编辑距离）
            findFuzzyMatch(result, text)
        }
    }
    
    private fun findFuzzyMatch(result: Text, target: String): Coordinate? {
        var bestMatch: Text.Line? = null
        var bestScore = 0.0f
        result.textBlocks.forEach { block ->
            block.lines.forEach { line ->
                val score = calculateSimilarity(line.text, target)
                if (score > bestScore && score >= 0.7f) {
                    bestScore = score
                    bestMatch = line
                }
            }
        }
        return bestMatch?.let {
            val center = calculateCenter(it.boundingBox)
            Coordinate(
                x = center.x.toFloat() / image.width,
                y = center.y.toFloat() / image.height,
                confidence = bestScore
            )
        }
    }
}

class TaskPlanner {
    fun planTask(intent: Intent, target: String): List<TaskStep> {
        return when (intent) {
            Intent.OPEN_APP -> planOpenApp(target)
            Intent.CLICK -> planClick(target)
            Intent.INPUT_TEXT -> planInputText(target)
            else -> emptyList()
        }
    }
    
    private fun planOpenApp(appName: String): List<TaskStep> {
        return listOf(
            TaskStep(TaskType.HOME, "返回主页"),
            TaskStep(TaskType.SCROLL, "查找应用"),
            TaskStep(TaskType.CLICK, "点击 $appName"),
            TaskStep(TaskType.WAIT, "等待应用启动")
        )
    }
}

class TaskExecutor {
    suspend fun execute(step: TaskStep, context: VisionContext) {
        when (step.type) {
            TaskType.CLICK -> {
                val coordinate = coordinateFinder.findTarget(step.target, context.screenshot)
                coordinate?.let {
                    remoteControl.sendTap(it.x, it.y)
                    ttsService.speak("已点击 ${step.target}")
                }
            }
            TaskType.SCROLL -> {
                remoteControl.sendSwipe(0.5f, 0.7f, 0.5f, 0.3f)
                delay(500)
            }
            // ... 其他任务类型
        }
    }
}

class TTSService {
    private var tts: TextToSpeech? = null
    
    fun initialize(context: Context) {
        tts = TextToSpeech(context) { status ->
            if (status == TextToSpeech.SUCCESS) {
                // 优先使用中文语音
                val result = tts?.setLanguage(Locale.CHINESE)
                if (result == TextToSpeech.LANG_MISSING_DATA || result == TextToSpeech.LANG_NOT_SUPPORTED) {
                    // 降级为英文
                    tts?.setLanguage(Locale.ENGLISH)
                }
            }
        }
    }
    
    fun speak(text: String) {
        tts?.speak(text, TextToSpeech.QUEUE_ADD, null, null)
    }
}

# 克隆项目
git clone <repository-url>
cd mobile-remote/signaling
# 安装依赖
npm install
# 启动服务
npm start

# 信令服务器地址
signalingUrl=ws://your-server-ip:xxxx
# TURN 服务器配置（公网部署需要）
turnUrl=turn:your-server-ip:xxxx
turnUser=your-username
turnPass=your-password

指令类型	示例	说明
打开应用	'打开微信'、'打开抖音'	AI 自动查找并打开应用
点击操作	'点击确认'、'点击登录按钮'	OCR 识别并精准点击
输入文本	'输入你好'、'在搜索框输入天气'	自动输入文本内容
滚动操作	'向下滚动'、'向上滚动'	自动滚动屏幕
导航操作	'返回'、'回到主页'	系统导航操作

WebRTC 远程控制里的 AI 编排实践

WebRTC 远程控制里的 AI 编排实践

项目概述

架构怎么拆

WebRTC 负责实时通信

更多推荐文章

相关免费在线工具

语音识别和意图理解

OCR 用来找位置

任务规划和执行

TTS 做反馈

使用方式

这套方案真正落地的点

适用场景

后续还能做什么

总结

更多推荐文章

相关免费在线工具

WebRTC 远程控制里的 AI 编排实践

WebRTC 远程控制里的 AI 编排实践

项目概述

架构怎么拆

WebRTC 负责实时通信

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

语音识别和意图理解

OCR 用来找位置

任务规划和执行

TTS 做反馈

使用方式

这套方案真正落地的点

适用场景

后续还能做什么

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具