视觉生产技术
视觉生产技术
定义和分类
视觉生产定义
视觉生产就是通过一个/一系列视觉过程,产出新的视觉表达。这里的产出是指人或机器能够感知的图像视频,而不是标签或者特征并且必须是新的视觉表达,和输入的不一样。在过去,这个过程大多数是由人工来实现,但是现在我们希望通过AI技术,来产生一系列新的图像
视觉生产分类
- 生成:从0到1
- 拓展从1到N
- 摘要:从N到1
- 升维:从An到An+1
- 增强/变换:从A到B
- 插入/合成: A+B=C
- 擦除: A-B=C
视觉生产-通用基础框架
请求(Request)
输入:参数 素材 草案 成品 案例
分发(Dispatch)
生产类型:
- 通用生成(General)
- 素材合成(Assemble)
- 照图生图(Imitate)
- 视频摘要(Summary)
- 编辑变换(Edit)
- 视觉拓展(Extend)
服务(Service)
视觉生产引擎:
- 生成引擎:模型+知识
- 搜索引擎:素材+案例
响应(Response)
输出:素材 成品 案例
视觉生产-五个关键维度
- 可用:带来用户/商业价值
- 可控:提供用户预期的抓手
- 多样:保证结果的丰富性
- 合理:合乎语义/内容逻辑
- 可看:满足视觉/美学表现
精细理解
分割抠图
- 识别:知道是什么
人的识别、物的识别
- 检测:识别+知道在哪儿
缺陷检测 多目标检测
- 分割:识别+检测 知道每一个像素是什么
全景分割 病灶分割
难点:数据严重不足,标注成本高
思路:
1、复杂问题拆解:粗mask估计+精准matting
2、丰富数据样本:设计图像mask统一模型
视觉生成
照图生图
参考原图,将风格、布局等信息学习并迁移到目标致据上。
个性化设计
多元化设计风格,结合商品品类、投放场景、目标客群的差异进行订制化设计.
Al实现场景设计能力
**场景智能美工 ** IN:营销场景+原始素材 OUT:营销图片调用方式: API
场设计初始化100-200张输入 | 人工还原机器学习JPG- PSD | 最终输出样式PNG |
---|---|---|
模板创作机器人 | ||
图片合成机器人 |
视频生成-框架流程
场景选择、关联商品、素材准备、参数设置-》视频算法(编辑器支持微调)-》渲染合成-》投放、上传
编辑器支持微调:
视频植入
- 应用场景:广告植入
- 业务流程:分镜检测
- 视频理解:广告位检测、跟踪、遮挡检测
- 素材匹配:场景标签
- 光影渲染:边缘走样、阴影、高光、装饰
- 核心挑战:位置、透视、尺寸、遮挡、时间
视频摘要
视觉编辑
视频内容擦除
- 应用:字幕、台标、广告、场景文字、人体相关内容的擦除
- 核心挑战和亮点:粗定位、精分割、像素填充、在线训练
视频植入
植入位检测与定位
视觉增强
- 单点核心技术:人脸增强、去噪音、通用场景超分、LDR升HDR、倍频、去划痕
- 复合应用技术:人脸修复、标清转高清、LDR-HDR互转、4K重生、老片修复、端上实时增强
- 核心挑战:分辨率、帧率、色彩
风格迁移
图像区域重要度分析:
- Self Attention GAN–m知元离区域的特征相关性
- 特征层计算, 1x1卷积,降低计算开销
多笔触融合
- 强注意力区域采用细拉度笔链,保证细节
- 弱注意力区域采用粗粒度等触,充分风恰化
颜色拓展
- 算法指标:高时效性、高合理性、高扩展度
- 输入:给定目的色系、给定参考图、AUTO
- 输出:目标图片
视觉制造
实体设计制造
- 效率低:多次打样,多次沟通(服装设计平均30天
- 协同差:设计、营销、生成脱节、倒置
- 定制难:无法实现柔性生产
核心逻辑
服装几何生成
视觉迁移及融合
多样拓展性
视觉开放平台
定位
聚合阿里巴巴视觉(国像/视频/3D图形)原能力,以云上API方式统一提供服务;
建设视觉智能API开放平台,高效管理视觉!法能力生命周期,提供相应效率工具;
基于平台上的API能力,建设双向进入和使机制,扩大开发者生态,打造行业用户心智;
建设和运营阿里视觉平台品牌,扩大影响力,得能力提供者和使用者欢赢
一站式能力选择
- 规模化:将在平台荟萃数百个AP能力;
- 多样化:针对多种媒体(图像、视频、3D)多种对象的多个能力;
- 细粒度:原子化、被集成,解决细粒度的具体问题
- 场景化:有价值,能实用,针对特定场景特定优化的能力。