2020-04-27 2b797e9268af35b05b53e0802377033d 99+ 10 分钟 1.5 k0次访问

视觉生产技术

定义和分类

视觉生产定义

视觉生产就是通过一个/一系列视觉过程，产出新的视觉表达。这里的产出是指人或机器能够感知的图像视频，而不是标签或者特征并且必须是新的视觉表达，和输入的不一样。在过去，这个过程大多数是由人工来实现，但是现在我们希望通过AI技术，来产生一系列新的图像

视觉生产分类

生成:从0到1
拓展从1到N
摘要:从N到1
升维:从An到An+1
增强/变换:从A到B
插入/合成: A+B=C
擦除: A-B=C

视觉生产-通用基础框架

请求(Request)

输入：参数素材草案成品案例

分发(Dispatch)

生产类型：

通用生成(General)
素材合成(Assemble）
照图生图(Imitate)
视频摘要(Summary）
编辑变换(Edit)
视觉拓展(Extend)

服务(Service)

视觉生产引擎：

生成引擎：模型+知识
搜索引擎：素材+案例

响应(Response)

输出：素材成品案例

视觉生产-五个关键维度

可用：带来用户/商业价值
可控：提供用户预期的抓手
多样：保证结果的丰富性
合理：合乎语义/内容逻辑
可看：满足视觉/美学表现

精细理解

分割抠图

识别:知道是什么

人的识别、物的识别

检测：识别+知道在哪儿

缺陷检测多目标检测

分割:识别+检测知道每一个像素是什么

全景分割病灶分割

难点：数据严重不足,标注成本高

思路：

1、复杂问题拆解:粗mask估计+精准matting

2、丰富数据样本:设计图像mask统一模型

视觉生成

照图生图

参考原图,将风格、布局等信息学习并迁移到目标致据上。

个性化设计

多元化设计风格,结合商品品类、投放场景、目标客群的差异进行订制化设计.

Al实现场景设计能力

**场景智能美工 ** IN:营销场景+原始素材 OUT:营销图片调用方式: API

场设计初始化100-200张输入	人工还原机器学习JPG- PSD	最终输出样式PNG
	模板创作机器人
	图片合成机器人

视频生成-框架流程

场景选择、关联商品、素材准备、参数设置-》视频算法（编辑器支持微调）-》渲染合成-》投放、上传

编辑器支持微调：

视频植入

应用场景:广告植入
业务流程:分镜检测
视频理解：广告位检测、跟踪、遮挡检测
素材匹配:场景标签
光影渲染:边缘走样、阴影、高光、装饰
核心挑战:位置、透视、尺寸、遮挡、时间

视频摘要

视觉编辑

视频内容擦除

应用:字幕、台标、广告、场景文字、人体相关内容的擦除
核心挑战和亮点:粗定位、精分割、像素填充、在线训练

视频植入

植入位检测与定位

视觉增强

单点核心技术:人脸增强、去噪音、通用场景超分、LDR升HDR、倍频、去划痕
复合应用技术:人脸修复、标清转高清、LDR-HDR互转、4K重生、老片修复、端上实时增强
核心挑战:分辨率、帧率、色彩

风格迁移

图像区域重要度分析：
- Self Attention GAN–m知元离区域的特征相关性
- 特征层计算, 1x1卷积,降低计算开销
多笔触融合
- 强注意力区域采用细拉度笔链,保证细节
- 弱注意力区域采用粗粒度等触,充分风恰化

颜色拓展

算法指标:高时效性、高合理性、高扩展度
输入:给定目的色系、给定参考图、AUTO
输出:目标图片

视觉制造

实体设计制造

效率低:多次打样,多次沟通(服装设计平均30天
协同差:设计、营销、生成脱节、倒置
定制难:无法实现柔性生产

核心逻辑

服装几何生成

视觉迁移及融合

多样拓展性

视觉开放平台

定位

聚合阿里巴巴视觉(国像/视频/3D图形)原能力,以云上API方式统一提供服务;
建设视觉智能API开放平台,高效管理视觉!法能力生命周期,提供相应效率工具；
基于平台上的API能力,建设双向进入和使机制,扩大开发者生态,打造行业用户心智；
建设和运营阿里视觉平台品牌,扩大影响力,得能力提供者和使用者欢赢

一站式能力选择

规模化:将在平台荟萃数百个AP能力;
多样化:针对多种媒体(图像、视频、3D)多种对象的多个能力;
细粒度:原子化、被集成,解决细粒度的具体问题
场景化:有价值,能实用,针对特定场景特定优化的能力。

视觉生产技术

视觉生产技术

定义和分类

视觉生产定义

视觉生产分类

视觉生产-通用基础框架

请求(Request)

分发(Dispatch)

服务(Service)

响应(Response)

视觉生产-五个关键维度

精细理解

分割抠图

视觉生成

照图生图

个性化设计

Al实现场景设计能力

视频植入

视频摘要

视觉编辑

视频内容擦除

视频植入

植入位检测与定位

视觉增强

风格迁移

颜色拓展

视觉制造

实体设计制造

核心逻辑

服装几何生成

视觉迁移及融合

多样拓展性

视觉开放平台

定位

一站式能力选择

最新评论

最新文章

归档

标签

订阅更新