老杨说话的地方
  • 首页
  • 关于老杨
  • 博客时间
  • 文章分类
    • 人生感悟
    • 信息技术
    • 往事随风
    • 情感随笔
    • 文学创作
    • 生活记录
    • 评论杂谈
    • 人工智能
  • 留言本
我是老杨
张驰有度 宠辱不惊
  1. 首页
  2. 人工智能
  3. 正文

人工智能中的特征问题

2023年02月15日 1533点热度 0人点赞 0条评论

计算机系统中,没有文字、图像、音频、视频,只有一种东西,就是数字。而且,底层全部都是二进制数字。

任何现实当中的问题,在进入计算机领域时,都需要考虑,如何将这个问题中的物理世界数字化,因为之后数字化之后,才能进入计算机领域。这个数字化的过程,就是编码。编码过的内容,经过计算机处理后,将会变成另外一串数字,这些数字如果要被人看到,就需要用计算机解析出来,再投影到屏幕上,用喇叭播放出来等方式,这个解析的过程,就是解码。

在人工智能领域,所有的人工智能算法,也都无法直接处理现实中的信息,也需要将需要处理的内容数字化,这个数字化,被成为特征提取。数字化之后得到的东西,叫做特征(Feature)。

特征其实可以认为是人工智能领域一类特殊的编码方法。之所以叫特征,是因为这类编码方法,和通常意义上的编码方法不同。常规的编码方法,是如何能够尽可能的不损失信息,最大可能保留所有的信息,比如对汉字来说,编码时要考虑的是,如何编码才能让所有的汉字都有所表示,编码颜色的时候,需要考虑的是如何编码才能尽可能多的保留足够的颜色,因为只有编码足够丰富,所能描述的客观世界也才越逼真。

而特征提取,则是在原始的文件数据中,找出一些最能代表这些数据的,更加简单的数字,组成特征。特征的一个特点是,并不是越长越好,因为特征越长,一般也就意味着越大的计算量。和单一的文件不同,人工智能基本上都是在成千上万的数据中找规律,所以,计算量将随着特征的增加呈指数级上升,所以,如何尽可能找到更短的特征来表示原有的数据,成为特征提取的一个重要指标。

编码

编码是不是描述的一个文件的特征?当然是,而且是很丰富的特征。计算机中表示任何东西,都需要用到编码和解码。例如一张照片,在使用摄像机采集时,会将这张照片分成不同的像素点,横向和纵向各有多少个像素点,就是照片的分辨率,例如1024x768,指的是横向有1024个点,纵向有768个点,这样,一张照片就包含了1024x768=786,432个点。每一个点,都用RGB三种颜色值来记录它当前点的颜色,把所有点的颜色按照顺序,写入一个文件中,就得到了一张照片的数据。

在解析这张照片时,读取这个照片文件,然后顺序读出每一个颜色值,再通过屏幕发光,打印到屏幕上,就看到了这张照片。

文字、声音,全都是同样的道理。

那么编码的数据,能不能直接拿出来当成是特征,进入人工智能领域进行计算呢?一般情况下是不行的。比较重要的原因大概有:

  • 数据量太大。以图片为例,一张1024x768的图片,包含786,432个点,每个点都有一个颜色与之对应,这个数据量是很大的,而人工智能从大量数据中提取规律,动则就是上万的数据,一般的计算机内存,无法装载这么大的数据量。
  • 长短不一的问题。例如一个文本处理算法,通过新闻的标题来判断该新闻属于哪一个分类,一个新闻标题是:"姚明女儿近照曝光,12岁身高接近190,因脾气差被姚明当场说教",另外一个新闻标题是:“拜登就任美国总统”。很明显,这两个标题在同样的编码下,长度是不一致的,必须找一个办法,让他们长度保持一致,否则将很难进入人工智能算法进行处理。
  • 通常来说,编码是不包含意义的。例如图片中的一个颜色,绿色,在计算机中就是一串数字,假设是00FF00。这个数字,在通过显示器打印出来之前,是没有任何含义的。之所以我们能看到绿色,完全是解码之后的投影问题。可是,如果我们在提取特征时,统计一下00FF00这个颜色在一张图像中出现的次数,那么绿色多的,很可能就是叶子、青草,那么这个特征就有了一定的含义。

基于上述种种原因,我们还需要从已有的数据中,提取尽可能短,但是又尽可能保留含义的特征,才能用于人工智能算法。

特征选择

有一些问题,所处理的数据,是天然带有特征的,不需要提取。例如:我想通过一些数据,来分析房价和哪些因素有关,那么有关的这些因素,已经天然的组成了这些数据的特征,比如,房间大小、有几个房间、位置、楼层、年代等等。也就是说,你需要确定的这些因素,其实本身就已经是这个客观事物的属性了,那么这种情况,就不需要提取特征了,这种情况,叫做特征选择。也就是说,房子有很多属性,上面说的只是其中一些,可能还有一些,比如它的主人是谁。可是,它的主人是谁这个特征,通常来说不会影响它的价格,因此,在考虑和价格相关的特征时,它的主人是谁这个特征,就可以被忽略了,也就是不用选择。

那么特征到底该如何选择呢?通常有两个方法:第一根据经验,也就是生活中的常识;第二是通过实验,也就是说挑选不同的特征,进行不断的尝试。

特征提取

其实在大多数情况下,特征是需要被提取的。比如,人脸识别的时候,我们拿到的通常是一个人的头像图片,这个图像当然有它的一些客观属性,比如大小、文件类型等。可是这些属性,并不能成为分析图像里面内容的特征,所以就需要从图像文件中,获取一些特征。

至于如何提取特征,不同的领域将有不同的方法,后续的文章中,将针对自然语言展开说明。

标签: 人工智能 数字 数字化 特征 计算机领域
最后更新:2023年02月17日

老杨

博士,非博学之士;讲师,讲所学所知。糊涂半生,虚度半世,唯愿平淡快乐,度过此生。

点赞
订阅评论
提醒
guest

guest

0 评论
内联反馈
查看所有评论

老杨

博士,非博学之士;讲师,讲所学所知。糊涂半生,虚度半世,唯愿平淡快乐,度过此生。

搜索
最新 热点 随机
最新 热点 随机
中国是不是体育强国? 成功的必备因素 关于华为 别再侮辱我的智商 春秋航空让人长见识 第二青春计划失败 第二青春计划 模型训练错误RuntimeError: expected scalar type Half but found Float 加载onnx模型进行推理 PyTorch模型转onnx格式
遭遇潜规则 在Ubuntu下使用Nvidia驱动实现双屏复制显示 网络背后 晴迷星途07天使爱美丽 PyTorch模型转onnx格式 2017年人生目标 Linux系统中su和sudo的区别以及sudoers文件的使用 关于并行算法的一点思考 二十四小时开机 我的能量哲学(一)一切都是能量
最新评论
  • 关于华为上的老杨确实,苹果手机系统还是有优势的。
  • 关于华为上的乱云AKAY自从换了苹果手机后,对手机再没以前那样热爱研究了,主要是系统省心。
  • 第二青春计划失败上的老杨第二都失败了,第三就算了吧。
  • 春秋航空让人长见识上的老杨应该提供一点水,至少给不想买水的人一个选择的空间。
  • 别再侮辱我的智商上的老杨那个很好,很值得。
  • 关于华为上的老杨Next系统基本没广告。大部分广告都可以关掉吧,我记得我写过一个文章,…
  • 第二青春计划失败上的xqiushi开始第三青春计划吧。
  • 春秋航空让人长见识上的xqiushi那个桌板能放下小米多看电子书,还是不错的。 这个矿泉水市面上没有,特供…
  • 别再侮辱我的智商上的xqiushi只投了那100亿的项目。
  • 关于华为上的xqiushi今年我爸的手机也换成华为,家庭里手机基本都是华为。最不满意的一点就是广…

Google java jsp linux QQ wordpress 中国 习惯 人生 公司 决定 博士 博客 同学 国家 大学 学习 实验室 家 小说 工作 开始 思考 情感 手机 技术 推荐 插件 数据库 文件 晴迷星途 朋友 生活 电影 相声 程序 笔记 网站 网络 置顶 美国 评论 软件 音乐 项目

关注公众号

COPYRIGHT © 2020 老杨说话的地方. ALL RIGHTS RESERVED.

THEME KRATOS YANG Modified BY 老杨

鲁ICP备17014997号-4

鲁公网安备 37021302000754号