您所在的我的位置详细地址:首页 > 科技
AI存偏见歧视?算法让用户喜好求同?明天小小科学家给出证据
http://www.donggunongye.com  时间:08-08  龙8游戏平台  

  AI存在偏见和歧视,算法让用户喜好求同?明天小小科学家给出了证据
  
  或许你曾经注意到了。当你在电影评分网站给刚看完的电影评完分后。网站后续给你引荐的影片风格会与你看完的电影类似。举个更常备的例子,当你在购物网站搜索过某样物品后,第二天引荐页面上显示的都是类似款。
  
  高能物理可以帮助商家获得客户喜好,但同时也在日趋根据用户的反馈,形成喜好偏见。让用户的生理需求同化。不仅如此 日语。在人脸识别领域,算法自带的歧视和偏见导致的问题,曾经掀起了诸多争议。
  
来自多所大学长江学者的衡量结果为上述的偏见和歧视提供了证据。他们的衡量论文眼下已在预犬印本铺日本官网网站Arxiv上发表。
  
  算法引荐系统会放大偏见,并让用户喜好求同
  
  引荐系统的本质是一种基于产品情节或用户行为的信息过滤。如今,我们用的很多无法下载应用程序和网站都嵌有算法引荐系统。假如你在某视频网站给一部电影打了高分,那么系统就会为你引荐更多同类型的电影。如果你给系统引荐的电影也打了分,系统就会将你的反馈行为增长到系统中,这就是一种反馈循环。
  
  但是引荐算法会受到流行性脑脊髓膜炎偏见(popularity bias)的影响。流行性脑脊髓膜炎偏见是指,一些流行的项目会被经常引荐,而其他项目会被忽略。在上面的例子中,一些电影被更多的人喜爱,获得了更高的评分,就属于流行的项目。或者可以叫做热门项目,这些项目会被更多引荐给用户,这就是流行性脑脊髓膜炎偏见。
  
  流行性脑脊髓膜炎偏见的产生有的源于训练数据本身存在不同的流行度,另有的原因来自引荐算法。随着时间的展缓。这种流行性脑脊髓膜炎偏见将会被加强。因为如果用户在反馈循环中不断为热门电影打高分,这些电影就变得更热门。被引荐的几率也就更大。
  
  为了衡量反馈循环对引荐系统放大偏见和其他方面的影响,来自埃因霍温科技大学,德保罗大学和科罗拉多事件大学科罗拉多博尔德分校分校的衡量人员对取自五种在一番电影数据集上使用三种引荐算法进行了仿真,模拟引荐系统的交互过程。
  
  作为衡量数据的MovieLens 1M数据集涵盖了6040个用户对3706部电影给出的1000209个评分,分数范围在1-5之间。衡量人员对取自五种使用的三种引荐算法分别是:基于用户的协同过滤(UserKNN),贝叶飘香斯无害化排序(BPR)和一种向所有人引荐最流行产品的算法MostPopular。
  
  通过使用这些数据和算法进行迭代——系统不断为用户生成引荐列表。用户又不断对引荐列表中的项目进行打分,衡量人员对取自五种发现,随着时间的展缓,三种算法下的数据均匀流行度都有所上升,但总体必然性呈现下降,这也就证明了引荐系统在反馈循环后的偏见被放大。
  
  流行性脑脊髓膜炎偏见的放大还改变了系统对用户感兴趣的判断。在所有的引荐算法中,用户的偏好不如初始偏好之间的偏差随着时间的展缓而追加。说来,这将导致引荐系统为用户做出的引荐尤为偏离用户的真实喜好,系统引荐给你的电影将不再适合你的口味。
  
  除开,由于引荐系统的偏见被放大,用户几乎只能接触到流行度高的项目,只能看到那些被更多人打了高分的热门电影。在引荐系统中他们的偏好都会向一番共同的范围集中,这就表现为用户偏好的同质化。而反馈循环招致的偏见对少数群体用户的影响更大。
  
  “解决算法偏见的方式变得至关重要的近义词。因为如果处理不当。随着时间的展缓,引荐系统中一番很小的偏差也可能性会被极度放大。”衡量人员对取自五种在论文结尾处写道。
  
  人脸识别用于训练的数据存在巨大偏差
  
  针对人脸识别算法带来的偏见尤为受到关注。诸如,能将模糊照片清晰化的PULSE算法将美国前总统奥巴马天赋s5的模糊照片“还原”出了一张白人面孔,在全美BLM运动(Black Lives Matter,黑人的命也是命)天翻地覆的背景下,就掀起了巨大的争议。
  
  人脸识别领域里冒出算法偏差和歧视,一番重要原因是用于训练的数据集存在很大的偏差性。来自剑桥大学学费和中东科技大学的衡量人员对取自五种就从两个用于识别人脸表情的数据集中找到了证据。
  
  这两个数据集分别为:RAF-DB和CelebA。其中,RAF-DB涵盖来自互联网络的遮天盖地的图片。这些图片包括面部表情和属性注释。而CelebA拥有202599张图像,涵盖10177人的4 0种属性注释。
  
  为了确定两个数据集存在偏差的程度,衡量人员对取自五种对随机子集进行了采样,并裁剪了图像。以使面部在方向上保持一致。他们使用分门别类器来衡量准头和游戏的公平性。
  
  理论上来说,为了让算法保持准确和公平。这个分门别类器应在整个过程中提供不同的人口群体的相似结果。但实际情况事实并非如此。
  
  在RAF-DB数据库中,大部分的图片来自年龄在20-39岁之间的白人。从具体的数据来看。这些图片有77.4%来自白人。15.5%来自亚裔,而只有7.1%来自非洲裔美国人;在性别方面,女性为56.3%,男性为43.7%;在年龄上,超过半拉的图片来自20-39岁的年轻人创业做什么好,3岁以下和70岁以上的人乃至少于10%。
  
  为愈来愈衡量数据库存在偏见的程度,衡量人员对取自五种分别使用了三种算法对数据库的准头和游戏的公平性进行评估。在准头方面,RAF-DB数据库对少数族裔的识别准头低于白人;在游戏的公平性方面。性别属性相对更公平。为97.3%,种族和年龄的游戏的公平性相对较低。为88.1%和77.7%。
  
  而在CelebA数据库的图片来源中,女性比例为61.4%,而男性只有38.6%。在年龄上,年轻人创业做什么好占75.7%,明显超过了占比24.3%的老年人公园性行为图。
  
  在准头方面,CelebA数据库对年轻女性的税率为93.7%,但对老年男性的准头较低,为90.7%。而该数据库在性别和年龄方面的游戏的公平性表现都较好,分别为98.2%和98.1%。
  
  许多公司曾用人脸识别软件给面试者的情绪翻译打分,如果整个系统都是有偏见的,对于面试者来说就代表不公平。面部表情数据集中偏见的存也凸显了监管的必要性充分性。如何用法例防止技术滥用,改为未来这一领域里犯得上思考的问题之一。
  
  巍然新闻大学 王心馨 实习生电视剧全集 何青怡

基本词:引荐,偏见,用户,算法,系统,电影,数据,流行,来自,衡量人员对取自五种
来源:巍然新闻 编辑:城经小编  
>> 相关文章
   发表评论 共有条评论
校名: 电码: 验证码:
匿名发表
>> 精彩图片
 科技快讯
 特别引荐
 业界新知
 科技视频
 热门培训
 热门新闻
Baidu