第九讲:信息与大数据伦理问题-工程伦理
第九讲信息与大数据的伦理问 1引导 2从数据化到数据主义 3信息与大数据伦理问题 4数字身份困境 5大数据时代个人隐私 6大数据公共治理伦理 7大数据创新科技人员的伦理责任引导案例ldquo棱镜门rdquo下的隐私权 棱镜PRISM是一项由美国国家安全局NSA自2007年小布什时期起开始实施的绝密电子监听计划该计划的正式名号为ldquoUS-984XNrdquo 英国《卫报》和美国《华盛顿邮报》2013年6月6日报道美国国家安全局NSA和联邦调查局FBI于2007年启动了一个代号为ldquo棱镜rdquo的秘密监控项目直接进入美国网际网路公司的中心服务器里挖掘数据收集情报包括微软雅虎谷歌苹果等在内的9家国际网络巨头皆参与其中 国家安全局在PRISM计划中可以获得的数据电子邮件视频和语音交谈影片照片VoIP交谈内容档案传输登入通知以及社交网络细节综合情报文件ldquo总统每日简报rdquo中在2012年内在1477个计划使用了来自PRISM计划的资料 关于PRISM的报道是在美国政府持续秘密地要求威讯Verizon向国家安全局提供所有客户每日电话记录的消息曝光後不久出现的泄露这些绝密文件的是国家安全局合约外判商的员工爱德华middot斯诺登他原本在夏威夷的国家安全局办公室工作在2013年5月将文件复制后前往香港将文件公开2facebook信息泄露丑闻一家剑桥数据分析公司非法获取5000万Facebook用户的个人信息3大数据三大战争 阿里VS顺丰快递抢夺数据的保管权保护用户数据不被窃取用户在淘宝上购买商品用顺丰快递将不能在淘宝上查询到相关信息这将意味着淘宝订单无法顺丰发货了 京东VS天天快递投诉多口碑差拒绝合作背后大股东是苏宁苏宁背后是阿里百世通圆通等实际上防止用户数据被抓取 华为和腾讯 大数据成为基础设施类似水电能源一样的基础社会 李彦宏人工智能时代依靠数据和算法驱动而不是石油 腾讯有10亿用户的庞大数据库写字楼里的各种公司华为有手机写字楼和物业用户的数据缺乏用户消费网购社交和搜索 数据属于谁使用权和所有权用户同意也不是华为也不腾讯的4阿里巴巴数据公司 阿里巴巴本质上是一家什么公司ldquo我们集团本质上是一家扩大数据价值的公司和未来潜力相比云计算和大数据还是只是个婴儿rdquo 阿里健康收集药品实时数据 滴滴快车和高德地图收集用户的出行数据 微博和入股的陌陌收集社交关系的数据 优酷土豆阿
里影业和光线收集线上娱乐数据 恒生电子证券交易数据 菜鸟网络收集物流数据 蚂蚁金服收集支付数据 口碑和饿了么收集餐饮数据 淘宝和天猫交易消费数据5对大数据应用的伦理提问 一个人在网络上的数字身份账户马甲与他她的社会身份在法律上可否认为是一致的 电话号码住址等个人数据是否全部属于个人隐私必须受到严格保护 关于ldquo我rdquo的数据权利应该属于ldquo我本人rdquo还是ldquoBAT公司rdquo 如果因各种原因与ldquo我rdquo相关的数据已被ldquo我rdquo授权给信息平台使用并产生了未知收益ldquo我rdquo有权参与分配吗如果无权为什么如有有权怎么定价 让未经证实的消息甚至谣言自由地无边界地在互联网传播已经造成了普通人的声誉财产损失甚至生命代价面对这种后果该不该治理与管控怎么治理 生活在网络化大数据时代的ldquo我rdquo怎样才能保有自身安全 将大数据技术用于预测危险社区易犯罪人群是否涉嫌歧视和侵犯人权 假设法国政府因为采用大数据预测而提前成功阻止了2015年11月13日发生在法国巴黎致使100多名无辜群众遇难的暴恐袭击是否应当受到赞扬和肯定大数据时代的来临 1大数据是21世纪的ldquo新石油rdquo是时代变革和经济社会发展的推动力 2大数据信息价值开发涉及科技商业医疗教育人文以及社会生活的各个领域在互联网云计算和海量数据存储技术的推动下大数据已成为全球科技界企业界学术界和各国政府关注的焦点各行各业高度重视研究和开发大数据潜藏的价值 3世界各国的大数据战略 联合国高度重视大数据的研发2009年联合国也正式开启了ldquo全球脉动rdquo项目旨在数据获取存储和分析方式的创新希望通过ldquo大数据rdquo来预测和判断某局部地区出现的经济社会政治和自然等因素引起的重大问题以提前部署援助项目和支持力度 2012年联合国就大数据的研发做了进一步的规划和部署 2010年11月德国联邦政府发布了《信息与通讯技术战略2015数字化德国》 2013年2月法国总理让-马克-艾罗在ldquo2012年欧洲数字化战略rdquo所定目标的框架内提出法国政府数字化路线图旨在通过推进数字化建设为年轻人提供更多的就业机会利用数字化提高企业的竞争力 《欧盟开放数据战略》则将重点放在大数据技术处理数据门户网站以及科学研究数据基础设施等几大领域使欧洲企业和社会公众能够更加便捷快速地获得以政府为主
的公共组织信息建立一个汇集不同成员国及欧洲机构数据的ldquo泛欧门户rdquo 美国奥巴马政府在2012年就投入两亿美元支持ldquo大数据研发计划rdquo旨在增强海量数据收集存储和处理能力这事关美国的国家安全和未来竞争力他们主张未来对ldquo大数据rdquo的研发能力将成为国家竞争力的重要组成部分是国家的重要战略资源 2015年9月国务院发布了《促进大数据发展行动纲要》这是我国关于大数据研发的顶层设计是指导未来大数据信息价值开发的纲领性文件旨在推进数据资源的开放共享和开发完善电信网络普遍服务超前布局下一代互联网和大数据的发展战略大数据4V特征结构化数据半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式网络日志音频视频图片地理位置信息等对数据的处理能力提出了更高要求实时获取需要的信息比如在客户每次浏览页面每次下订单过程中都会对用户进行实时的推荐决策已经变得实时数据量巨大全球在2010年正式进入ZB时代IDC预计到2020年全球将总共拥有35ZB的数据量沙里淘金价值密度低虽然数据量很大但是价值密度较低如何通过强大的机器算法更迅速地完成数据价值ldquo提纯rdquo是目前大数据亟待解决的难题大数据产品市场价值解决转化1海量Volume3速度Velocity4价值value2多样Variety102信息与网络空间伦理 1人际关系虚拟化 推特脸书博客等各种社交平台线上真假互存的社交活动越来越侵占人更多时间 深度交往2不正当的网络行为 发明病毒木马共计他人信息系统偷窥他人信息偷到他人软件或账户从事非法走私色情毒品 ldquo匿名rdquo身份难以追责平等与公正 越来越多社会活动和机会依赖网络空间 信息贫困群体或地区如老年人残疾人受教育少的人群等 谁有责任向ldquo信息贫困rdquo人群提供相关技术服务和平等生存的伦理责任如何去行动知识产权争议 信息时代拥有和控制信息是通向财富权力和成功的关键 数字化信息容易复制携带修改传输和获取 搜寻他人的信息作品进行改造成自己的作品是否正当全球化信息交互治理困境 网上可以自由跨越国界使得公民参与民主过程中国家政府决策和管理更公开行为更透明更负责 黑客攻击网络瘫痪如何网络管控避免恐怖袭击 互联网ldquo地球村rdquo如何形成对全球化信息交互利益和风险的共识又该如何共同参与建立正当合宜的全球政策和治理框架1022大数据时代伦理新问题 大数据时代作
为技术应用提供方的数据工程师大数据创新企业政府部门与作为使用方的普通用户社会推按提共同面对以下新的更集中的伦理挑战 103数字身份困境 人的身份用来界定一个人是谁或是什么具有可识别性独特性唯一性 数字身份是在网络空间领域非常流行的概念是描述一个主体或实体的数据是有关一个人的所有在数字上可得的信息的总和大数据引发的数字身份新问题 数字身份具有重要的商业价值 数字身份被盗用造成财产损失12306 数字身份被追溯ldquo人肉搜素rdquo实名制伦理考量 网络用户运营商学者和政府对网络实名制治理政策是否正当104大数据时代的个人隐私 个人信息收集收集公开数据公开收集数据日志文件隐藏式收集攻击破解买卖关联推断 1隐私问题 大数据时代之前相比现在大量的个人隐私信息被收集更能挖掘出其潜在的价值且更难控制更难追究责任大量数据的收集是信息价值开发的首要前提现代互联网具有开放性共享性和全球性等特征也正是在这样开放的网络环境下大数据信息价值开发更容易通过强大的大数据技术获取大量的原始数据更容易将从前属于个人隐私领域的信息视为公共信息从而导致对隐私权的侵犯 大数据价值开发的一个核心任务是预测人未来的可能行为预测与人相关事物的未来可能状态通过强大的数学算法对大量数据进行处理分析由此来预测未来事情可能发生的状态 不同人的坐姿不同人的声音婴儿生命体征搜索关键词引擎的震动机票销售等通过量化方法把这些情形转化为数据对这类数据进行挖掘开发出更多的有创新性价值的产品或建议 Farecast利用机票销售数据来预测未来的机票价格趋势 根据某人的坐姿和体重在汽车座椅上安装防盗系统 根据不同的声音来完善语音识别系统 麦格雷戈博士通过婴儿的生命体征来预测传染病的发生 谷歌使用搜索关键词来监测流感的传播 根据引擎的散热和震动来预测引擎是否会出现故障 这些情形表明可以从日常的大数据中挖掘出未被开发的潜在价值 通过数据分析和挖掘开发这些信息的潜在价值进行定向营销可能导致对个人隐私权的侵犯 例如某商场通过分析客户购物行为的数据对某特定客户进行个性化的定向推销导致一位父亲抗议商场给她只有十几岁的女儿推荐怀孕和婴儿用品 公司能够通过对不同类的大数据进行重组准确定位特定客户的身体健康状况 个性化推荐治疗梅毒的相关方法和药物 公司也有可能通过多种数据的组合挖掘出某两个人之间有婚外情或同性恋105数据权利 数据资产属性与数据权属 财产必备的三要素 被他拥有和控制能
够用货币来衡量能为他带来经济利益 数据是否具备这些特性106大数据公共治理伦理 中西公共治理价值观的差异 家国天下传统社会伦理的中华价值观表现 1责任先于自由 2义务先于权利 3群体高于个人 4和谐高于冲突大数据公共治理的伦理选择 大数据公共治理的伦理困境表现在 一方面网络和信息技术使得实施网络信息管控异常方便 另一方面怎么界定保护转换或授权用户的信息访问控制权还未形成社会共识 信息惠民方便和安全和谐美好107大数据创新科技人员的伦理责任 科技人员的伦理责任意识 从构思设计开发投入市场使用到服务乃至退出市场科技人员首先面对的是企业和客户 其次需要面对非客户的社会大众和政府 正确识别各类责任主体的利益关注点理解他们的价值追求及行为动机是大数据创新科技人员必须具备的伦理责任意识大数据创新科技人员的伦理责任 1尊重个人自由 大数据时代尊重个人自由很大程度上表现为遵从隐私伦理道德 2强化技术保护 通过不断完善信息系统安全性能部署防火墙入侵检测系统防病毒系统认证系统采取访问过滤动态密码保护登录限制网络攻击追踪方法的技术手段强化应用数据的脱敏处理存取管理业务审计确保系统中的用户个人信息得到更加稳妥的安全技术防护3严格操作规程 制定严密的数据管理和追责制度包括数据获取清洗存储传输分享交易关联分析等环节的权限管理和访问日志规范所有能接触到数据及其算法的人员的操作行为 4加强行业自律 努力培育和强化行业自律机制发挥行业自律的灵活性和专业性优势弥补法律法规滞后的缺陷 重点行业应制定自律规范和自律公约规范大数据的使用方式和标准流程5承担社会责任 共同承担建设社会安全可信平等可及惠民的大数据社会责任避免发明伤害他人涉嫌歧视损害名誉降低道德水平的大数据产品和服务在企业私利和社会公德之间履行好大数据科技创新人员的社会责任大数据科技创新人员的行为规范 IEEE发布《国际电气电子工程师行为规范》提出5条规范 尊重他人 公平对待人 避免伤害他人财物名誉或聘用关系 克制而不报复 遵守与IEEE有关往来的各国适用法律以及IEEE的政策和流程 尊重他人隐私保护他们的个人信息和数据不在现实和网络空间中做危害人类的事情不用错误或恶意的方式侵害他人身体财产数据名誉和聘用关系 不在网上和其他场所传播关于他人的恶意谣言诽谤污言秽语和物理伤害谢谢 大数据很抽象表示数据规模的庞大 大数据泛指巨量的数据集因可从中挖掘出有价值的信息而受到重视《华尔街日报》将
大数据时代智能化生产无线网络革命称为引领未来繁荣发展的重大技术变革目前对大数据尚未有一个公认的定义不同的定义基本上是从特征出发试图给出大数据的定义大数据有多大大数据信息爆炸时代产生的海量数据大数据到底有多大一天之中 互联网产生的全部内容可以刻满168亿张DVD 发出的邮件gt2940亿封美国两年的纸质信件数量 社区帖子达200万个《时代》杂志770年的文字量 卖出手机378万台全球每天出生的婴儿371万 helliphellip我国网民数量居世界之首每天产生的数据量也位于世界前列大数据的特征 数据量大Volume大数据的起始计量单位至少是P1000个TE100万个T或Z10亿个T 类型繁多Variety包括网络日志音频视频图片地理位置信息等等 价值密度低Value随着物联网的广泛应用信息感知无处不在信息海量但价值密度较低 速度快时效高Velocity处理速度快时效性要求高如雅安地震等ldquo大量化Volume多样化Variety快速化Velocity价值密度低Valuerdquo就是ldquo大数据rdquo的显著特征或者说只有具备这些特点的数据才是大数据大数据不仅仅是ldquo大rdquo多大至少PB级比大更重要的是数据的复杂性有时甚至大数据中的小数据如一条微博就具有颠覆性的价值 如何让大数据更有意义是重点 对非结构化数据的内容理解是实现大数据资源化知识化普适化的核心 非结构化海量信息的智能化处理自然语言理解多媒体内容理解机器学习等 麻省理工学院数字商业中心的首席科学家安德鲁麦卡菲对北美33家上市公司的高管进行了结构性访谈之后发现运用大数据做决策的那些行业领先企业比其竞争对手在产能上高5利润上高6但现有的数据不够联没有跨界的大数据不是真正的大数据软件是大数据的引擎 分析技术数据处理自然语言处理技术统计和分析ABtesttopN排行榜地域占比文本情感分析数据挖掘关联规则分析分类聚类模型预测预测模型机器学习建模仿真大数据技术数据采集ETL工具数据存取关系数据库NoSQLSQL等基础架构支持云存储分布式文件系统等计算结果展现云计算标签云关系图等 存储结构化数据海量数据的查询统计更新等操作效率低非结构化数据图片视频wordpdfppt等文件存储不利于检索查询和存储半结构化数据转换为结构化存储按照非结构化存储 解决方案 HadoopMapReduce技术 流计算twitter的storm和yahoo的S4