02 Feb 2021
前不久加入了前哨科技训练营,哨长(王煜全)有个观点我非常认同———看得懂才拿得住。为了看得懂行业趋势、企业价值,特对训练营方法论进行整理,并决定在次基础上,每双周研究一家科技型企业。
在整理方法论之前,需要明白两个概念:趋势投资和价值投资,前者表示热点板块所有公司全部升值,后者表示趋势过后,回归公司内在价值,出现两极分化。由此我们需要知道两个重点,其一,未来产业风口(热点板块)在哪?其二,热点板块里哪些公司价值更明显?
1. 如何定义产业风口
考虑市场潜力是否明显,包括已有业务、已决定要做的业务、未来有潜力的业务
例如苹果(已有业务:手机;已决定要做的业务:ar、vr;未来有潜力的业务:大健康),特斯拉(已有业务:电动车代替燃油车;已决定要做的业务:自动驾驶等软件业务;未来有潜力的业务:新能源)
观察收入利润是否成指数级增长
例如寒武纪(高端芯片,收入一般)、地平线(中低端芯片,收入可观)
判断是否能够形成风口,包括好坏业务判断标准、风口来临前兆、已经形成风口特征
(1)好坏业务判断标准
好业务:产品生产规模化节省时间(Irobot“扫地机器人,提高效率、替代还是增强”)=>服务经验规模化(完整的职业替代和增强)=>创意规模化
坏业务:市场越做越小(AI美颜)、K12教育(零和博弈、烧钱大战)
(2)风口来临前兆
从风险投资VC到股权投资PE,市场小范围启动,收入增长迅速
(3)已经形成风口特征
有头羊,有跟随,形成板块
2. 如何定义企业成败
市场的天花板(新东方为什么不如阿里)
企业成长性(市销率比市盈率重要)
扩大经营的难度(米其林三星为什么做不大)
用户忠诚度与传染性(从关系到超越关系)
竞争与壁垒(uber与阿里,市场本身要成长、市场里的份额要成长,电动车分品类替代燃油车)
3. 分析企业的方法
市场数据收集与系统分析
(1)保持对数据敏感度,固态电池Quantumscape工程师跳槽苹果
(2)保持对规则的理解力
电动车市场预期与教育辅助市场预期有什么不同?
现有全球汽车保有量20亿台,特斯拉目标时年产2000万辆,每年替代全球1%燃油车
教育辅导现有1%,而韩国时70%,每个人能交多少钱,东西太热政府调控(虚构千亿级市场)
(3)思考的系统性
产业:颠覆、增强、新兴
企业:团队与经营水平
技术:延伸性与领先性
技术与产业化比较:技术和技术比较,一定要带上产业化时点,要在同一个产业化时点比较技术优势才有意义,如果产业化时点不同的技术是不可比的)
(4)保持分析的持续性(特斯拉50万辆小目标)
预测方法
(1)范围越窄,预测越准
连续监控、连续预测(《超预测》:通过训练,准确的预测可以做到,并不断地提升准确率)
小心外展过长(正常期:未来1-2年能很准,超过5年就难准,小变化积累起来就会不准;变革期:巨变,小心业内专家的话)
(2)把握规律越清晰,预测越准
社会规律:社会是演化的,不要刻舟求剑
产业规律:电动车给传统行业带来的冲击
行业规律:为什么IT公司能推动,中国运营商推不动
企业规律:并购能力,为什么研发实力无法决定科技实力?
(3)找到变化的信号
系统改变的关键点“销售代表主导没变,个性化治疗医疗器械化是产业变化的关键”
捕捉实现改变的信号“model3可提车”
(4)预测的问题
越模糊越没有信息量,不讲时点的预测没有意义
26 Nov 2020
随着越来越多的业务从线下交付转向在线交付,作为企业与用户打交道的重要界面,联络中心在企业客户经营过程中的重要性与日俱增,其每天所产生的各类交互数据规模日渐客观,其中由电话坐席和在线坐席共同产生的各类交互文本数据中,记录了企业与客户整个交互过程中的大量客户需求、产品偏好和服务评价等业务信息,是典型的价值相对密集的“非结构化大数据”,是企业改善产品服务和客户经营绩效的重要参考因素。
中金智汇推出的新一代联络中心智能分析系统综合应用了大数据分析挖掘与自然语言处理技术,以实现深度挖掘联络中心各类客户交互数据的价值为目的,面向联络中心提供分析能力和应用服务的智能决策支撑系统,该产品在三个方面提供了全新价值,旨在充分响应应用智能化大背景下联络中心运营分析的升级需求,为金融、互联网、政府等行业领域的大中型联络中心高效运营和升级转型提供有效支撑。
· 在数据分析应用中突破性地引入多种自然语言处理技术
传统的各类商业决策支持系统和数据分析系统中,都比较注重结构化数据的分析处理和挖掘,一方面是传统观念认为结构化数据的价值密度相对较高,另一方面,非结构化数据解析的技术成熟度和普及度在相当长一段时间内都有所欠缺,正是因此作为联络中心一项重要的数据资产,文本数据在过去很长一段时间内没有得到足够重视。由于大数据概念的深入人心,各类半结构化、非结构化数据的价值逐渐得到认可和越来越多的重视,随着人工智能技术的迅猛发展,自然语言处理技术的广泛商用,针对文本数据进行深度挖掘成为可能。中金智汇正是基于这个日益迫切的市场需求,在所提供的智能质检分析系统广受市场欢迎的基础上,推出了新一代联络中心智能分析系统。在过去一年多时间里,更是通过不断的改版升级,结合联络中心客户经营数据挖掘分析的深度实践经验,在该系统中引入了多年来探索和积累的多种自然语言处理技术,其中包括基于关键词的文本检索技术,综合利用知识图谱、依存句法、指代消解的文本结构化技术,和根据上下文识别段落意图、判别篇章主题的文本理解技术等,为联络中心数据分析工作的升级和深入提供支持。
· 面向业务运营人员提供的多样化主题分析报告
针对大多数联络中心的运营人员更关注具体业务问题的响应及解决方式,而非处理这些数据所需的技术手段,联络中心智能分析系统提供面向具体业务场景的主题分析报告。其中包括来电原因分析、异常话务分析、坐席执行分析、客户投诉分析等呼入型业务,和金牌话术分析、失败原因分析、营销执行分析、同业竞争分析等呼出型业务,共18种不同类别的主题分析报告。以来呼入型业务为例,借助智能分析系统,我们可以根据文本内容将其划分为产品质量、功能维护、客户服务等不同类型的原因,进一步我们还能够提炼出“手机银行-转账-不成功”“信用卡-遗失-补办”等具体的业务问题。通过统计分析方法,我们不仅可以迅速找到热门的来电原因和业务问题,还可以结合时间、地区等业务数据进行对比,从而看清来电原因的变化趋势及深层的问题反馈,为现场运营指导提供强有力的数据支持。关于呼出型业务,智能分析系统一方面会自动判断一通电话完成后的营销状态,包括成功、强烈意向、明确拒绝、犹豫等,另一方面会总结高绩效成功坐席的历史通话内容,提炼最佳话术流程及FAQ应答方式。据此,智能分析系统能够针对不同营销状态下的客户,推荐最佳的跟踪时间及营销方式,从而有助于联络中心提高有意向客户的成交量,避免对无意向客户耗费过多人力成本。
· 面向具有进阶需求的专业化团队提供自主分析支持
针对配备了专业的数据分析人才或数据应用开发人员的机构,智能分析系统还提供了更加灵活的自主分析功能。自主分析功能主要包括自定义数据集提取、多种底层文本分析建模能力和自定义报表展示。首先,分析人员能够根据业务需求在系统中快速提取到业务所需的文本数据,其次针对这批文本数据,分析人员能够借助系统所提供的特征提取、文本分类、知识图谱等底层的文本分析建模能力,快速将这批文本拆解成业务可用的结构化字段。接下来,分析人员可以在自定义报表模块对这批加工后的业务数据进行汇总分析,形成柱状图、饼状图等可视化图形。最后,分析人员还可以加入地区、产品、坐席组等数据进行交叉分析,制造多维度的主题分析报告。结合文本数据进行自主分析,可以帮助企业灵活应对复杂多变的业务分析需求,为后续联络中心运营决策提供强有力的数据支持。在必要的情况下,也可由智汇专业的分析团队提供文本数据分析挖掘相关的二次研发支持,为实现联络中心真正深度文本价值挖掘提供必要保障。
对客户交互行为数据的深度利用是大数据时代的一个重要趋势,中金智汇的新一代联络中心智能分析系统将有利于帮助盘活企业数据资产,提升企业客户经营效率,更有望助力协助企业在此过程中完成客户经营数据数据到客户经营知识的转化和沉淀,为联络中心、客户经营过程的数智化乃至企业经营的全面数智化打下坚实基础。
25 Nov 2020
前迪士尼EVP在总结他10年的迪士尼经验时说:“三流的企业卖产品,二流的企业卖服务,一流的企业卖体验。”身处体验为王的潮流中,我们时刻面对日趋激烈的竞争,用户体验的好坏直接关系到企业的竞争优势。NPS作为可衡量用户体验的重要指标之一,受到苹果、微软、京东等国内外各大厂商的高度关注。那么NPS具体是什么?为什么采用NPS进行分析?如何基于NPS优化用户体验,提高企业利润?今天就在这里为大家答疑解惑。
· 什么是NPS
NPS 全称(NetPromoter Score)即净推荐值,是反应客户忠诚度的一个指数。其最早由Fred Reichheld在2003年《哈佛商业评论》提出,例如一家公司想要了解客户是否满意,那么可以在问卷中设置NPS题型“你有多大可能把我们(或这个产品/服务/品牌等等)推荐给朋友或同事?请从0-10分评分”
根据评分结果,企业能够将用户分为以下三类:
推荐者:评分9~10分的客户,他们对产品和服务很满意。会有较高的存留率,并愿意向朋友介绍、推荐贵公司的产品和服务。
被动者:评分~8分的客户,他们对产品和服务基本满意。但是不太会和朋友做推荐。
贬损者:评分0~6分的客户,他们对产品和服务的整体感受是不满意的。很可能使用其他产品,甚至可能损坏公司声誉。
净推荐值(NPS)=(推荐者数/总样本数)×100%-(贬损者数/总样本数)×100%
· 为什么用NPS进行用户体验分析
在引用NPS的概念之前,企业常用客户满意度指数(CSAT)进行用户体验分析,也就是大家常遇到的非常满意、满意、一般、不满意、非常不满意的问卷形式。CSAT能够在一定程度上体现客户期望值与客户体验的匹配程度,但其无法反映客户重复购买的意向和预期消费新增额度。因此通过CSAT仅能分析当前用户体验的好坏,而不能将用户体验与企业营收增长关联起来。
然而NPS能够更好的体现客户重复购买的意向,以及可能新增的消费金额,具体原因如下:其一,NPS所设置的指标能更好地体现用户行为,而不仅仅停留在对客户态度的观察上;其二,相较于CSAT从非常满意到非常不满意的层级划分,NPS采用10分制,能更细致地反映客户满意度;其三,NPS侧重于对公司、产品以及服务的整体感受,企业可以更直观地了解客户复购及推荐意向。据此越来越多的企业选择用NPS进行用户体验分析,以达到企业的增收目的。
· 如何基于NPS进行用户体验分析
企业在引入NPS时,也常遇到数据处理能力不完善,业务分析主题不确定的问题。以国内某大型物流企业为例,该企业平均每个季度会下发一次NPS问卷,问卷内容除了常规的NPS评分外,还让客户给出具体的评价理由。面对大批量的问卷反馈,该企业必须解决以下三方面问题:其一,客户评价属于文本类的非结构化数据,需要将其结构化后才能进行分析;其二,用户体验分析需要体系化的数据分析思路,从而构建面向具体业务场景的分析报告;其三,针对于大批量的问卷数据,不仅需要高效的数据处理能力,还需要支持历史数据的存储及查询;
为解决上述问题,中金智汇以智能分析产品为依托,形成一套切实可行的用户体验分析解决方案。该方案主要包括以下几个方面特点:
(1) 采用NLP技术完成非结构化数据处理
客户评价数据一方面能够反映真实的客户心声,另一方面多个客户心声之间具有相关性,因此针对客户评论进行数据分析显得尤为必要。中金智汇采用最新的NLP(自然语言处理)技术,通过大规模的语料训练,构建多层级的分类模型。通过该模型,系统能够自动对每一份问卷中的客户评论数据进行分类,例如客户评论说“繁忙时间段,不能准时送达”,系统能够自动将其识别为“物流配送服务-骑士服务-订单时效”的类别。这些处理好的非结构化数据作为重要的分析项,为后续业务主题分析报告提供数据支持。
(2) 提供基于NPS的主题分析报告
为优化用户体验,完善业务流程,中金智汇提供基于NPS的主题分析报告。该报告一方面针对NPS评分提供不同时段、不同地区多维度的趋势分析,另一方面针对NPS评价提供推荐/贬损原因分析,热点问题分析等主题报告。业务运营人员可以随时查看多个季度的NPS评分状态,及时发现推荐/贬损者占比的增加或减少。面对NPS评分异常的情况,可在不追溯原文的情况下,快速定位客户主要反馈问题及建议点。从而及时调整运营策略,优化产品功能,以获得更好的用户体验。
(3) 定时、高效的数据存储及处理机制
面对大规模的数据存储及处理要求,中金智汇采用HDFS分布式文件系统解决存储容量问题,采用Tachyon等解决内存容量问题,采用HBase解决数据库容量问题;Kafka等解决队列容量和性能问题,采用Zookeeper解决分布式锁问题,采用Hadoop、Strom、Spark等分布式计算系统解决计算量问题。
基于NPS的用户体验分析能够帮助我们更高效的触及客户心声、挖掘用户价值,维持超级用户群体,努力将贬损者转化成推荐者,持续的发现问题并且优化。从而形成一个以用户为核心的运营优化体系,为企业的营收增长提供新动力。
25 Nov 2020
联络中心作为客户与企业之间沟通的桥梁,客服人员操作的规范性、服务的友好度都会直接影响到客户体验。因此大多数联络中心都会设立专门的质检组,针对客服人员与客户之间的交互内容进行质量检测。一般情况下,单个客服人员平均一天需要接听电话130通,而每个质检员需要监管13个左右的客服人员。因此想要质检员对客服人员进行全量监控是不切实际的,他们只能根据业务经验进行抽样质检。这一方面可能遗漏部分客服人员的违规操作,另一方面可能由于采样偏颇造成人员绩效评价不客观的问题。
· 基于规则模型的智能质检系统
为了解决上述问题,智能质检系统所提供的规则模型检测功能,能够有效帮助质检员实现全量录音监控。举个例子,若想要质检所有包含客户投诉的录音,第一步,质检员只需要根据专家经验将投诉、举报、报警等业务词整理出来,再用and/or等关联词进行拼接,形成客户投诉的规则模型,具体如下:
第二步,质检员可以一键发起质检任务,系统会自动根据规则模型中的检测逻辑进行全量自动检测。虽然构建规则模型的方式能够解决全量监控的问题,但仍存在诸多的缺陷,其一需要质检员对业务有较深刻的理解并熟练掌握模型构建方法,其二规则模型更适用于简单的业务场景,在复杂场景下模型精准率相对较低,其三模型维护需要大量的人力成本,并且在达到一定准确率之后很难有进一步提升。
· 基于语义模型的智能质检系统
针对上述规则模型存在的限制因素,中金智汇采用最新的AI技术,新增了语义质检模型。语义质检模型简单来说就是让机器从大量已标记的样本中学习数据特征,从而自动构建质检模型。例如,同样创建一个“客户投诉模型”,质检员只需提供一批标记过投诉和未投诉的录音样本,系统会基于特征词、上下文及文本相似度自动训练出客户投诉模型,当有新的录音进来时,该模型可自动标记出投诉或者未投诉。语义质检模型一方面可以解决关键词穷举,人工维护成本过高的问题,另一方面由于质检过程中标注样本不断积累,语义质检模型便可以自动学习并持续优化,从而突破规则模型准确率提升的瓶颈。
· 规则+语义双模质检
然而,语义质检模型虽有它独特的优势,但也存在需要大规模标注样本的前提,并且由于训练好的语义模型类似于一个盲盒,质检员难以掌控并对其进行调整。因此单一使用语义质检模型容易造成实施难度过高、项目周期过长的问题。通过上图可以看出,在业务冷启动阶段,因缺乏标注样本,需要优先建立规则质检模型,从而达到快速部署质检系统,及时优化质检业务流程的目标;在业务增长期,当获取到一定量级的标注样本,则可考虑开始构建语义质检模型,解决规则质检模型泛化能力不足的问题;在业务稳定阶段,标注语料足够充沛,并且规则穷举已到瓶颈,这时采用语义质检模型替换原有规则质检模型,从而满足质检准确率的要求。
中金智汇的智能质检系统正是结合了规则模型和语义模型,利用两种模型各自的优势帮助联络中心提升整体质检效率及准确率。相信智能质检系统将是企业提升业务合规化、人员绩效合理化、业务指导精准化的最优选择。
25 Nov 2020
很多人只把markdown用于网络文章发表,这糟蹋了markdown。
markdown不止是HTML的简化版,更重要的是txt的升级版、word的轻量版、笔记的最佳载体。
作为一种简单的格式标记语言,不同于txt的无格式,不同于HTML的复杂标记,也不同于word的鼠标调整样式。markdown通过简单的几个字符键入,就可以快捷的定义文档的样式。
比如在行首敲一个“#”,就把这行定义为了1级标题,并且在HBuilderX里有直观完善的着色,这样无需发布为web页面,可直接当word用。
掌握markdown,你可以完全抛弃txt和笔记软件的编辑器,并且在大多数场景下替代掉复杂臃肿的word。享受简洁之美、享受效率提升。
而HBuilderX,可以被称为最强大的markdown书写工具了。
下面的示例列举了markdown语法及对应的HBuilderX使用技巧:
开始前,可以先按下文档结构图的快捷键Alt+w(Mac是Ctrl+w),浏览本文的大纲。
标题语法
markdown的标题是行首以#号开头,空格分割的,不同级别的标题,在HX里着色也不同。如下:
标题1
标题2
标题3
标题4
标题5
标题6
标题使用技巧:
Emmet快速输入:敲h2+Tab即可生成二级标题【同HTML里的emmet写法,不止标题,HX里所有可对应tag的markdown语法均支持emmet写法】。仅行首生效
智能双击:双击#号可选中整个标题段落
智能回车:行尾回车或行中Ctrl+Enter强制换行后会自动在下一行补#。而连续2次回车后将自动补的#去掉。(体验同word)
回车后再次按Tab可递进一层标题,再按Tab切换列表符
在# 后回车,可上插一个空标题行【同word】,或任意位置按Ctrl+Shift+Enter也可以上插空标题行
折叠:
点标题前的-号可折叠该标题段落,快捷键是Alt+-(展开折叠是Alt+=)
多层折叠时折叠或展开子节点,快捷键是Alt+Shift+-或=
全文全部折叠或展开,快捷键是Ctrl+Alt+Shift+-或=
折叠其他区域,快捷键是Alt+Shift+o。这对长文档管理非常有用,可以专注于当前章节
可以在菜单-跳转-折叠中随时找到这些功能
列表
markdown的列表支持有序列表、无序列表以及特殊的任务列表。
同样也是在行前加一个特殊符号,并空格后再跟列表文字内容。
有序列表
有序列表就是有顺序的列表,依靠行前的数字标记顺序。
有序列表1 【设置或取消有序列表符的快捷键:Ctrl+Alt+1,可选中多行批量设置序号;支持多光标批量设置列表符,即按Ctrl+鼠标左键添加多光标】
有序列表2 【列表后回车会自动补序号】
有序列表3 【智能双击:双击前面的数字,可重新对数字排序,修正序号错误,并选中有序列表段落(左边的4是故意写错让你体验的)】
无序列表
无序列表就是列表不排序,无序列表因书写随意而被更广泛的使用。
无序列表有3种前缀,HX里分别用于表示1级列表、2级列表、3级列表。
无序列表1 【快捷键:Ctrl+Alt+-;智能双击:双击-号可选中整段无序列表;再次按Tab会更换二级列表符】
无序列表2
Emmet:li后敲Tab可生成*号列表符,行首生效
快捷键:Ctrl+Alt+8【8即*对应的数字】,支持多光标批量设置列表符,即按Ctrl+鼠标左键添加多光标
智能双击:双击*号可选中整段无序列表
智能回车:行尾回车或行中Ctrl+Enter强制换行后会自动续列表;连续按回车会清除列表符;再次按Tab会更换列表符;在列表符后回车或行尾Shift+回车,上一行留出列表符
*号常用于二级列表,列表符后继续Tab,可切换列表符
无序列表3 【快捷键:Ctrl+Alt+=;常用于三级列表;其他同上】
任务列表
任务列表非常实用,管理待办、已办非常便利。
[ ] 任务列表-未完成任务 【快捷键:Ctrl+Alt+[】
[x] 任务列表-已完成任务 【快捷键:Ctrl+Alt+]】
1. 智能双击:双击方括号内可切换勾选状态,把任务标记为完成或未完成;双击方括号右侧可选中任务列表段落
2. 智能回车:回车后自动补任务列表前缀符号;连续按回车清除前缀符号;在列表符后回车或行尾Shift+回车,上一行留出列表符
如需发布到web渲染,需增加无序列表- 的前缀
以上三种列表,均支持批量修改列表符,有如下方式建议依次学习尝试:
选中多行,按快捷键Ctrl+Alt+“1”或“-”或“[”或“]”,批量设置列表符
如果需要跳行设置有序或无序列表,通过Ctrl+鼠标左键点中目标多行(可不连续),产生多光标,然后按快捷键Ctrl+Alt+“1”或“-”或“[”或“]”,可跳行设置列表符,尤其是有序列表,数字也会跳行加1
按Alt+鼠标选中行首那列(列选择),这样每行行首都有光标,然后再键入或删除列表符即可批量操作
选中多行,按快捷键Ctrl+Shift+\(其实就是Ctrl+
),可以在每行行首添加一个光标
引用列表
引用1
引用2
快捷键:Ctrl+Alt+Shift+.
智能双击:双击>号可选中整段引用列表
智能回车:行尾回车或行中Ctrl+Enter强制换行后会自动续列表;连续按回车会清除列表符;在列表符后回车或行尾Shift+回车,上一行留出列表符
文字样式语法
加粗 【快捷键:Ctrl+B,支持多光标;Emmet:b后敲Tab】
加粗2
倾斜【Emmet:i后敲Tab;前后包围:选中文字按Ctrl+\是在选区两侧添加光标,可以继续输入_】
倾斜
删除线
单行代码
包围插入:先选中文字内容,然后按_*~`等符号,会自动在2侧加包围
智能双击:双击语法区前面的定义符号,选中包含定义符的整段文字
去包围:选中整段文字后,按Ctrl+Shift+],可去除2侧包围符号
引号括号虽然不属于markdown语法,但也支持相同的包围、选择、去包围操作。
引号括号智能双击选择时略特殊的是:双击引号括号内侧,选中引号括号里的内容(不含引号括号);按下Alt+双击引号括号内侧,则选中包含符号的整段文字
HBuilderX还支持以下对2侧文本高效处理的手段
选中文字按Ctrl+\是在选区两侧添加光标,可以继续输入~~,会在2侧同时输入
向2侧扩大选择:【Win:Alt+Shit+→ 、Mac:Ctrl++Shit+→】;由2侧向内减少选择:【Win:Alt+Shit+← 、Mac:Ctrl++Shit+←】
链接文字
Emmet:a后敲Tab
打开链接:Alt+鼠标单击;如果是本地文件,可通过Shift+Alt+单击,在另一分栏打开文件
智能粘贴:粘贴URL会自动变成超链接格式;粘贴本地文件进来也会自动创建引用链接
智能双击:双击语法区开头,即[左侧,选中包含定义符的整段文字
Emmet:img后敲Tab
智能粘贴:粘贴剪切板里的图形时会自动保存为本md文档的附件;删除文档中的图片语法,保存md文档时会自动删除对应的图片附件;粘贴图片文件时自动变成链接引用格式;
悬浮预览:鼠标移到图片语法上,本地图片会自动显示出来
智能双击:双击语法区开头,即!左侧,选中包含定义符的整段文字
表格
Emmet:table3*3后敲Tab,表示生成3行3列的表格,行首生效
md表格对齐是传统md的痛点,按下Ctrl+K可以自动整理表格格式(暂未兼容不同缩放模式和字体的情况)
支持从excel、wps、word、number的表格中复制粘贴表格进来(不支持合并单元格和单元格换行)
分割线
————- 【Emmet:hr后敲Tab】
*****
=============
代码区
var a = document
Emmet:code后敲Tab,行首生效
智能双击:双击语法区开头,即!左侧,选中包含定义符的整段文字
支持代码直接高亮着色,这应该是只有HBuilderX才有的功能。注意需要在代码区开头指定语言类型
注释
快捷键:Ctrl+/
智能双击:双击注释首尾的定义符,选中整段注释
其他emmet快捷输入
day后敲Tab,当前日期。注意day需在行首或前面有空格
time后敲Tab,当前时间。注意time需在行首或前面有空格
文档结构图
文章很长时,word里有文档结构图,HBuilderX也有。
菜单视图-文档结构图,快捷键Alt+W(mac是ctrl+W),轻松管理长文档
运行、预览和打印PDF
对md文件点工具栏或菜单里的浏览器运行,可以使用外部浏览器预览此md文件,会自动渲染为HTML。
点右上角的预览【快捷键Alt+p】,可在HBuilderX右侧预览该md文档的HTML渲染结果。
在浏览器中点打印,选择打印到PDF,可将md输出为PDF格式。(注意在打印选项里去掉页眉页脚)
其他常用但你可能不知道的快捷操作技巧
Ctrl+鼠标左键添加多光标,然后敲字或粘贴,可批量处理。Ctrl+鼠标左键拖选,可选中多个选区。
Ctrl+鼠标右键删除多光标
不选内容按Ctrl+C或X可复制或剪切整行
选中2个选区后,按Ctrl+Shift+X,可互换选区内容。如无选区,只是2个光标,则互换2行
Ctrl+上下键可上下移动行
Ctrl+Insert可重复插入当前行,如果有选中内容,可重复插入选中内容
Ctrl+Shift+K可合并多行(是格式化Ctrl+K的反操作)
删除
按Ctrl+D可删除选中行,支持多光标
Shift+Del删除到行尾
Shift+Backspace删除到行首
选择
Ctrl+E选相同词(mac是Command+D),连续按可选中多词进一步操作,比替换更方便
Ctrl+L可连选多行,Ctrl+Shift+L也是选择行,但不选行首尾的空白字符
Ctrl+=可逐级放大选区
双击标题、列表符可选中相应段落
双击英文引号、括号内侧,可选中内部内容
双击缩进符,可选中同缩进段落
双击连字符比如-或_,可选中相连的词,比如双击这里试试,uni-app
查找
Ctrl+P查找文件
Ctrl+Alt+F可在当前目录的所有文档中搜索指定关键字(mac是Command+Shift+f)
选中文字按F3,查找下一个,Shift+F3找上一个
云同步:HBuilderX+markdown用于云同步笔记的技巧,请参考http://ask.dcloud.net.cn/article/13097
都学会了吗?
markdown语法其实很简单,认真学半小时就能掌握。
HBuilderX的极客操作则需要不停反复练习,熟练掌握这些技巧,你将成为高效极客!
07 Mar 2020
1. 下载镜像文件office2016 iso
如果你安装office2016,提供大家一个下载地址:https://pan.baidu.com/s/1nb7v4U8XriJCIcsRjmfzeQ,提取码:jicu,至于什么时候过期我就不知道了。
下载完成后,不要解压安装,而是右键点击装载,资源管理器中会出现一个虚拟光驱,如下图:
2. 下载office 2016Deployment Tool工具
下载地址:https://www.microsoft.com/en-us/download/details.aspx?id=49117
3. 安装ODT工具并进行配置
这点很重要,在E盘下新建文件夹tool,将下载好的ODT工具解压到该目录下,这时我们根据安装系统,选择编辑configuration文件。
文件名替换为configuration,文件内容修改如下:
<Configuration>
<Add SourcePath="D:\\" OfficeClientEdition="64" Channel="Current">
<Product ID="VisioProRetail">
<Language ID="zh-cn" />
</Product>
<Product ID="proplusretail">
<Language ID="zh-cn" />
</Product>
</Add>
<!-- <Updates Enabled="TRUE" Channel="Monthly" /> -->
<!-- <Display Level="None" AcceptEULA="TRUE" /> -->
<!-- <Property Name="AUTOACTIVATE" Value="1" /> -->
</Configuration>
需要注意:SourcePath=”D:",D盘是我步骤1装载后的虚拟光驱路径
4. 打开cmd命令窗进行安装
打开cmd命令窗,进入到E:/tool目录下,执行以下命令进行安装:
setup.exe /configure configuration.xml
5. 借助KMSpico进行激活
安装完成后,下载KMSpico进行激活
06 Mar 2020
现实中,文本分类的准确性直接影响到业务指标的高低,以呼叫中心催收场景为例,如果错误的将恶意拖欠的客户意图分到承诺还款中,可能使得催收员跟进不到位,导致回款率下降。又例如在电销场景中,如果将需要跟踪的客户标记为失败,可能会误导电销员后续不要再对该客户跟进,导致潜在客户丢失,成单率下降。既然分类的准确性如此重要,那么如何提高准确性呢?其中一个很关键的因素就在于训练样本量是否充足。
传统获取训练样本的方式有两种:①收集未标注的语料,交给标注师进行标注;②找多个人,针对同一句话进行改写。第一种方式确实能获得更多整理好的样本,但我们不能保证每一篇语料中正巧都能找到我们想要标注的句子,也不能保证我们在新语料中标注的样本与之前的样本不会有重复,因此我们想通过这种方式进行语料补充,可能需要投入难以想象的人力资源。第二种方式同样能够获得更多的样本,但同样有明显的缺陷,首先不同的人对同一句话改写方式可能出现重复,其次人的主观随意性可能导致改写后的句子词意不搭、文法不通等,因此通过这种方式获得的语料我们后续需要进行二次加工才能使用。
那么是否可以借助自然语言处理技术去扩充训练样本量呢?答案是肯定的。假如我们有这样一句话“很高兴为您服务”,我们可以借助NLP技术将其改写为“为您服务很高兴”、“竭诚为您服务”、“很高兴为您效劳”等等。如此表述“很高兴为您服务”这个意图,我们很快便有了4个训练样本。借助机器实现自动样本扩充有三点突出优势:节省大量标注人力;扩充后的文本无明显错误;非常高的执行效率。
基于上述考虑,中金智汇为解决训练样本量不足的问题,推出了基于句式和语义的文本扩充技术。用户使用文本扩充功能时,只需要准备一批表示同一个意图的文本即可,系统会自动根据文本中句子的结构和上下文语义进行文本扩充。文本扩充技术可解决来电原因分类场景下,部分类别样本稀少的问题,也可以解决客户意图识别场景下,由于客户表述复杂多变导致意图识别不准确的问题,为企业更精细化的细分业务问题、挖掘客户心声,提供前期的数据保障。
23 Feb 2020
以前总是考虑精力的问题,所以不愿意涉猎太多学科。自从读完《穷查理宝典》后,真的是让人豁然开朗,里面有一个重点我相信会受益一生——要形成自己的T字型知识框架。如何理解T字型呢,就是你要有一门学科研究的特别深入,然后横向发展众多学科。这样的好处是你在观察任何现象时,都可以通过学科间的交叉看到其多面性。因此我开始对自己的知识体系进行布局,选择了如下几门学科:数学、统计学、软件科学、计算机科学、经济学、心理学和英文。在此打算借助“薛兆丰老师的经济学课”和“曼昆的经济学原理”为自己后续经济学思维打下基础。
《经济学课》目录及关键点:
1.人性与稀缺
1.1经济学视角
战俘营里的经济组织:经济规律普遍存在(经济学建立在稀缺的基础上,而非理性/自私)
马粪争夺战:世间各种制度的安排,重要的不是看过去,而是看它怎么样指导未来社会和经济的发展
看得见和看不见的手:经济学训练人去看那些看不见的东西,通过想象力来进行合理的比较和选择
经济学不关心阴谋论:经济学关注的重点,是事与愿违的现象和规律
注意:这四点是统帅整个课程基本的方法论,需要反复进行思考和运用。
1.2人的本性
不确定性,进化与经济理论:经济学规律不因理性而转移
亚当·斯密的人性观:人性都是自私的=>他有爱心=>爱心有限不能扩张=>需要一个陌生的互助平台,就是市场
铅笔的故事:市场经济会加强人之间合作
商业是最大的慈善:帮助弱者是慈善,帮助强者是投资
笔者总结:资助笨学生还是穷学生?资金本身是稀缺的,因此资助人必须得做出选择,这就导致了歧视,而我无论歧视哪一方都是对另一方的不公平。因此这个题根本是无解的,那么从经济学角度其实也就否认了慈善。
1.3稀缺与选择
稀缺(为什么会稀缺?1.你想要的东西别人也想要;2.人的需求是无限的)
选择和歧视(稀缺、选择、区别对待、歧视这四个概念是一体的)
凡歧视必得付出代价(对人歧视越多,自己代价越大,因此市场竞争让人减少歧视,代价越大,歧视越少)
歧视的作用和限制歧视
笔者总结:经济规律普遍存在,稀缺是经济学的基础,不是理性/自私,稀缺会导致让人需要作出选择,有了选择就有了区别对待和歧视,一当产生歧视我们就必须要为歧视付出相应代价。
2.成本的深义
2.1成本初探
一句话给成本下定义(成本就是放弃了的最大代价)
你的成本由别人决定
别只盯着钱
核心:沉没成本不是成本(沉没成本知易行难,边际成本决定行动:要投诉多少,才能够获得多少回报,投资回报率)
2.2成本进阶
从成本角度理解盈利与亏损(1.企业内部,一门生意赚钱,寻找那些额外收益的要素,并确定下来,亏损则会进行调整;2.企业外部一旦出现旱涝保收的生意,其他竞争者就会争相提供替代品;3.一旦人们发现这份工作是铁饭碗,进入门槛就会逐步抬高,成本会高到再进去的人已经得不到额外的好处)
最终产品的供需决定原材料成本(经济因果关系:供需影响成本,世界上并不存在合理的利润率和亏损率)
“租”是对资产的付费(定义:一份资源,如果它提供的服务跟它的收费没有关系的时候,它体现出来的就是租。)
寻租——乞丐没有白拿施舍
核心:竞争让静态格局变成动态格局,竞争逼着将旱涝保收的资本逐渐变成成本,让本来可以懈怠的做法(租),从长远看都要付出代价。
笔者总结:有同学说在国企工作,虽然工资不高却享受一定的租,看是一份难得的工作。薛教授就指出,需要估量潜在的工作机会,如果把自己看得很低,则目前是在享受这份工作的租,相反则是在付出成本。这句话是不是表示只要存在竞争,我们当前享受的租,实际就是未来需要付出的成本,换句话说完全享受租在竞争中是不可能存在的。就好比之前导演享受租的案例,假设他享受租而潜规则了女演员,而正巧是因为女演员导致电影在后续票房中失利,那这位导演是不是其实也是在为未来付出高额的成本?
2.3科斯定律
社会成本问题——伤害与被伤害(社会中有众多交互案例,一般看来都是一方在伤害另一方,都需要限制加害于人的一方)
社会成本问题——值得与不值得(所有的伤害都是相互的,是双方都在争夺稀缺的资源。在这样的事件中,谁避免伤害的成本最低,谁就应该承担最大责任,从而使得整个社会为避免意外要付出的总成本最小)
谁用得好归谁(科斯定律:只要交易费用足够低,无论资源归谁所有,资源的用途都应该是谁用的好就归谁)
越富足越健康(环保是双方或者多方在抢夺一些稀缺资源,需要从中取得一个平衡)
笔者总结:科斯定律其实在说资源分配,一当出现稀缺资源就会产生选择和歧视,那么这个时候把资源分配给能够更高效产出的人,其实社会所需要付出的代价也就是越小的。那么如果我资助学生的话,当然应该资助更聪明的那个,因为他对学习资源使用效率更高,而笨的学生可以尝试去务农、做手艺活,这样使得整体社会资源效率达到最优化。
2.4交易费用
有人群就有交易费用(凡是在一个人的社会里不存在,而多个人社会里存在的成本,就是交易费用,法院、律师、公证处、警察局都是高额的交易费用)
征地的权衡
寻求合作解(很多问题,不要讲理,要讲数,例如黄石公园,狼群的配比)
成本概念的递进:
(1)成本就是放弃了的最大代价(机会成本、非货币成本、时间成本、边际成本、沉没成本)
(2)产品价格与成本无关,是有供需决定的
(3)所有的盈利和亏损都是一次性的,因为资源使用价值、使用成本都发生了变化
(4)租的概念,如果预期收益不如当前收益,当前则在享受租
(5)社会成本引发科斯定律
(6)交易费用永远为正,交易费用也是成本
(7)交易费用越低越好
(8)所有的交易费用加起来,称为制度成本
(9)想象中的体制成本
3.需求的规律
4.价格的作用
5.权利的安排
6.耐心的回报
7.生产的规划
8.信任的建设
9.依存与对抗
10.公司的结构
11.竞争的逻辑
12.趋势与调控
13.政治与法律
14.读厚与读薄
16 Feb 2020
随着个人收入的增多,储蓄也是越来越厚。那么如何科学的进行理财,便是大多数人头疼的一件事情。这里用数学的方法给大家提供一个钱生钱的思路。
主要思路包括以下3个要点:
1.人为刀俎我为鱼肉,不要妄想靠钱生钱过日子
2.有人在桌子上分蛋糕,一定要坚定的坐上去
3.借助黄金比例分割,让自己吃得饱吃得好
· 人为刀俎我为鱼肉
1.你是个普通人,但在很多事情上你又觉得自己超过平均水平,投资也不例外,这时要调整心态,接受自己是普通人的事实。
2.对于普通人来说,投资不是为了进攻,而是为了防守,保证自己的钱不受通胀影响。
3.从收入结构来看,个人收入中有73%来自劳务所得,即使美国富豪也有50%来自劳务所得。
4.从成功概率来看,找到一份工作自食其力的成功率95%,中国失业率只有5%,反过来说靠钱生钱为生不到1%
总结:不要妄想靠钱生钱过日子,逆天改命最好的办法就是提升技能,把工作做得更好,步步攀升。
推荐阅读:《二战股市风云》
· 坐上桌子吃蛋糕
股市这张桌子一定要坐上去,不坐上就错过市场给所有玩家发的钱。但想要拿到这部分钱,需要有几个前提:
1.之前说到的,你有一技之长,你靠工作挣钱,而不是靠投资收益过日子。
2.投资用的钱是你自己的钱,也就是所谓的“长钱”。
3.这时候时间是你唯一的优势,却是基金经理的敌人。
4.找一只跟着大盘波动的股票,然后牢牢的坐上去,然后用屁股挣钱而不是手挣钱。
总结:选择那些均值回归、覆盖面广、经受时长考验时间长的指数,做定投。如果你还想优化,那就估值过高时减少定投,估值过低时增加定投。要注意,估值高低不是你拍脑袋想的,而是根据历史估值均值比较得出的。
推荐阅读:《不落俗套的成功——最好的个人投资方法》、《美国增长的起落》
· 黄金比例吃得饱吃得好
假设资金盘子大了,如何再防守的基础上再攻击一下——多元化的投资组合。世界上任何令人赏心悦目的事物,都是按照黄金比例0.618进行分割的,例如斐波那契数列、断臂的维纳斯、星云图等,因此按照0.618法则进行配比可以极大减少错误风险,即使发生风险也是在可承受能力范围内。
这篇博文写于2020年02月19日,2025年让我们拭目以待!
09 Feb 2020
《数学之美》读书笔记
“这个世界术语科学范畴的各种知识,它的底层逻辑几乎都离不开数学”
第一,数学的用处都有什么?
解决文字校验问题:
犹太人抄写圣经,每个希伯来字母都对应一个数字,每行或每列加起来就对应一个数(校验码)。
自然语言处理方法:
上世纪70年代,仿生学=>学会语法
(问题1语法太多,没办法穷举;问题2各语法之间存在矛盾之处)
现今:判断一个句子正不正确=>判断一个句子可能出现的大小=>计算一个句子是句子的概率
(马尔科夫假设:句子中每个词出现的概率,只和前一个词有关,例如涨停与股票,只要给机器量足够大的机读文本,计算机就能算出,在一个特定次后面出现某个词的概率,把一句话中的概率想成,就是这个句子出现的概率)
计算机新闻分类:
提取文本特征向量,借助余弦定理判断新闻的类别
技术分为道(做事的原理和原则)和术(做事的具体方法)
第二,数学为什么这么有用?
只有正确的数学模型,才能把一个大问题的计算复杂度降低,让它变得简单。而经验给我们的模型,常常是错误的,那由它总结出来的结论,也就是错误的。
数学能够帮助我们发现仅凭经验无法发现的规律,找到仅凭经验无法总结出来的办法,比如发现行星围绕恒星运转的试试,比如大幅优化全拼输入法。
第三,为什么说数学之美就是简单之美?
计算机的道:布尔代数(与、或、非)
谷歌早期算法根本没有系统的模型和理论基础,大部分软件工程师都靠直觉来解决问题。
书中有延伸阅读,教会读者如何用数学的方法看世界
《启示录》读书笔记
第一,如何定位开发团队成员的角色?
明确各自职责,才不会出现企业内耗的情况。
产品经理,评估产品机会、产品解决方案,确保产品价值
用户体验设计师:确保产品具有可用性
项目管理人员:制定计划和跟踪进度
运维团员:维护产品
产品营销人员:卖产品的人
第二,如何才能开发出一个受用户喜爱的产品?
方法分为四个阶段:
第一阶段评估产品机会与产品探索
1.产品要解决什么?(产品价值)
2.为谁解决这个问题?(产品受众人群)
3.成功的机会有多大?
4.怎样判断产品是否成功?
5.有哪些同类型产品?
6.为什么我们最适合做这个产品?
7.时机合适吗?
8.如何把产品推向市场?
9.成功的必要条件是什么?
10.根据以上问题,给出结论,继续或者放弃。
产品原则是团队信仰和价值观的总结,什么是重要的,什么是不重要的。
第一类:原则过于空泛,失去指导作用
第二类:误把设计原则当做产品原则
第二阶段用户研究
1.寻找特约用户
2.创建产品人物角色,产品通常会设计3~6个角色代表所有的用户群体。
第三阶段合理运用敏捷开发方法
用户需求进化为核心,采用迭代、循序渐进的方法进行软件开发。
第四阶段产品验证
在正式开发、部署产品前,验证产品需求文档中描述的产品是否符合预期要求。
1.可行性测试
2.可用性测试
3.价值测试
第三,用户喜爱的产品特性是什么?
产品情感化细节,成为产品与用户之间情感传递的桥梁(情感化设计)
产品可用性、美观
《俞军产品方法论》读书笔记
第一,什么是产品经理?
注重品牌营销:最早的产品经理其实是品牌经理,类似于卡玫尔香皂。
注重项目体验:20世纪90年代,计算机软件行业,B端用户需求相对明确,产品经理主要任务是通过与客户沟通,明确客户需求,再把客户需求转化为软件功能,推动研发进度和实施部署。
注重需求洞察:2012年,标准化工具是的产品经理入门门槛变得更低了。
产品大年需要突破认知边界,成为各学科领域的跨界高手,尤其是经济学、心理学等领域洞见。
抖音、快手、小红书等网红经济,一种以个人为节点的新连接方式崛起,他们所使用的互联网产品以及背后的产品经理,就是帮助他们匹配资源的高效“连接器”。这时产品经理实际成为了社会新基础设施的建设者。
第二,产品经理需要掌握什么样的知识模型?
两类重要模型:用户模型(合格线)和交易模型(进阶期)
用户模型:指用户的个人偏好和行为模式,经验集合而不是抽象公式(用户不是人而是需求的集合)
一个产品能满足用户在更多场景中的细分需求,就能增加用户使用产品的次数,也就相当于获得了更多的用户,实现用户增长。
积累用户模型,基于每个场景、每个行为背后的每次需求来思考。
交易模型:产品经理发现和设计的合理机制,他能够促成用户做出某种行为,且可持续。
第一,搞清楚各利益相关方在交易中的利害得失
第二,创造有利可图的用户价值
用户价值=新体验-旧体验-替换成本
产品经理不是追求用户价值最大化,而是有选择地创造有利可图的用户价值。
第三,产品经理的职业成长路线图是什么?
前5年,从新人到熟手的成长期,重要性排序:带你的人>业务>平台
产品能力:从0到1的能力,把一个细分场景做深做透的能力,以及兼顾各产品做宽做杂的能力。
5年之后,进入高阶阶段
顶尖产品高手,不要创业,加入C轮或D轮的业务
产品天赋一般,走管理路线
产品天赋一般,管理一般,选择TB业务长期耕耘
俞军产品经理12条:
1.产品经理首先是用户
2.站在用户角度看待问题
3.用户体验是一个完整的过程
4.追求效果、不做没用过得东西
5.发现需求,而不是创造需求
6.决定不做什么,往往比决定做什么更重要
7.用户是很难被教育的,要迎合用户,而不是改变用户
8.关注最大多数用户,在关键点上超越竞争对手,快速上线,在实践中不断改进
9.给用户稳定的体验预期
10.如果不确定该怎么做,就先学别人是怎么做的
11.把用户当做傻瓜,不要让用户思考和选择,替用户预先想好
12.不要给用户不想要的东西,任何没用的东西对用户都是一种伤害
《浪潮之巅》读书笔记
产业角度:
摩尔定律:计算机升级(晶体管5纳米极限)
更新迭代速度快,约18个月,例如网速、存储量
软件跟着硬件走
面向未来
安迪-比尔定律:
安迪给的比尔全要拿走
软件提升会逼着硬件性能提升
公司角度:
诺维格定律:当一家公司市场占有率超过50%,市场占有率不会翻翻,得找出新的市场
反摩尔定律(得18个月更新一次,才有可能获得收益)
方法:横向扩展、转型
基因定律:开阔新领域用习惯性的公司风格
05 Jan 2020
1. 什么是中国经济的基本盘
论点:我辈正在处于一个持续上升的经济通道中
论句:
(1)容易赚的钱没有了,往后大家得做更辛苦的事情(改造传统产业)
(2)市场人口换代,有人还在刻舟求剑(改革开放之后的人口,超过改革开放之前的人口)
(3)典型的“悖论之年”(同时看到两个好的和坏的方面)
(4)不是克服困难,而是习惯困难(从电梯模式到攀岩模式)
报告:《中国经济报告》何帆
超大规模=>复杂性=>好时代的标志:走在街上不敢小瞧任何一个人的时代
苟且红利=>找到任何一个小抓手
预测未来的最好方法,就是把它创造出来
2. 中国的消费市场到底有什么机会?
论点:中国即将成为全球第一大消费市场
论句:
最大的供给、最大的需求、最快的效率提升(经济现象、经济物种的大爆发)
报告:《中国消费产业报告》黄海
多点爆发(年轻人和老年人消费、高端和低端消费)
机会一:中国新基础设施带来的红利(所有放心交给别人干的事情,物流成本、就地致富)
机会二:中国红利(所有的消费品类,都有机会让中国红利再做一遍)
机会三:世界级品牌(品牌,你愿意跟他自拍就是品牌,建设品牌,建设一组最真实的社会关系)
利用中国红利和新基础设施,创造一个世界级品牌
3. 钱从哪里来?
论点:一年可支配收入,73%来自劳动所得。
论句:
有钱人都是因为胡乱投资把自己搞破产的。
凭运气转来的钱,全凭实力亏光。
三个当家人(人际关系的连接能力),一门穷亲戚(人际关系的扩展能力)
不要辜负这个时代给女性的机会(“脱不花”女性连接人和人的能力)
报告:《中国财富报告》香帅
钱从自己的劳动中来(73%劳动所得)
钱从人与人的连接来(人和人连接的财富机会,人和人决定社会财富的创造、分配和转移)
五层嵌入能力:你是谁?你干啥?你为谁干?别人需要你么?社会更好了么?
4. 教育在发生什么变化
教育与焦虑
世界不是按照领域来划分的,而是围绕挑战组织起来的
跨组织的“翻译”和整合
5. 中国科技创新下一步?
报告:《创新生态报告》王煜全
中国公司的技术存在感在持续增加
创新不是向上取经,而是全球编程
中国制造有规模,有速度(物流速度),成本控制能力,分工
竞争意识损害竞争力
微观层面的互动,决定真实世界的样子
6. 中国制造的优势会消失么?
报告:《中国制造报告》施展
结束:迎接我们的2020年
跟上这个时代,跟上这群人。
一个人的梦想只是梦想,一群人的梦想就能成真。
19 Dec 2019
记得以前某个大牛曾说过,人之所以无趣是因为对整个世界的认知不够,但每天让我去网上找资料或者看纸质书感觉都是不太现实的事情,今天偶然想到如果每天都花点时间看看TED的视频是不是也挺有趣的,遂在此记录每一场TED演讲的观后感。
TED:如何掌控你的自由时间
例子:1个非常忙的职场女性,认为自己根本没有时间去锻炼,但因为家里热水器坏掉而耗费了7个小时去修理,相当于一周每天抽出1个小时。
论点:时间管理并不是通过节省时间创造想要的生活,而是通过创造想要的生活(安排好自己重要的事情),时间自动的就节省出来了(充分利用)。
方法:现在就列举出,如果明年这个时候绩效特别好或者让自己特别开心,自己需要达成哪几项目标;每周五下午去规划下周想要做的几件事情,包括工作、感情、生活等等。
TED:如何让自己和他人更自信
例子:用两个例子明确指出自信的重要性
论点:缺少自信会从根本上摧毁一个人,让人不相信自己的能力,让人成天担心自己做不到、不会做和不可能。
方法:三个因素:自信诞生于允许、成长于团体和增强于好奇心
TED:提升自信的技巧
定义:自信是相信自己有在任何困难情况下完成任务的能力。
方法:一遍又一遍不厌其烦的练习;自我激励(意识影响行为);对他人适当的夸赞;
结束语:除非你做到了,否则没人会相信你
TED:爱情应有的样子
论题:谈论爱情的时候,到底哪里出错了
论点:希望爱情能让我们疯狂,又希望它永远不会消失
结论:爱情无关赢得或者失去谁的爱慕,而是要求你信任另外一半,不去想从爱情中得到什么,而是想能够给予什么
TED:抑郁与焦虑
引言:科学证明形成抑郁的原因一共有9种,生理问题只占2种,有7中是生活方式的问题。
论点:如果你抑郁或焦虑,你不是脆弱或疯,不是身体零部件坏了,你是需求未被满足的人。
结论:把抑郁当做一种信号,将自己和团队绑到一起。
TED:你有拖延症吗
例子:做了一个计划冗长的计划,结果很长时间都没有启动。
问题:为什么会拖延?正常的人在掌舵,有一个捣乱的猴子,还有一个惊恐怪兽(截止日期)。
论点:拖延分两种:第一种有截止日期,另一种没有截止日期。把生命划成多个格子,其实没有多少,那到底在拖延什么。
TED:你有拖延症吗(续)
论点:适度的拖延有助于创新,创新会产生怀疑和焦虑。怀疑包括对自我的怀疑和对主意的怀疑,前者会冻结自己的思维,而后者可以有更多的激励和行动。
方法:迅速开始,慢慢完成会激发人的创造性,可以怀疑自己的主意来激发自己,拥抱对尝试失败的恐惧,只有有了一堆坏主意,才会有一堆好主意。
TED:如何成为一个更好的交谈者
现状:现在的人立场更明确,更少的倾听彼此。交流需要平衡讲述和倾听,但这种平衡却在消失。
方法:如何去谈话?如何去倾听?
1.不要三心二意,就在当下的场景里,不要去想晚上吃什么或者今天和谁发生了不愉快
2.不要好为人师 ,假定自己在每一次交流中都能学习到东西
3.使用开放式问题,不要变成“是”或“不是”
4.顺其自然,所思即所说
5.如果你不知道,就直接说不知道
6.不要把自己的经历和别人比较,如果别人聊工作烦,不要顺势去说
7.尽量别重复自己说的话,咄咄逼人而且很无趣
8.别说废话
9.学会倾听(最重要),人更喜欢去说
10.简明扼要,尽量少说话,开放自己的思想,永远准备大吃一惊。
TED:如何获得好的点子
问题:如何获得好的点子?
结论:这些奇思妙想并不是想出来的,更像是发现出来的。保持好奇心、细心观察,投入一些小的资源去亲身体验,才能获得好的想法。
TED:只需20个小时,你就能学会任何东西
论点:10000个小时专家级水平,而只需要20个小时就能学会任何想学的东西,以学习曲线为例。
方法:4个注意事项:
1.将一个大目标,分解成多个小目标和任务,越快找到学习某项技能的关键所在,将越有可能短时间提升成效;
2.学会自我矫正,准备3-5个正在学习东西的资源,学会让自己单独练习并自我矫正;
3.移除任何在学习时让自己分心的东西;
4.练习超过20个小时,克服挫折和障碍;
TED:破解语言学习之谜
例子:在西班牙常驻6个月却还是不会西班牙语,语言学习和环境无关。
论点:学习语言最重要的是动机是什么?不是考试、不是为了去秀,而是对它富有激情。
方法:
1.不要说自己没有天赋;
2.不要说自己年纪太大;
3.没有学习的环境;
4.记不住那些单词;
5.完美主义是学习语言的大敌;
TED:学习一门新语言的秘密
问题:多语言学者有什么共同点,使得他们学习语言比别人更快?有一些例子:从第一天就开始学习说话,在社交软件上加许多母语者,等等
共同点:找到享受学习语言这一过程的方法,学会如何将一种语言课程,转变为每天都做的有趣的活动。
方法:
1.找到学习语言的兴趣;
2.找到有效的方法,例如间隔重复法、黄金列表;
3.制定自己的学习体系,提前计划挤出时间;
4.更多的耐心;
笔者语录:该方法不止对学习语言有效,学习任何知识都有效
TED:只需专注10分钟
问题:仅仅10分钟什么都不做去审视心灵?没有邮件、电视,不去想过去和未来。
论点:心灵是我们最珍贵的东西,我们通过它去感受幸福、满足、情感稳定,依靠它我们能够专注、有创意、发挥才能。
方法:每天10分钟,让我们心情更加健康、更加专注、更少分神。不能改变发生在生活中的每一件事情,但我们可以改变感受它的方式。
TED:时间心理学
例子:给小孩各分一块棉花糖,如果能忍住今天不吃,明天可以获得两块。实验发现能忍住不吃的小孩14年后SAT平均分比前者高250多。
论点:基于现在而做决定的人(面向现在),基于过去经验来决定的事情(观望过去),专注于预期结果(展望未来)。引入积极和消极态度,从而划分成六种时间洞察力。
方法:什么是最佳的时间洞察力?
高度依赖于积极经历,适度依赖于未来,适度依赖于享受现在,永远不考虑消极经济和宿命论。
由积极经历奠定基础,未来获得目标和挑战,从享受现在获得动力。
TED:求助是一种能力
例子:一个侏儒症患者的童年
论点:你无法懂得我,我也没办法了解你,但我们可以相互帮助。
方法:每个人都有一套支持系统,选择求助是一种能力,而不是弱点。我们一生中需要许多帮助,同样重要的是我们也学着去帮助别人。
TED:想找工作?强调你的能力,而不是你的经验
例子:只有四分之一的大学毕业生,到和自己学位相关的领域去工作。
论点:别再把经验当做一种能力,把证书当做一种技能。
方法:
1.扩展你的搜索,绝对没有哪一种型的人是人才,更聚焦于设计师的作品而不是背景;
2.针对绩效来雇佣,雇佣人在雇佣前需要展示他们的能力;
3.了解更宏观的局势;
让世界因为自己真实的才能而被看见,并有机会去了解自己的全部潜力。
TED:李开复:人工智能如何拯救人类
论点:人工智能和人类如何能够共存
思考:
第一,人工智能将代替我们承担重复性工作。
第二,人工智能工具将帮助科学家和艺术家提升创造力。
第三,对于非创造性、关爱型工作,人工智能将进行分析思考,人类以温暖和同情心相辅相成。
第四,人类将以其独一无二的头脑和心灵,做着只有人类擅长、以人类创造力和同情心取胜的工作。
TED:为什么对同事友善对业绩有益?
问题:你想成为什么样的人,无论你知道或不知道,你都在用每天的行动去回答它。
论点:不文明的行为会消减人的行动力;不文明是一种传染病,会影响到周围的人;不文明甚至会影响到注意力和剥夺一些脑力;
思考:
真正文明代表做好每一个小细节,例如在过道微笑或者打个招呼,当别人讲话时注意倾听,尊重别人的前提下提出不同意见 ,谦虚提问
文明不仅可以激励别人,也可以激励自己
文明与领导力息息相关:学会尊重
TED:怎样的人生更有意义?
论点:追求快乐会让人不快乐,寻找人生意义才更能让人满足。
问题:如何让人生活的有意义?
1.归属感,真正的归属感源自于爱,反例:从认识的人旁边走过却没打招呼,用语言去诋毁别人而不是赞赏,当人和我说话的时候我却在看手机。
2.目的,目的的重点不是你想要什么,而是你能给予什么。
3.超然,超脱日常生活的喧闹,能与更多的现实缔结。
4.说故事,用自己的人生去创造一个故事
TED:成功、失败和不断创造的动力
论点:成功和失败都会把人从正常的状态中拉出来,进入到一个异常状态下,这个时候我们要清晰的认识到自己最想要的是什么(找到“家”),然后沉下心、投入精力、坚持不懈,一切都会好起来。
TED:科技读心时代该如何保护隐私
例子:
1.癫痫病发病前监控
2.截肢病人仅凭思想就可以打字
3.汽车枕头看驾驶员的精神注意力
4.看同一个电影不同的结局
论点:认知自由革命
TED:为什么MOOC很重要
论点:MOOC:massive open online courses,教育需要改革,借助科技变成更广泛的教育
方法:混合教学方式:通过视频学习相关知识,在网上建立讨论社区,来到课堂上面对面互动;
1.主动学习,5-7分钟视频,紧跟一个互动练习
2.自己控制速度
3.立即反馈,把教学过程变成了学习结果
4.游戏化,建立在线实验室
TED:将每日聚会变革创新的三个步骤
论点:改变日常的聚会,专注于通过人与人的联系来创造意义。
方法:聚会的新规则:
(1)包含一个特别有争议的目标
(2)引起良好的争端
(3)创造一个有意义的每日聚会
最好的聚会,让别人看见我们是谁,也让我们认识别人
TED:恋爱中的大脑
例子:对37个恋爱中的人进行核磁共振实验
论点:爱情让你只对一个人产生配对的冲动,并节制的使用它。
问题:为什么你会爱上他而不是爱别人?
女人倾向于面对面交谈,而男人倾向于侧对侧交谈。
TED:内心喧哗
例子:内心不安、不快乐、害怕却被隐藏起来,导致后续出现幻听,更多人给了力量让自己去战胜自己,改变看待自己的方式
论点:自重之人不会为人所羞辱,无所畏惧之人不会受人压迫;不要告诉我别人怎么看你,告诉我你自己如何看待自己;
TED:注意力无法集中?
问题:非常专注于某件事情,不是特别容易?
论点:两种方式主导注意力:外显注意力(眼睛会随着事物移动);内隐注意力(无需移动眼睛,就能专注于某事情)
方法:运动可治疗ADD注意力缺失症
TED:如何驯服你走神的大脑
例子:人类只使用了大脑10%的潜力(这句话是错误的),人的大脑是一个已经完全开发极其高效且耗能的器官,即使这样还面临信息过载的问题。为了解决信息过载问题,我们人类进化产生了注意力系统。注意力系统类似于指挥官,它到哪我们大脑的其他部分就跟到哪。
问题:
1.我们的注意力如何控制我们的认知能力?
外部压力会对注意力产生影响,例如痛苦或暴力的新闻
内部干扰,例如走神
注意力影响对认知影响是巨大的,注意力能带来强大的正面效益,但它也很脆弱,很容易受影响,例如走神或者压力
2.为什么注意力会出问题,例如我们的大脑有时变得不清醒或走神?
演讲时间越长,越容易走神
原因1:思维是一位时间旅行大师,会想之前也会考虑以后,例如看一页书却什么都不记得(无意识走神),压力下会回忆过去或者担心未来
3.当我们大脑不够清醒的时候,我们应该如何应对,该如何训练注意力?
专注帮助我们把注意力集中到现在,并排除不良情绪的影响
专注力练习实践方法,坚持8周以上会有很大的专注力提升:留心你的注意力,让专注练习变成日常练习。
TED:诠释数字统计
例子:
随着时间推移,西方世界(家庭小,寿命长)的数据被打破,类似中国(家庭大)也由寿命短变为寿命长,越南也变成家庭小、寿命长的国家。
贫穷20%人数2%资产,中等60%人数24%资产,富裕20%人数74%资产,绝对贫穷的人在中间,而分不同板块,贫穷的人在亚洲
世界发展需要因地制宜,但大量的数据却被关在数据库中,没有被共享
论点:需要数据检索系统、数据共享系统、数据展示系统
相关软件:D3、PROCESSING、R、google doc
TED:助人者助己
例子:帮助别人帮助自己(形象生动)
TED:疫情爆发能否像地震一样被预测?
问题:
1.能否预测下一次疾病的时间和地点加以预防?
2.疫苗通常只能是创可贴,控制伤害范围,能否从源头减少伤害?
借助狂犬病毒找到一种从源头消灭病毒的方法:对病源头(蝙蝠)进行疫苗接种,然后让他们自行交配从而使所有蝙蝠都获得疫苗。
20 Nov 2019
· 导论
数学通识教育前提:数学从体系到研究方法,再到应用方法是共通的。
第一模块:数学从猜想=>推论=>实际应用
第二模块:“数的概念”从抽象到具体
第三、四模块:已知几何与代数
第五、六模块:微积分、概率统计
第七模块:数学在其他领域的应用
第七模块
1.数学与哲学:数学如果是最基础的学科,哲学就是最顶头的学科。(一头一尾)
数学对哲学的影响:
笛卡尔《谈谈方法》人是如何获得知识的,人能否通过自身努力获得知识。
靠经验积累有两大问题:一是来的太慢,二是直接经验常常是不可靠的。
解决方法:第一层面是今天所谓的实证,第二层面的理性,就是要用符合逻辑的数学方法去替代测量从而获得真知。
莱布尼茨第一个相对的因果时空观,第二个是离散的世界的理解。
用数学中建立公里化体系的方法,建立自己的哲学体系,就成为了在认知上通用的方法。
哲学对数学的影响:
哲学讲的是宇宙万物的本质,《西方哲学史》罗素
苏格拉底把自己看成主人,就需要在认知层面有所提高,了解数学和哲学都有助于帮助我们做到这一点。
哲学(最顶)=>各种自然科学=>数学(最底)
2.数学与自然科学:一种科学只有在成功运用数学时,才算达到真正完善的地步。(自然科学+数学)
天文学+数学(地心说+几何学)
博物学+数学(分门别类+集合论)
物理学+数学(实验方法+数学方法)
化学+数学(燃素说、氧化说+量化)
自然科学升华过程:
从简单的观察上升到理性的分析
从给出原则性结论到量化的结论
将自然科学公式化
3.数学与逻辑学
同一律:偷换概念、个体换成集合、限量版(所有的商品都是有限的)
矛盾律:不可能即是A又是A
排中律:任何事物,都要有“是”或“非”的判断
充分条件律:因果原理
4.数学与其他学科
运筹学:运用图论、线性代数改进现有系统的效率。
管理学+数学(使命、价值观和文化)
历史学+数学(大历史史书)
· 演讲内容《数学之美》
· 前言
吴军老师写过一本《数学之美》,其中包括傅里叶级数、马尔科夫假设、自然语言处理方法等,这些数学知识比较专业,很难联系非专业人士的知识,这里期望利用更简单的方法,例如我们会讲到小学数学鸡兔同笼问题讲到初中的等比数列再到大学的线性代数,我们会从数学猜想讲到推论再讲到应用,带领大家感受五大类数学之美。该演讲需要储备以下知识:线性方程组求解、无穷大与无穷小的定义、等比数列计算公式、矩阵乘法。
· 从鸡兔同笼问题开始
在一个笼子里有鸡和兔子,一共35个头,94只脚,试问鸡和兔子各有几只?
解1:《孙子算经》将所有动物的脚数除以2,一共94/2=47对,每只鸡有一堆脚,兔子有两对脚;假设所有动物都是鸡的话,应该有35对脚,这时需要将鸡换成兔子,47-35=12,说明有12只鸡要换成兔子,兔子数目12,鸡数目23只。
解2:假定笼子里都是鸡,应有35/*2=70条腿,但现在有94条,多出24条,应该是兔子造成的,一只兔子换一只鸡多出2条腿,24/2=12,于是就有12只兔子,其他的都是鸡。
解3:美国小学的教法
兔子的数量
鸡的数量
脚的数量
23
12
116
22
13
114
21
14
112
20
15
110
···
···
···
13
22
96
12
23
94
解4:二元一次方程
设鸡有x只,兔子有y只
x+y=35
2x+4y=94
数学之美:美在针对同一个问题,有多种不同的解法,但即使解法千变万化,正确的答案有且只有一个。
· 毕达哥拉斯定理(勾股定理)
勾股定理讲的是直角三角形两条直角边的平方之和等于斜边的平方,写出来就是x^2+y^2=z^2。这个定理在国外都被称为毕达哥拉斯定理,接下来有两个疑点:
疑点1.这个定理是否在毕达哥拉斯之前就发现了?
我们过去教科书里,汉朝数学书《周髀算经》记载,早在公元前1000年,周公和商高就两人就谈到了“勾三股四弦五”,比毕达哥拉斯早了500年,于是教科书中认为中国人高商最早提出这个定理,于是被称为勾股定理或高商定理。但如果只是记录了一组勾股数,早在公元前2500年,古埃及人在建造大金字塔时就已经按照勾股数在设计墓室尺寸了,再往前推,美索不达米亚人早在公元前18世纪左右就知道很多勾股数,并留下实物证据。
疑点2.古埃及和美索不达米亚为什么不争夺定理的发现权?
所有这些古代文明不过是举出一些特例而已,甚至没有提出假说,但在数学体系中,光举例是不够的,还需要做出一个明确的规律性的描述,即该定理是需要被证明的而不是例举的,这就是数学与实验科学的不同之处,前者需要依靠严谨的逻辑证明,而后者只需要实验证实就行。
那么勾股定理如何证明呢?
更多证明方法,可参考勾股定理16种证明方法
接下来,我们看看证法1,其中我们要知道直角三角形面积公式和正方形面积公式,再看证法2,我们不仅要知道前者,还需要知道三角形总和为180度,全等三角形角度相等等。
数学之美:美在数学需要经过严格的逻辑推理,公式与公式之间具有强关联性。
既然如此由毕达哥拉斯定理又推理出了什么其他的定理公式么?
· 无理数与黄金分割
毕达哥拉斯有个很怪的想法,他坚信世界的本源是数字,但数字必须是完美的。整数很完美,而分数的分子分母也都是整数,因此也很完美。整数和分数所构成的有理数让毕达哥拉斯一直坚信自己的想法。
然而毕达哥拉斯定理被证明以后,就有麻烦了。假设某一直角三角形的两条直角边都是1,那么斜边该是多少呢?根据定理算一下,斜边的平方是2,换句话说就是自己乘以自己等于2的数,这个数是否是完美的有理数呢?
如果它是有理数,那么假定存在一个数字是R,它能够写成R=A/B的形式,数字R^2=2。
由此可以看出需满足3个条件:A、B都是整数,A、B不可再约分(互素),A/B的平方等于2。
从第三个条件出发R^2=A^2/B^2=2,则A^2=2*B^2,这时候A应该是偶数,那么可以写成A=2*C的形式。A^2=4*C^2=2*B^2则2*C^2=B^2,这个时候B也应该是偶数对吧,这下问题来了,A和B都是偶数那不是还可以再约分么?
推导没错,勾股定理没错,我们的认知出了问题。世界上存在一种数,它无法写成有理数的形式,它是无限不循环小数,我们今天把它称为无理数,写成根号2。无理数中有名的除了π,还有黄金分割点1.618(根号5-1除以2)。例如雅典卫城帕特农神庙、断臂的维纳斯、蒙娜丽莎等。
那为什么黄金分割看起来这么顺眼呢?它的美感来自几何图形的相似性。我们拿一个满足黄金比例的长方形,不断减去一个正方形,然后把圆弧连起来,就有了一个等螺线,类似于蜗牛的壳,或者龙卷风的中心点,或者星云图。其实黄金分割反映了宇宙自身的一个常数,人作为宇宙的个体,耳蜗的形状,虹膜纹路都遵循这个常数。因此悦耳的音乐、动人的风景、好看的脸都是符合这个黄金比例的。
优选法中0.618法:
例:钢中加多少碳,馒头中加多少碱,假设每吨加入量在1000克,以1%迭代实验到2000克需要1000次,由此得用0.618黄金分割法。
第一次加入(2000-1000)×0.618+1000=1618克
第二次加入2000-1618+1000=1382克
第三次加入1682-1382+1000=1236克
第四次加入1618-1382+1236=1472克
5次实验可限制在9%以内,6次实验可到6%以内,根据优选法效率可以提高2~3倍。
数学之美:美在它从现实世界中抽象出来再被应用到现实世界中去。
· 数列与级数
某传销公司提成方式,每个人入会缴纳1万元,发展一个直接下线,从后者身上提成20%,直接下线每发展一个下线,可以从下线身上再提成20%的20%。
问题1:张三入会了,他在什么情况下可挣到钱?
情况1:张三找5个朋友加入这个会,他付出1万元,从每个直接下线获得2000元,类似的每个直接下线再发展5个下线,最终获得共计20000元,赚10000元
情况2:张三找4个朋友加入这个会,他付出1万元,从每个直接下线获得2000元,类似的每个直接线下再发展5个下线,最终获得共计16000元,赚6000元,每少一个直接下线少4000元
情况3:张三找5个朋友加入这个会,他付出1万元,从每个直接下线获得2000元,类似的每个直接下线再发展4个下线,最终获得共计18000元,赚8000元,下线的下线每少一个少2000元
这是很理想的假设,首先张三得找出3个及以上的朋友,每个朋友又得找到5个及以上的下线,才可能获利400元,但朋友之间有很大的交集,通常张三想发展的人,和他朋友想发展的人是一群人。
问题2:张三如果真的发展了5个人,真能拿到无限多的钱么?
再来看情况1,第一层获得2000*5=1万元,第二层获得400*25=1万元,第三层获得80*125=1万元,第四层获得16*625=1万元,第五层获得3.2*3125=1万元,以此类推
期望获得10万元,需要多少人?
An=a1*q^(n-1)
a1=5
q=5
A10=5*5^9=9765625
总数需要12,207,030人,20万元总数需要119,209,289,550,780。最后后接近无穷大,完全不可能实现。
问题3:那我如果少几个人行不行?
情况4:张三找3个朋友加入这个会,他付出1万元,从每个直接下线获得2000元,类似的每个直接下线再发展3个下线,以此类推
第一层获得2000*3=6000元,第二层获得400*9=3600元,第三层获得80*27=2160元,第四层获得16*81=1296元,第五层获得3.2*243=777.6元,第六层获得0.64*729=466.56元,第七层获得0.128*2187=279.936元,以此类推
级数迅速的收敛,最终无限趋近于1.5万,这便是无穷小的概念。
所以我们在日常理财或者工作中,不能仅仅看到现在的状态,而是看它未来发展的趋势,是发散的还是收敛的,就类似于我们这次的疫情为什么会封城,就是期望将其由发散的趋势迅速转向收敛的趋势,由无穷大转变为无穷小。
数学之美:美在它帮你由静态的感知世界到动态的感知世界,从而看清现实世界中无法看清的问题。
· 线性代数
回到鸡兔同笼问题,在一个笼子里有鸡和兔子,一共35个头,94只脚,试问鸡和兔子各有几只?
解4:二元一次方程
设鸡有x只,兔子有y只
x+y=35
2x+4y=94
也可写成线性代数形式:
[1 1 35]
[2 4 94]
向量变化
[1 1 35]
[0 2 24]
线性代数中一个很重要的概念便是矩阵,矩阵是一个M行N列,例如上述就是2行3列
假如做资产配置,第一家银行股票基金、债券基金、高风险基金投资回报分别是7%、3%和10%,第二家分别是8%、2%和9%,现在有1万元,你投第一家还是第二家?
矩阵R=([7%,3%,10%],[8%,2%,9%])
假设资产配比P=[3000,2000,5000]
数乘:
7%*3000+3%*2000+10%*1000=650
8%*3000+2%*2000+9%*1000=690
矩阵乘法:
R*P=[650,690]
若是不同的资产配比
P=([3000,2000,5000],[7000,2000,1000],[…])
R*P=([650,690],[770,730],[…])
由此,我们将单个计算变成大批量处理,也是我们今天所处信息时代需要有的思维方式。
数学之美:美在它为你提供一个方便的工具,帮你由单点问题到批量问题的解决。
· 结束语
我们常常依靠经验和直觉来认识世界,而数学作为一切科学的基础,它化繁为简可以帮助我们思考事物的本质,从而达到一通百通的效果。希望这次演讲能够抛砖引玉,让大家从过去惧怕、讨厌、漠视数学,到理解、喜欢、应用数学,从而感受到真正的数学之美。
15 Nov 2019
清晨起床说一句“打开窗帘”,煦暖阳光撒进卧室,走进厨房说一句“来杯美式咖啡,无糖加奶”,咖啡机启动工作,咖啡香味充满整个房间,端起咖啡走入客厅,说一句“来点轻音乐吧”,柔和的音乐开始在房间内飘荡。多么美好的智能化生活图景!然而实际很可能是窗帘虽然打开了,但咖啡里没有牛奶,音响播放的是嘈杂的爵士乐,而非柔和的轻音乐。这都是因为机器在识别自然语言时,常常会“听岔”、“听不懂”,因此也就无法指挥咖啡机、音响完成正确的指令。
机器理解人的自然语言,要靠“听见”+“听懂”两个步骤,也就是语音识别和语义理解两个环节。这两个环节会互相制约,从而影响交互效果。和人理解对话类似,机器想要理解一句话也并不需要弄清楚句中每一个词语和它们的排列组合,而是靠关键词获得主要的信息量。例如“今天天气真的太舒服了”,机器提取到“今天”、“天气”、“舒服”三个关键词,就可以基本准确理解用户谈论的话题。那么假设语音翻译的过程中将原句翻译成“今天天气真的太束缚了”,机器该如何理解这句话?所以说,关键词的准确识别在自然语言处理的过程中具有至关重要的意义。
在语音转译的过程中,关键词转译错误的问题主要集中在少量不常用的词汇上:不同领域专业术语,不同企业之间产品、业务名称等等。这种情况下,直接面向语音识别引擎,通过大量语音标注训练语言模型从而优化关键词识别率的方式,在实际工程应用中存在周期长、成本高的问题,难以适应复杂多变的业务需求,我们需要一套实时性更高、针对性更强、操作更便利的关键词优化方法。基于这样的考虑,智汇文本分析平台以优化不同应用环境中的意图识别效果为目的,推出了不依赖于语音引擎的关键词文本纠错技术,以下简称文本纠错。
用户使用文本纠错功能,只需要准备一批原始场景文本(如语音识别结果)和指定关键词即可,系统会自动从大量文本中找出可能出现的转译错误的内容,并根据人工校验结果对后续导入的文本进行自动的文本纠错。经过长期、大量、持续的反馈训练,文本纠错功能能够持续不断的帮助企业提升文本数据的关键词识别率,从而优化企业的数据资产价值。现基于关键词的文本纠错技术已集成到中金智汇的各类应用型产品中,并为金融、保险、电商等多个行业客户提供价值。
14 Nov 2019
Coursera作为国外一个最大的在线学习课堂,受到越来越多国内学习者的关注。但在观看课程初期会遇到能够登陆网站,却无法播放视频的问题。这里教大家一个不需要借助VPN就能快速解决的方法。
1.以管理员权限打开hosts文件
进入C:\Windows\System32\drivers\etc打开hosts文件,注意以管理员方式打开,如下图
2.将如下内容复制到hosts文件末尾并保存
52.84.246.90 d3c33hcgiwev3.cloudfront.net
52.84.246.252 d3c33hcgiwev3.cloudfront.net
52.84.246.144 d3c33hcgiwev3.cloudfront.net
52.84.246.72 d3c33hcgiwev3.cloudfront.net
52.84.246.106 d3c33hcgiwev3.cloudfront.net
52.84.246.135 d3c33hcgiwev3.cloudfront.net
52.84.246.114 d3c33hcgiwev3.cloudfront.net
52.84.246.90 d3c33hcgiwev3.cloudfront.net
52.84.246.227 d3c33hcgiwev3.cloudfront.net
3.按住windows+r,输入cmd打开命令行窗口
4.在命令行窗口中输入如下信息
ipconfig/flushdns
16 Apr 2019
最近总遇到一些由传统产品经理转向AI产品经理的同僚,大部分由于缺少AI普适性的概念导致日常工作进展缓慢,遂整理一些自己筛选过的文章以供大家尽快了解这个行业。
1.《人工智障 2 : 你看到的AI与智能无关》
整篇分为6个Part,其中Part1~3分别讲述的是AI的现状、成因及愿景,Part4~5讲述AI与产品,Part6是结束语。核心论点:单靠深度学习搞不定自然语言,更需要从产品设计角度去弥补现有技术的缺陷。
2.《基于知识图谱的问答在美团智能交互场景中的应用和演进》
该篇主要阐述智能交互三个方面:检索式交互、 任务式交互、闲聊式交互,适合期望了解对话机器人的初学者阅读。
3.《Deep Learning for Natural Language Processing》
这是一套斯坦福的课程,建议有一定NLP基础的同学去学习,会有很多新的启发
30 Aug 2018
目前正在进行的数据分析革命有可能改变公司组织运营、人才管理和价值创造的方式,这种情况已经发生在一些成功借助数据分析并从中获得重大回报的公司,例如Facebook、Google、腾讯等。有效的数据分析往往是一连串典型的业务问题,这意味着公司高级管理人员必须能够明确目标,然后将其转化为行动并用数据进行量化,由此加强公司内部和外部每个流程节点的管控。本文将从以下六个方面阐述有效数据分析的关键要素:
· 提出明确的问题
许多公司都试图尽可能多的收集数据,然后看看数据呈现出了什么样的状态。这可能会陷入一个数据分析的误区,正确的方法应该是先明确清晰的业务目标,例如“我们如何降低实施环节的成本”、“我们如何才能提高团队中每个成员的生产力”等等。然后想想如何将数据指标与业务需求结合起来,从而迭代实际的业务示例,并探究突破点所在的位置。在对资金和时间有严格限制的现实世界中,在数据收集之前提出明确的问题,即使最后只有部分的数据被开采也能收到更加立竿见影的效果。
· 从细节开始改进
大数据分析的影响通常表现为成千上万渐进式的小改进,即最小的改变也可能产生最大的差异。如果公司将单个流程划分为多个的小区间并尽可能的量化,或者系统地将较小的改进结合到更多的流程中,那么收益将会是指数级的增长,例如GE在其飞机发动机中嵌入传感器,以实时跟踪其每个部件的动态数据,从而可以更快地进行调整并大大减少维护停机时间,又例如某家餐饮公司将整个制造过程进行分解,通过比对每个制造过程的数据发现烤箱烘烤温度调整不仅能使产品口感更佳,还能够降低生产成本。
· 全面的数据组合
很多时候公司会不断挖掘单个数据集的价值,却没能考虑不同数据集之间的组合价值。例如,人力资源部可能拥有全面的员工绩效数据,运营有特定资产的综合信息,财务有全公司的财务信息。全面查看不同的数据源,可能会发现额外的位于不同数据集之间沟渠中的价值。这种方法类似于维恩图,通过对两个或以上的数据集叠加查看可以更清楚地看到关键问题。
· 确保数据循环运行
循环运行的宗旨是观察、定位、制定周期并采取行动。例如Google长期坚持以数据为中心的决策,将消费者反馈建立在解决方案中,并迅速迭代出人们不仅使用而且喜爱的产品。数字化使得反馈周期不断加快,通过分析每个新输入而改进的机器学习算法能够使得公司循环迭代的次数越来越快,从而保证公司在市场上获得更大的竞争优势。
· 保证输出的易用性
虽然好的算法可以创造奇迹,但其本身并不会阐述问题。大量的数据反馈结果往往需要进行二次包装才能面向用户,毕竟用户直接对数据解读具有一定的局限性。这就是为什么一个简单易用的界面会增加用户粘性,而不是展现更具有不平衡个性的详细计算公式。
· 建立一支多技能团队
数据分析是一项团队运动,关于采用哪种分析方法、数据来源以及如何提出问题需要基于团队判断。组建一个强大的团队有点像创造美食,需要混合精细的成分和激情。主要团队成员包括数据科学家,他们帮助开发和应用复杂的分析方法,具有数据集成和分布式计算等领域技能的工程师,以及用户界面开发人员和创意设计人员,确保产品在视觉上美观且直观有用,最后还需要一名“翻译人员”将IT、数据分析学科与业务决策联系起来。
25 Apr 2018
人工智能技术(Artificial Intelligence, AI)的迅猛发展将对我们的生活和工作产生重大影响,许多企业为了在这个快速增长的市场中占有一席之地,不断改变公司发展战略,加大对人工智能技术的投入。尽管现有AI技术仍存在许多不确定性,但关注以下几点企业将会更好地获得盈利:
· AI初期盈利暂时受限
第一批AI产品具有共同特点:它们附加在产品功能上,但不直接创造效益。例如一些在线翻译和照片标记服务,或者手机上的数据语音助手,这样的产品功能会增加消费者对于产品的粘性,但不会直接提高或增加收入。未来可能并不是这样,因为更新的收费服务正在进入市场,例如自动汽车,一些消费者可能满足于AI能够实现自动制动的车辆,而另一些消费者则需要更多的功能,例如完全自驾车,即使他们为此必须支付额外的费用。
· 把重点放在AI成型的行业
政府可以使用AI来扫描监控并识别公共场所的可疑活动,或者使用AI算法来检测潜在的网络攻击。包括无人机在内的许多军事应用也依赖于人工智能。除了安全性之外,AI在交通控制中发挥着重要作用,包括传感器和摄像头,使得光信号根据道路上的汽车数量改变其时间和顺序。与公共部门一样,银行也开始使用AI来检测可疑行为,例如提示洗钱的模式。人工智能算法也可以帮助处理交易和做出决定,通常比人力雇员更为准确。例如,AI算法可能会揭示某些被忽略的特征增加了某个特定交易是欺诈的可能性。在零售方面,人工智能已经在帮助进行盗窃检测,并可能进一步增强自动结账功能。一些零售商正在试行使用照相机和传感器来检测顾客什么时候从商店取货或退货的系统。正如AI价值因行业而异,当供应商计算他们的AI策略时,还是应该把投资集中在哪些愿意成为第一个多米诺骨牌的AI解决方法的潜在消费者身上。
· 公司需要有端到端的AI解决方案
为了赢得人工智能,企业必须提供跨多个技术层面端到端的解决方案,例如,一家医院宁愿购买一台包含MRI设备和人工智能软件的诊断系统,而不是分别购买这些组件,然后将它们组合在一起工作。除了提高销售额之外,采用端到端解决方案的供应商还可以与客户建立战略立足点,大型硬件和软件公司往往通过收购其他公司来扩大他们的人工智能投资组合,以此完善端到端的解决方案。
· AI大部分价值将来自硬件和解决方案
虽然硬件在许多其他领域已经商品化,但这种趋势不会很快达到人工智能,因为在考虑成本的情况下,针对每个AI问题进行优化的硬件将提供更高的性能。例如,针对卷积神经网络优化的加速器对于图像识别是最好的,而针对长短期记忆网络进行优化的加速器更适合语音识别和语言翻译。每个用例的要求稍有不同,都会导致每个用例需要部分定制的硬件。AI解决方案的价值将来自服务,其中包括解决方案和用例。系统集成商通常可以直接访问客户,通过将解决方案集中在所有层次上来获取大部分收益。
· 特定的硬件体系结构将是云计算和边缘计算的关键区别
随着人工智能的发展,硬件再次被捧上热潮,鉴于数据量的规模,云将继续成为许多应用程序青睐的选择。在云硬件中,客户和供应商在图形处理单元(GPU)上偏好专用集成电路(ASIC)技术,市场可能已然分散。在这方面,ASIC将赢得消费者的青睐,因为它们为许多应用提供了更优质的用户体验,更低的功耗和更高的处理能力。
如果企业延迟两到三年再来建立一套完善的人工智能战略,便很难在这个快速发展的市场中获得一席之地。大多数企业都知道风险的价值,愿意开拓进取,但缺乏强有力的战略。相信以上几个方面将为众多期望进军AI的公司带来全新的视野。
参考文献:
Artificial intelligence: The time to act is now
06 Feb 2018
当我们还没意识到自己在使用人工智能之前,AI就已经渗透于诸多智能产品和商业服务之中,小到我们常用的智能手机,大到我们接触的智能客服。随着AI技术的不断发展,越来越多的人开始关注人工智能的自动化对于我们工作场所、就业和社会的影响。简单来说,人工智能的挑战和局限性给领导者创造了一个“移动目标”的问题:很难在AI浪潮中一直保持领先的优势。每当AI技术试图应用到现实世界但受到障碍时,投资者便会采取观望的态度。为了保持AI技术的先进性,一个有用的方法便是追踪深度学习的最新进展。
深度学习相较于传统的有监督学习的“特征工程”,使用了大规模的神经网络,它可以包含数百万个模拟的“神经元”分层结构,这些神经网络通过训练数据和反向传播算法来学习。虽然深度学习推进了人工智能的发展,但人工智能的实现还有诸多的局限,例如AI方法、业务问题和数据可用性相适应的问题。由于AI系统是经过“训练”而不是建成的,所以各个过程通常需要大量的标记数据来精确地执行复杂的任务,此外,很难分辨一个由深度学习训练的数学模型是如何达到特定的预测或分类。让我们从以下五个方面来探索人工职能的挑战和局限性:
· 数据标签
目前大多数人工智能模型都是通过“监督式学习”进行训练的。这意味着我们必须手工对基础数据进行标注和分类,这是一个相当庞大且容易出错的杂事。例如,开发自驾车技术的公司正在雇佣数百人手动注释来自原型车辆的视频,以帮助更好的训练这些系统。与此同时,如流式监督的新技术也在不断涌现,这种技术能够在数据自然使用过程中被贴上标签,这种半监督的方法减少了需要大量标记的数据集,有可能将大量劳力成本从繁琐的数据标注中解放出来。
· 获得大量的训练数据集
研究表明,使用线性模型的简单的AI技术在某些情况下可以接近医学和其他领域的专家的能力。然而,目前机器学习需要的训练数据集不仅要求被标记,且要求足够大、足够全面。一次性学习是一种新的技术,可以减少大型数据集的需求,允许AI模型在给予少量样本的同时,精确地识别出一个类别的多个实例。由此可以减少AI建模时需要大量训练数据集的问题。
· 可解释性问题
可解释性并不是人工智能系统的一个新问题,随着深度学习的成功和采用,促进了更多样化和先进应用的同时也生成了更多的不透明性。更大、更复杂的模型使人们很难解释为什么达成某个决定,但随着AI应用范围的不断扩大,监管要求也可能导致需要更多可解释的人工智能模型。此时我们采用LIME方法可能更好的提高模型透明度,其目的是试图确定一个训练好的模型依赖最多的输入数据的哪个部分来开发可解释模型的预测。这种技术一次考虑某些数据段,观察预测结果的变化,对代理模型进行微调,并形成更精确的解释。
· 学习的普遍性
与人类学习的方式不同,人工智能模型难以将他们的经验从一种情况转移到另一种情况。实际上,对于一个给定的用例来说,无论是哪一个模型,都只能适用于这个用例。因此,即使在用例非常相似的情况下,公司也必须多次投入资源来训练另一个模型。对这一挑战的一个有希望的回应是转移学习。在这种方法中,人工智能模型被训练完成某个任务,然后迅速将这个学习应用于一个类似但不同的活动。 DeepMind的研究人员在实验中也发现了转移学习的有希望的成果,随着转换学习和其他通用方法的成熟,他们可以帮助组织更快速地构建新的应用程序,并为现有的应用程序提供更多不同的功能。例如,在创建虚拟个人助理时,转移学习可以将用户在一个区域(例如音乐)中的偏好推广到其他人(书籍)。
· 数据和算法中的偏差
随着我们在新的领域部署机器学习和人工智能算法,可能会有更多的实例将这些潜在的偏见问题无意识的融入到数据集和算法。这种偏见倾向于保持嵌入,因此承认这些偏见并采用措施解决这些偏见需要深入掌握数据科学技术以及对现有业务情况更多元的理解。
人工智能是强大的,但实现人工智能所需的技术、工具和流程条件还没有完全达到。但我们需要有足够的信心去相信,随着研究人员和AI开拓者不断的去挑战一些当今棘手的问题,AI终有一天会有全新的突破。
02 Jan 2018
随着大数据的迅猛发展,许多公司都期望能够借助机器学习技术指导自身的商业决策,由此他们通过不断的优化程序,设置复杂的算法来处理大量且频繁更新的数据集,并从中发现用户喜好、产品周期等问题。机器学习的广泛应用证明了企业对于“技术支持决策”这一观点的认可,但缺乏经验所构建的机器学习算法会产生偏差,从而造成预测结果严重偏离数据内在规律。这种经常被业务人员忽视的缺陷可能会诱发高额的代价,如果不加以控制,项目目标和实际目标可能背道而驰。因此从一开始就有效的解决这个问题,将获得比预期收益更大的回报,从而使得机器学习真正的潜力得到最有效的发挥。现阶段,影响机器学习算法偏差的问题可能基于以下几个方面:
· 主观偏见
由于人类决策者可能受到历史经验的影响,因此其做出的决策可能具有一定的偏见,我们通常将这种偏见形式称为锚定偏见。而另一种偏见形式称为可用性偏见,即人们在做出决定前通常会做出熟悉的假设,这些假设在过去可能发挥了充分的作用,但却不能够适应新的情况。如果偏见能够影响人类的判断,那么机器也同样会受到影响。一方面,机器学习算法创建过程中很容易带入人的主观偏见;另一方面,机器学习所预测的结果需要参照过去有偏见性的经验进行判断。这种主观偏见会随着机器学习算法的深入不断放大,从而导致最后所得结果具有严重的偏差。
· 数据限制
机器学习可以挖掘庞大数据集中的本质规律,但数据异常和错误可能导致算法走向歧途。不具有代表性的事件会导致机器学习算法偏离正轨,例如,一系列特殊的天气时间或欺诈行为引发违约率上升,由此信用评分卡可能会将该地区标记为“高风险”。在这种情况下,除非采用实时的纠正措施,不适当的算法会使偏见持续存在。寻求通过统计方法来克服偏见的公司可能会发现,监督他们的机器学习算法的数据科学家可能受到同样的偏见。与此同时,受到成本和时间的制约,他们可能不会收集更多的数据变量,而这部分数据集恰巧包含了对预测结果最真实的判断力。
· 稳定性偏差
在不确定的环境中具有惯性趋势,实际上是机器学习算法的一个重要问题。预测模型基于历史数据中检测到的模式进行操作,如果相同的模式不复存在,那么这个模型就类似于一个古老的铁路时刻表,其对于历史学家来说是具有价值的,但对于旅行者来说却毫无意义。要形成机器学习算法来识别数据中不存在的模式是非常困难的,即使是分析师熟悉的模型也可能在某些事件节点表现出来不一样的特性。为了弥合现有数据和现实之间的差距,可以创建合成的数据点,并试图用机器学习算法捕捉非常详细的模式。
在人工智能领域,机器学习越来越多指的是基于统计算法的计算机辅助决策,这些决策最显著的用途是预测建模。例如,在信用评分方面,一般认为长期无拖欠贷款的客户风险较低,但是如果这些客户一直维持的抵押贷款多年来将被大量税收优惠所抵消,违约高峰可能在贷款机构的统计风险模型中不了了之。因此需要通过专家了解正确的数据,并矫正原始机器学习模型,使得该模型可以找到数据中的隐藏模式并准确预测这种违约高峰发生的可能性。创建一个有意识的,基于标准的系统来开发机器学习算法将涉及许多决策判断的结果,在此背景下,一项有效的技术就是“预先设定练习”,旨在查明所提议模型的局限性,帮助企业管理层了解算法中涉及的业务风险,从而减少机器学习算法偏误所引起的损失。
20 Nov 2017
像“大数据”这样的流行语通常会让人联想到定量分析,例如机器学习算法和统计分析应用。虽然这些方法及应用是透析数据本质、挖掘数据价值的关键步骤,但数据领域一个更加基础的模块便是获取数据。现阶段,如何大规模地收集和分享数据已经成为各行各业的热门话题,例如政府部门公开部分数据以提高行政职能部门的透明度。
数据共享通常通过应用程序编程接口(API)来实现,这是一种智能管道,允许以受控但无缝的方式在系统之间传输数据,具体可见表1(来源于:McKinsey Payments Practice)。多年来,API已经在银行业务环境中得到了充分利用,鉴于先进分析技术的突破以及众多非银行金融科技公司的市场吸引力,API正在作为向零售消费者和商业客户提供金融服务的手段,重新受到各界的广泛关注。
开放式银行作为数据共享的实际应用之一,其潜在好处包括改善客户体验,创造新的收入来源,以及提供可持续的服务模式。虽然开放式银行有利于终端用户,并促进银行和非银行之间的技术和领域竞争,但也可能迎来一个全新的金融服务生态系统,银行未来的角色可能会发生显著转变。
开放式银行业务可以定义一种协作模式,在这种模式中,银行数据通过两个或多个无关联方之间的API共享,从而为时长提供增强的功能。API已经被使用了数十年,特别是在发达国家,使得个人财务管理软件能够在银行网站上呈现计费细节,并将开发者连接到Visa之类的支付网络。但迄今为止,这些关系主要用于分享信息,而不是转移货币余额。
随着数据生态系统的日趋成熟,类似腾讯、阿里巴巴等诸多企业会开始发生数据碰撞,数据无法共享将损害到每一家企业的商业利益及其运营模式的创新。此外,大部分的数据都来自金融服务领域之外的公司,虽然银行拥有丰富的交易数据以及可信的客户关系,但他们往往把这些数据流的开放视为威胁而不是新的机遇。
共享“精简档案”消费者的有限数据可以帮助推进金融领域的包容性,集中有限的信息以获得更准确的风险评分和信贷承保决策。通过向正规金融体系引入更多的消费者,开放式银行业务将增加市场机会和未来提供盈利性服务的潜力。虽然开发式银行业务会导致现有银行在某种程度上受到冲击,但它们可以通过预测分析、人工智能等技术手段,提升客户粘性、深度挖掘客户价值,例如支付宝、微信通过它们的平台实现增加版的电子商务,提供更流畅的个性化体验以及包括点对点在内的全套支付选项。
现阶段,数据共享与开放式银行还存在一些问题,例如“敏感数据”的责任风险以及第三方供应商在一段时间之后销毁数据的义务,相信随着技术不断革新,开放式银行的诸多问题将迎刃而解,整个数据生态系统将会迎来新的篇章。
20 Oct 2017
随着深度学习技术的不断革新,人工智能在生活和工作中的作用越来越明显,认知技术作为人工智能中一块分支,正在逐渐改变企业传统的工作流程。认知技术简单来说,就是让计算机代替人来理解和思考问题,Google的人工智能专家指出,现在他们正在努力提高机器认知的速度、准确性和效率,并期望能够增加20%-30%的额外容量。通过认知技术的实现及广泛运用,能够将一大批人类专家从繁琐的数据整理工作中解放出来,从而专注于更高价值的活动。
认知技术的实现模式既可以是应用程序,也可以是独立的机器,它们工作的主要目的是替换以前需要通过专家定义才能进行输入及输出的任务,其中包括机器人过程自动化(RPA)、机器学习和自然语言处理。认知技术减少了对专家输入的需求,并通过新的工作方式提高了机器自动学习的效率。
现阶段,已经有诸多利用认知技术优化工作流程的实例,例如RPA通过现有接口自动执行包括数据提取和清理的日常任务活动;机器学习将高级算法应用于大数据集以识别模式,帮助诸如客户关系管理CRM、产品控制和交易监控等领域做出决策;自然语言处理将语音和文本文件转化为结构化可搜索和处理的数据;认知代理人技术与用户直接互动,常用于雇员服务中心、帮助台和其他内部联络中心。
麦肯锡公司近期分别比较了几家银行在使用认知技术之后,其现金股权业务中的数字运营及贸易处理的渗透率。他们发现数字运营水平最高的公司其收入增长了八倍,并且FTE的交易量高水平组比低水平组高出4倍以上(数据来源于:《McKinsey Capital Markets Trade Processing Survey》, McKinsey research, Coalition data),具体可见下图:
技术效率的提升往往与员工人数的减少呈现直接的线性关系。这是因为自动化能够有效降低工作总量,例如,RPA通常将每个人的工作量降低10%至20%,因此人员配比也将相应减少。然而,从整理的创造能力来看,认知技术的影响是潜在的,其可以作用于独立解决方案,也可以和其他应用程序组合运行而增加其影响力。例如,RPA和机器学习对结算和付款功能中的标准指令的更正具有很高的使用价值。同时,认知代理、智能工作流程和自然语言处理在客户端服务中最为有用,例如用于创建自定义的电子邮件响应等等。
现在大多数企业所需要解决的问题不是在于是否部署基于人工智能的技术,而是在于部署了人工智能技术之后如何使其快速的产生价值,相信随着认知技术在不同领域的广泛运用,人工智能将在企业日常运营活动中产生更大的价值。
19 Oct 2017
资本资产定价对于公司的重要性毋庸置疑,据相关数据统计,1%的价格涨幅能够提升8.7%的营业利润增长。然而许多公司至少有30%的定价决策是不受到市场认可的,导致了大量的资源浪费和收入损失。因此借助大数据技术挖掘客户互动过程中所提供的海量数据,能够帮助公司进行更为合理的资本资产定价决策,即调整到合理的价格以获得高额的营业利润。
对于每个产品,公司都应当找到客户愿意支付的最优价格。一般情况下,大多数公司都会通过受众群体、市场同价产品、产品核心竞争力等维度指标,制定较为理想的市场价格。事实上,这种方法只适用于产品种类少且订单数量少的公司。然而,现有公司产品种类及数量规模都达到一个比较高的标准,这时传统的定价模式将不再适用。对于大型公司而言,借助大数据技术精准的管理这些复杂的定价变量,处理成千上万不断变换的产品定价问题,是具有重要意义的。例如基于支付意愿的客户–产品差异化定价模型,就是大数据助力资本资产定价的典型案例,其中蓝色点为产品销售价格和折扣率之间的散点图,黄色点代表不同的客户群体,由此找到市场需求和产品价格之间一个最佳的平衡点,从而使得产品定价对于消费者来说价格最小化,对于公司来说利润最大化。
一家跨国能源公司的销售业务主管曾表示:“事实上,许多公司每年都以规模和数量等相关指标来增加价格,例如生产成本、标准利润率、类似产品价格、批量折扣等,而不是以数据科学为基础。”
更好地定价的关键是充分了解公司现有的数据。Sasol集团副总裁Tom曾表示:“当销售团队知道他们的定价以后,他们可能就能预估到自己的销量,但这些数据多数都是基于字面发票。”事实上,在B2B的商业环境中使用大数据所产生的价值早就超越了定价,并触及到了公司商业引擎的其他方面。例如“动态交易评分”是基于一系列类似于盈利/亏损交易,提供个人交易、决策升级点、激励措施、绩效评分等级来进行价格指导。因此为了获得更优的定价决策,公司可以从以下三个方面着手:
· 倾听数据所发出的声音
鉴于公司通常都会收集足够多的用户信息,因此设定最优惠的价格并不属于数据收集的挑战,而是数据分析的挑战。最好的B2C公司知道如何解释和运转他们所拥有的海量数据,但B2B公司倾向于管理数据,而不是用它们来推动决策。良好的分析可以帮助企业确定经常被忽视的因素,例如更广泛的经济形势、用户产品偏好和销售代表性谈判,并揭示出哪些因素能够驱动客户群体和产品价格。
· 使海量数据自动化运转
手动分析成千上万产品的人工和时间成本难以估量,而自动化系统可以快速识别数据波动规律和异常状态,精确定位哪些因素为客户带来价值,并将其与历史事物数据进行匹配。这允许公司根据数据为产品进行客户细分并生成对应价格,自动化还使得分析具有实时性,不需要每次都从头开始进行计算。
· 数据技术支持公司决策
新价格的实施既是销售的挑战也是技术的挑战。许多公司为了帮助他们的销售人员了解和接受新的定价方法,投入了大量的资金。他们需要与销售密切合作,解释价格定制的原因以及系统的运作原理,以便销售相信该定价的合理性。技术层面上,开发一套清晰的通讯系统也是同样重要的,该套系统能够实时提供购买的理由、突出产品的价值,并为客户量身定制具有个性化的产品。
现有电信、交通、医疗等多个行业的众多公司都期望通过使用大数据技术来获得更好的定价决策。相信在不久的将来,大数据技术能够帮助公司突破传统的资本资产定价方式,寻找到市场认可与公司盈利最佳的切合点。
15 Sep 2017
近年来,机器学习技术的突飞猛进促使计算机系统能够解决现实世界中诸多复杂的问题。其中之一便是Google发布大规模的、基于图的机器学习平台,而这套技术正是我们日常使用的收件箱提醒、Allo智能信息回复、Google Photos图像识别等功能背后的技术工具之一。
相对于需要经过大规模带标签的数据训练,才能够展现出其预测能力的“有监督”的机器学习方法,基于图的机器学习技术受到人类在已有知识(有标签数据)和全新未知结果(无标签数据)之间搭建学习桥梁的启发,使用称之为“半监督”学习的方法,使系统能够在稀疏数据集上进行训练,从而能够避免“有监督”学习中,对于每个新的任务都需要耗费大量的时间和精力去采集标签数据的问题。此外,基于图的半监督学习方法使得系统在学习的时候能够同时吸收带标签和不带标签的数据,这样有助于改善数据的底层结构,混合多种不同信号的特征,例如带有原始特征的知识图谱相关信息等。
基于图的机器学习算法核心就是构建图本身,由此我们需要定义节点、边、以及每条边的权重。在整个学习过程中,最主要的问题就是如何生成图以及连接方式的选择。图有各种各样的大小和形状,并且能够与多种不同的来源进行结合,Google所发布的基于图的机器学习平台正是抓住了这一痛点,能够直接从推断或已知的数据要素间关系中自动地生产图。为了更好的理解基于图的机器学习系统是如何运转的,本文列举以下的示例:
如图所示,灰色节点代表无标签数据,彩色节点代表有标签数据,节点数据之间的关系通过边表示,边的粗细程度代表边的权重,由此我们需要解决的问题是预测图表中每一个节点的颜色。基于图的机器学习技术最简单的实现原理,就是学习图像中每一个节点的颜色标签,相邻标签则依据相互之间链接的强度来分配与之相似的颜色。一个较为简洁的方法就是尝试一次性全部学完标签分配,但这种方法并不能拓展到大型的图上。另一个方法就是通过把标签节点的颜色传递给相邻节点,然后重复这一过程,从而不断的获得优化。通过第二种方法,我们可以升级每一个节点的标签,重复操作,直到整个图都是彩色的,而这一过程在优化相似的难题上也被证明是极其有效的。
现今,基于图的机器学习技术被应用到越来越多的领域中,例如自然语言处理中的情绪标记,金融领域中的反欺诈模型构建,当然还包括一些智能提醒、对话理解等应用。相信随着基于图的机器学习技术不断发展,在不久的将来,互联网规模膨胀的问题也将获得圆满的解决。
07 Sep 2017
随着通讯技术的不断发展,呼叫中心的规模与日俱增,现阶段国内拥有上千席的呼叫中心不在少数,其每日所产生的语音数据体量难以想象,属于典型的非结构化“大数据”。这些数据中所蕴含的客户偏好、产品质量、坐席技能等相关指标是呼叫中心优化服务质量、提高运营效率的重要参考因素,直接关系着营销决策制定以及产品服务设计。
然而,语音数据作为呼叫中心一项重要的价值资产,在过去很长一段时间内却没有受到足够的重视。这是受限于传统技术条件下,语音数据存储成本过高,应用难度过大,更难说从中挖掘核心价值以支持决策分析。但随着大数据、云计算与人工智能技术的迅猛发展,使得海量数据存储成本不断降低,分布式并行计算效率不断提高,打破了语音数据存储及处理的技术壁垒,为呼叫中心提供了全新的运营模式,其具体应用场景如下:
1. 分布式存储海量语音数据成为主流
呼叫中心体量的不断扩张,导致大量的语音数据堆积,以某金融机构呼叫中心为例,其坐席数量超过3000余个,每日产生的录音文件量高达100G以上,年录音文件总量超过50T,预计未来语音数据量的年平均增长率高达30%。如此海量的语音数据加剧了数据存储的难度,虽然现有计算机存储硬件的发展已经非常迅猛,但其发展速度还远不及数据量的几何式爆破增长,并且由于高性能的存储硬件存在造价成本的问题,大多数企业对于日益增长的进量数据以及原始积累的存量数据又爱又恨。在现有职能体系下,多数企业还将呼叫中心评定为服务中心,一心旨在控制呼叫中心成本而并没有期待其能够产生收益。由此试图通过提高计算机硬件配置来解决呼叫中心语音数据存储的问题,并不具有一般可行性。
大数据技术的发展成功解决了呼叫中心语音数据量存储的问题,其特有的分布式存储技术能够将单一体量巨大语音数据文件夹切分为多个小的区块,并使其能够存放于由多台计算机所架构的集群上。这些计算机之间通过某种方式相互通信,进而将整个集群内所有存储空间资源整合、虚拟化并对外提供文件访问服务的文件系统。利用大数据技术存储语音数据具有两大突出的优点:其一,极大降低了数据存储所需的硬件成本,由于大数据技术能对单一体量的数据集进行切分、存储、再整合,因此数据存储就不再受限于高性能的计算机硬件,而只需要多个性能基本达标的存储硬件便能够对海量数据进行存储和处理;其二,所保存的数据不易丢失或破坏,由于大数据技术会将单条语音数据重复分配到集群中多个计算机上,因此在数据提取时,若某个计算机的数据不慎丢失或其本身遭受破坏,我们也能正常的从集群中提取到完整的数据。
现阶段大多数呼叫中心运营高层都逐渐意识到日常语音数据的价值,也纷纷表示分布式存储技术确实能够帮助其解决语音数据体量过大的问题。由此如今众多呼叫中心都致力于从抽取部分语音进行存储变革为全量语音存储,从真正意义上使得分布式存储海量语音数据成为主流趋势。
2. 实现“机器质检泛听+人工质检精听”新模式
呼叫中心是人力密集型行业,其质量监控管理一直是一项浩瀚的工程,如果都通过传统的人工监听进行质检管理,其所需的人力物力难以估计。因此在过去很长一段时间内,呼叫中心都利用抽听的方法进行质量监控管理,该方法一方面从业务角度而言,可能导致坐席人员工作的投机性,另一方面从统计学角度而言,简单的随机抽样所得出的结果并不能完整反应该坐席普遍的日常工作状态。质量监控工作对于呼叫中心而言具有重要的意义,其通过对坐席人员服务质量的检测和监控,确保坐席通话过程中的规范性、完整性和准确性,提升坐席人员日常的营销技能和服务水平,保证业务一线人员高水平服务的持续性。然而,传统质检人员每天面对大量的录音,常用方法都是通过听录音进行合规性检查,无法识别批量录音中所蕴含的重要信息,例如客户投诉信息中,有多少客户是不满意坐席服务态度,有多少客户是不满意产品价格。又假设面对业务量陡然激增,管理者是否能在第一时间洞察背后原因,从而及时制定应对策略?
随着大数据技术实现呼叫中心语音数据全量存储,质检系统也由传统人工抽检转变为机器录音质检100%全覆盖。借助深度学习方法所构建的声学模型和语言模型,语音分析系统能够更精确的将海量通话内容转化为录音文本文件。在此基础上,加入全面的质检评分规则:通过设置业务术语、礼貌用语、禁忌用语、静默时长等质检点计算机能够自动地对所有坐席人员的业务熟练度进行打分,从而筛选出评分较低的通话供质检人员调听,在全方位覆盖每通录音的同时,大幅降低了人工质检所需的成本。如此系统筛选与人工调听相结合的质检方式,形成了“机器质检泛听+人工质检精听”的新模式,进而有利于全面把握呼叫中心人工坐席服务质量,提高呼叫中心运营效率。
3. 文本分析结合机器学习深度挖掘客户价值
现阶段,大多数呼叫中心仍被定义为成本中心,那么如何充分利用呼叫中心数据资源,将呼叫中心打造为利润中心,是传统呼叫中心转型升级的关键。呼叫中心现有系统及分析报告中所包含的通话时长、响应率、成单量、投诉率等指标计算已经相当成熟,并且在关于构建客户群体划分、产品竞争分析、业务风险评估等机器学习模型上也小有建树,但仅此还无法完成呼叫中心由成本中心转向价值中心,最后成为利润中心的转型。这是由于单一结构化数据所构建的机器学习模型还无法全方位精准的预测客户行为,由此我们在构建机器学习模型时还需要添加诸如客户情绪等非结构化数据,以保证学习过程的完整性。
消费者金融保护局(CFPB)曾经就利用文本分析搭配机器学习的方法来探索自身的数据情况。他们的数据主要记录了客户对银行、信用卡公司和其他金融服务公司的投诉,其中包括客户信息、产品信息等结构化数据以及客户评论、语音文本等非结构化的数据。该分析方法首先使用文本分析技术来识别CFPB收集的自由形式数据中的负面情绪,然后利用机器学习算法建立一个预测模型,用来分析负面情绪程度与客户是否收到违规银行补偿,这两个变量之间的关系。研究结果表明,客户得到补偿与负面情绪之间确实存在相关性,当客户评论表现出较强的负面情绪,违规银行很大概率上会针对这部分客户进行补偿,特别是当有客户使用“偷”或者与之类似的词语时,其获得补偿的概率会更大。这项数据分析工作充分展示了文本分析和机器学习结合的力量,一旦文本分析被引入机器学习的预测模型中,该模型就能在发现行为模式的同时,回答为什么会产生这种行为模式,以及如何解决这种行为模式所带来的问题。
相对于其他部门而言,呼叫中心所特有的语音数据属于典型的非结构化数据,通过文本分析技术能够对这些非结构化语音数据进行淬炼,从中提取高价值、新维度的变量,例如客户满意度、客户情绪、产品偏好系数等,进而改进现有机器学习模型。结合文本分析和机器学习所实现的智能数据挖掘系统,将突破呼叫中心传统数据分析方法的局限性,更深层次、全方位的对客户进行扫描,使得呼叫中心与客户之间关系由简单交易到亲密信赖,最终达到价值依托。
随着大数据、云计算和人工智能技术的发展,海量语音数据存储成本不断下降,智能质检系统的精确度不断提升,客户价值获得更深层次的挖掘,届时呼叫中心将突破传统业务逻辑,形成全新的运营模式。在该模式下,呼叫中心日常运营将会主要围绕如下四个方面:全方位挖掘客户需求,提升客户感知及服务质量;关注员工发展,提高员工技能及日常工作满意度;聚焦中心实际需求,降低运营成本,提高营销收入;收集高价值信息,降低信息预测风险。随着新运营模式的不断深入,呼叫中心将真正从过去的被动服务转向主动服务,由成本中心转向企业核心利润中心。
01 Aug 2017
关于机器学习对银行业影响的研究自20世纪以来,已经持续了很长一段时间,但一直没有获得过重大的突破。直到大数据技术的实现,摆脱了传统数据存处理技术对计算机硬件要求的枷锁,机器学习才真正在银行业务中发挥出了其实战作用,例如信用风险管理等。
机器学习(Marchine Learning)听起来比较复杂,很有未来感,但其实它的工作原理很简单。简单来说,机器学习就是结合大量类似于决策树的决策模型,来创建一个更加精确的模型。通过快速地对这些决策模型进行迭代训练,机器学习能够找到“隐藏”的最优解,特别是在统计模型中经常遗漏的非结构化数据。
· 机器学习在银行业中的应用
银行投资组合中经常会出现长尾数据,相对于传统的统计方法,机器学习对长尾数据的解释力更强。考虑到那些个体投资较少但总体数量庞大的客户,我们通常对这一群体的客户知之甚少,并且他们也是相当被动的接受银行业务。但是,机器学习能够对这类客户的行为进行很好的分析,从而指导业务人员有针对性的挖掘潜在的盈利目标。
举一个机器学习在银行业信用卡产品线中实际应用的案例,该银行的目标是针对每个客户寻求最优的信用额度,简单来说就是他们希望知道能够在哪些方面增加或减少信用额度。现有统计模型虽然已经具有了相当可观的预测能力,但当利用机器学习方法去重新训练与之相同的数据集,并在训练时添加一些诸如政策规定等非结构化数据时,模型的预测能力直接提高了1.6倍。这种改进能够从基于现有模型中风险较低的客户手中获得显著收益,由此会导致信用额度下降,并且会避免因为信用额度增加而导致的额外损失。
· 机器学习应用的局限性及解决方案
那么,是什么导致了银行业并没有更广泛地采用机器学习方法呢?通常来说,有以下三个方面的问题:首先,变量规模的扩大会使得当前的银行系统需要更多的资金进行研发和维护;其次,机器学习中许多模型都是一个黑盒子,以至于造成了预测结果的不可解释性,这严重触犯了银行业的稳定规范;最后,机器学习准确性的检验比较复杂,因此使用机器学习方法在验证环节具有一定的挑战。
尽管机器学习方法具有诸如此类的问题,但也有一些切实可行的办法来弱化这些问题。例如,直接使用现有所有可用的变量开始建模,根据每个变量对模型的贡献率快速地进行筛选,从而在不影响模型预测精度的前提下,留下一批可受控制的变量;或者是减少机器学习模型中的一些“分支”,从而获得一组核心的线性规则,这些规则所使用的变量更少,但同时还保留了原模型80%以上的预测能力。
关于银行业是否能够用更复杂的机器学习模型来获取更多的价值?这个答案是肯定的,并且也是未来银行业发展的一个趋势。机器学习通过利用银行业现有模型所忽略的大量的“小”数据,加上内外部监管系统中常见的非结构化数据,从而能够更深入的了解潜在客户需求,帮助银行挖掘更多的客户价值。
08 Jun 2017
互联网的迅猛发展给用户带来了大量的信息,一方面大量的信息可以满足用户在信息时代对信息量的需求,但另一方面过大的信息量会使用户在面对纷繁复杂的信息时,难以从中快速获得有效的部分,降低信息的使用效率,诱发信息超载问题。解决信息超载问题一个强有力的办法就是采用用户推荐系统,推荐系统是根据用户个人特征和历史行为习惯等因素,将用户可能感兴趣的信息推荐给用户的智能系统。和搜索引擎相比,推荐系统通过统计、建模等手段分析用户的行为偏好,不仅能够给用户推荐当前需要的产品信息,还能引导用户发现自己潜在的信息需求。推荐系统现已广泛应用于很多领域,其中最典型并具有良好发展前景的领域就是电子商务。
如上图,以电子商务的推荐系统为例,其输入数据可以是多种多样的,归纳起来主要分为用户(user)、产品(product)和评分(ratings)三个维度,并分别对应一个矩阵的行、列、值。其中0、1表示用户对产品的评分,该评分可以是二值型变量,也可以是0~5的分值等,问号表示用户对该项产品评分的缺失。推荐系统主要分为“预测”和“推荐”两个环节,“预测”要解决的问题就是推断每一个用户对不同产品的偏爱程度,“推荐”要解决的问题是根据预测环节所计算的结果向用户推荐其没有打过分的产品,即矩阵中的问号部分。但目前绝大多数的推荐算法都把精力放在“预测”环节上,“推荐”环节则根据预测环节所计算的得分由高到底排序推荐给用户。
· 基于协同过滤的用户推荐
基于协同过滤(collaborative filtering,CF)的用户推荐算法 目前主要分为两类:memory-based CF 和 model-based CF, 其中memory-based CF 又包括基于用户的协同过滤算法和基于产品的协同过滤算法。前者是根据邻居用户的偏好信息产生对目标用户的推荐,它基于这样一个假设,如果一些用户对某一类项目的打分比较接近,则他们对其它类项目的打分也比较接近;后者是根据用户对相似产品的评分数据预测目标产品的评分,它是建立在如下假设基础上,如果大部分用户对某些产品的打分比较相近,则当前用户对这类产品的打分也会比较接近。memory-based CF算法不仅计算简单且精确度较高,其核心就是通过相似性度量方法计算出最近邻的集合,并将最近邻的评分结果作为推荐预测结果返回给用户。
model-based CF最常用的方法就是矩阵分解,即把原始矩阵分解成两个矩阵相乘的形式。该方法的优势在于将评分矩阵R分解成U和V两个矩阵后,这样评分矩阵中缺失的评分就可以通过U矩阵的某列和V矩阵的某行相乘得到,而U矩阵和V矩阵的具体数值又可以通过梯度下降法多次迭代后获得。其背后的核心思想就是找到两个矩阵,使得它们相乘之后所得到的矩阵与评分矩阵尽可能的相似,从而评分矩阵中缺失的值则由这两个矩阵的乘积值来填补。
· 深度学习优化推荐系统的演变过程
Model-Based CF的目的就是找到基于用户的隐向量矩阵U和基于产品的隐向量矩阵V,目前很多公司会采用深度学习算法来寻找这些较为抽象的隐向量矩阵,以提高用户推荐系统的准确率。最初用来优化推荐模型的深度学习算法名为Autoencoder,简称AE ,是一种无监督学习模型。利用AE预测用户对某个产品缺失的评分值,其原理类似于BP神经网络的反向传播方法,该模型的输入为评分矩阵中的一行或者一列,通过迭代计算出最小损失度来进行模型训练,并根据训练结果预测缺失的产品评分,进而对用户进行个性化推荐。由于训练样本中可能存在噪音数据,因此在AE的基础上又提出改进的深度学习算法名为DenoisingAutoencoder(DAE)。DAE虽然在去除噪声数据上有斐然的功效,但其又显现出另外一个问题——机器学习的泛化能力。这时便应运而生了Stacked DenoisingAutoencoder(SDAE)深度学习算法,SDAE是一个多层的AE组成的神经网络,其前一层自编码器的输出作为其后一层自编码器的输入。在SDAE的基础上,机器学习专家们又提出了Bayesian SDAE模型,该模型假设SDAE中的参数满足高斯分布,同时假设用户的隐向量也满足高斯分布,通过最大后延估计得到想要优化的目标函数,进而利用梯度下降训练模型参数,从而得到基于用户和产品对应的隐向量矩阵U和V,用来拟合原始评分矩阵R。
当前深度学习在推荐领域已具有广泛的应用,一些常见的深度学习模型例如AE、DNN、CNN等都能较好的应用于推荐系统中,但对于不同行业领域的用户推荐,应该具有更强针对性的模型。相信随着信息化的不断发展,深度学习会不断完善成为推荐系统中一项必不可少的技术手段。
18 May 2017
在信息爆破增长的时代,我们以成倍的速度收集到海量的数据,但当我们拥有这些数据时,却不敢说自己真正了解它。据IDC统计,当今有75%以上的数据属于非结构化数据,即数据没有固定的存储与展现格式,并且根据福布斯的研究表明,在传统电脑屏幕上人们的双眼仅能以最高每秒100字节的速度读取信息。不规则的外部数据和人类自身条件的局限性,使得我们难以高效地处理大批量的数据集。由此我们渴望新技术的出现,能够帮助我们应对这复杂多变且规模庞大的数据信息,此时虚拟现实技术便展现出其惊人的效用。
虚拟现实技术(VR) 早在20世纪60年代,就以类似于3D幻灯片的形式出现过,然而直到现在,VR在商业和工业活动中才得以真正的运用,例如索尼的Project Morpheus眼镜,三星的Gear VR耳机等。当然VR带领用户进入3D空间不仅仅是因为好玩那么简单,它还有更多额外的价值。俗话说“字不如表,表不如图”,数据可视化对于数据观测的重要性毋庸置疑,而VR能够为用户提供身临其境的数据观测环境,并利用动态交互功能提高用户的数据操纵能力。
· 沉浸式大数据观测方法
在2D屏幕上一次性观测大批量的数据并不是件轻松的事情,而VR提供的沉浸式大数据观测方法能够有效的解决这个问题。试想一下,如果你能站在海量数据的中心,朝向某个数据点,然后转瞬间飞向一个离群点是一种怎样的数据观测方式?使用VR,用户可以真正走入自己的数据,他们可以找到流动数据的峰值或者从不同的角度查看同一数据点。虚拟现实影院便是沉浸式VR系统的典型应用,它用六个三米高的屏幕组成一个闭合的立方体,在立方体外围分别对应放置六台投影设备,当用户置身于立方体中心观看影片时,由六个平面组成的高维图像会使用户完全沉浸在虚拟现实之中。
有前瞻性的商业公司早已使用VR的沉浸式功能来解决复杂的数据问题。几年前,美国Goodyear公司就利用VR技术来解决他们的轮胎为何在比赛中表现不佳的问题。为了找出问题的根源,Goodyear公司将比赛中汽车和轮胎的数据复制到了虚拟现实环境中,沉浸式的数据读取方法使得重要的数据更容易识别,因此他们很快便发现了轮胎压力数值的变化并据此进行改良。
· 交互式大数据处理方法
交互式是处理大数据的关键,如果没有交互式数据处理能力,沉浸式数据观测方法其实并不具有太大意义。几十年来,我们一直在使用静态数据模型来了解动态数据,但VR已经为用户配备了动态处理数据的能力。使用VR,用户能够伸手触碰到自己的数据,堆叠或拉伸相关数据,甚至创建闪烁点用来标注数据检索痕迹。届时,大数据将成为一种动态的交互体验,这使得它变得更容易理解和操纵。以家装行业为例,VR技术不仅能够帮助用户真实地感受到装修后房间的空间布局、材质颜色等搭配,还能够借助动作捕捉设备,让用户在虚拟现实环境中伸手打开门窗、衣橱,在桌子上摆放几件自己喜爱的玩物,甚至来一场恶作剧将房间变得凌乱不堪。
如今随着信息量的不断扩大,我们必须找到更有效的方式来应对大数据时代所带来的各种挑战。当我们能够身临其境的触碰到动态数据的时候,我们对数据的理解能力,甚至是数据分析能力会达到一个前所未有的高度,而VR技术的发展恰巧帮助我们满足了这一点。
15 May 2017
据统计,世界上大约有80%的数据源都是非结构化的,例如,博客文章、评论日志、呼叫中心的语音文本等。由于非结构化数据并不是以行列的形式记录到数据库中,那么诸如线性回归等传统的数据分析算法对于这类数据并不适用,由此我们需要用到文本分析技术来解决如何挖掘非结构数据等相关问题。随着近几年技术的发展,文本分析已经到达一个比较成熟的水平,并且被广泛运用到各个领域。Gartner在“大数据炒作周期”报告中,明确指出文本分析是近两到五年内能够产生巨大商业价值的主流技术,虽然现阶段单独对非结构化数据进行挖掘已经能够发现大量的商业机会,但如果将文本分析与机器学习相结合,即对非结构化与结构化数据进行联合挖掘,将产生更多的商业价值。
· CFPB的数据分析案例
消费者金融保护局(CFPB)曾经就利用文本分析搭配机器学习的方法来探索自身的数据情况。他们的数据主要记录了客户对银行、信用卡公司和其他金融服务公司的投诉,其中包括客户信息、产品信息等结构化数据以及客户评论、语音文本等非结构化的数据。该分析方法首先使用文本分析技术来识别CFPB收集的自由形式数据中的负面情绪,然后利用机器学习算法建立一个预测模型,用来分析负面情绪程度与客户是否收到违规银行补偿,这两个变量之间的关系。研究结果表明,客户得到补偿与负面情绪之间确实存在相关性,当客户在CFPB的评论中表现出较强的负面情绪,违规银行很大概率上会针对这部分客户进行补偿,特别是当有客户使用“偷”或者与之类似的词语时,其获得补偿的概率会更大。
这项数据分析工作展示了文本分析和机器学习结合的力量,一旦文本分析被引入机器学习的预测模型中,该模型就能在发现行为模式的同时,回答为什么会产生这种行为模式,以及如何解决这种行为模式所带来的问题。SAS公司的数据分析总监Sabo曾经说过:“所有的文本分析都是在没有数据结构的情况下生成数据结构,当你能够利用机器学习对结构化数据进行建模预测时,加入文本分析产生意想不到的效果。”
· 文本分析技术之情绪分析
正如CFPB中利用文本分析发现客户情绪的案例,在文本分析领域中理解客户的想法和感觉的技术,通常被称为情绪分析。这里文本分析技术的实现是基于自然语言处理(NLP),文本分析中最有希望也是最具挑战性的领域之一就是要使用自然语言处理来了解客户在使用一组单词时真正意义上的含义。例如,“这是伟大的”总是积极的?如果文字读到“你一直非常有帮助”,那是一个真正和发光的评论还是一个愤世嫉俗的反驳?通常,我们人类喜欢以暧昧,模糊的语言来表达自己的情感。随着越来越多的客户互动通过电子邮件、聊天和短信,而不是电话或面对面的讨论,我们失去了来自语音音调和表情特征等重要的线索。然而情绪分析能够借助前沿的数据分析技术来寻找语言的微妙之处。
· 其他文本分析技术的涌现
文件术语矩阵(DTM) 列出了我们正在挖掘的文本中所有的唯一术语。这种简单但通常非常大的中间结果为进一步分析提供了基础。例如在产品销售环节,特定术语基于一定频次的出现是否会对客户的购买行为产生影响?这时我们会根据信号强度对从最弱到最强的正式建模的单词或短语进行排序。这些提取出的单词和短语的频率可以在我们的建模数据集中的新列中以数字表示,并且直接并入到搜索最佳的预测模型中。
命名实体提取(NEE) 是基于自然语言处理,借鉴了计算机科学,人工智能和语言学的学科。通过分析文本的结构,NEE能够识别出文本哪些部分可能代表诸如人员,地点,组织,职称,产品,货币金额,百分比,日期和时间等实体。对于每个识别的实体,NEE算法生成一个表示识别正确概率的分数。因此,我们的数据科学家可以设计概率阈值,例如,只有那些得分高于80%的实体,在创建结构化特征和将该特征包含在预测模型中。
主题模型(LDA) 能够有效分割和检测客户行为变化,用于查找能够进行分类和分组的数据中的相似性。这种灵活的技术通常用于营销中,为具有相似存款,取款和购买行为的客户生成原型,并且可以应用于呼叫中心客户来电的分类。在后一种情况下,我们可以确定客户呼叫的有意义的原因,并使用这些见解更好地预测损耗风险,以更准确地预测电话量,甚至改进产品的功能和结构。
随着与客户相关文本数据量的不断扩大,企业必须将一系列文本分析技术融入到机器学习算法中。现阶段文本分析还存在着巨大的尚未开发的价值和潜在的市场竞争优势,相信在不久的将来,结合文本分析和机器学习所实现的智能项目,将在我们的生活中变得触手可及。
08 May 2017
从2012年开始,宏观到人工智能引爆工业4.0变革,微观到智能家居改变传统生活,我们总能耳濡目染到“人工智能”这个概念。为什么“人工智能”突然间受到如此高度的关注?这源于“深度学习”革命性的突破,直接推动了“人工智能”由方法论走向实体产品。例如我们常听到的无人驾驶技术、无人机送货服务等,都是人工智能在生产和生活中的具体应用。既然说到了人工智能与深度学习,这里得再引入一个“机器学习”的概念。因为这三者之间的关系类似于一个同心轴,即人工智能涵盖了机器学习,而深度学习只是机器学习中的一个重要分支。具体可见下图:
那么这三者具体又都是什么呢?
· 人工智能(Artificial Intelligence):机器模拟人类的科学
美国麻省理工学院温斯顿教授曾经说过:“人工智能就是研究如何利用计算机代替只有人类才能做的智能工作。”即人工智能本质是研究人类智能活动的规律,构造具有一定人类智能的人工系统,从而应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。
不知道大家有没有试着用苹果手机的“Siri功能”,它就是人工智能应用的一个典型代表。首先你得说一句话作为语音输入,然后苹果后台会把你说的话转译成文本,接下来系统会根据输入的文本进行分词、实体识别、依存句法等文本挖掘,最后输出一个有效的结果反馈给你。
这便是利用机器理解自然语言的典型案例,其他的人工智能领域还包括:指纹识别、人脸识别、智能搜索、专家系统等。
· 机器学习(Machine Learning):实现人工智能的一种方法
简单来说,机器学习就是利用机器替代人类学习的过程。图像识别一直是机器学习广泛应用的领域之一。关于图像识别,首先要搜集大量的图像A,在此基础上,依据多种组合算法让机器识别并记录这些图像A。然后输入一批新的图像B,机器就能够根据之前学习到的图像A的信息,将图像B中与A信息匹配度高的图像归结为一类,将匹配度低的图像B重新经过模型训练分组。这便是机器学习的典型应用,其目的是利用机器高效处理并存储数据的能力去替换原有人脑长时间记忆学习的过程。
· 深度学习(Deep Learning):实现机器学习的一种技术
快进到今天,我们看到的是一个夺人眼球的技术——深度学习。而在深度学习的模型中,受宠爱最多的就是被用在大规模图像识别任务中的卷积神经网络(Convolutional Neural Nets,CNN),简称ConvNets。
深度学习强调的是模型中的参数是从数据中学习获得的。由此深度学习也带来了一些其他需要考虑的问题。例如典型的卷积神经网络,如上图机器面对的是一个高维的空间模型,因此想要实现其参数自动化调整需要两个方面的硬性指标:第一,大量且真实有效的数据,第二,强大的计算机运算能力。
总而言之,不要过于崇拜深度学习框架,但也不要害怕对这些框架进行裁剪和调整,以得到能和你的算法协同工作的软件框架。未来的Linux内核也许会在一个非常流行的深度学习框架上运行,例如Caffe。记住,历史上所有成功的产品总是需要伟大的愿景、领域的专业知识、市场的开发和最重要的——人类的创造力。
参考文献:
- What’s the Difference Between Artificial Intelligence, Machine Learning, and Deep Learning?
20 Apr 2017
数字运营服务正在提高各行业的竞争门槛。为了抓住这个机会,现有企业应该采用一种新的运营模式,这种模式能够极大的改善用户体验,将数据优势转化为用户体验优势。纵观各个行业,客户的满意度直接关系着他们愿意为公司产品所支付的费用和他们对公司品牌的忠诚度。在公司价值提升和长期竞争优势中,提供数字运营服务几乎成为各行业提升用户体验的主要动力。随着像亚马逊、苹果和优步等高科技公司不断革新以提供更简单、更直接的个性化用户体验,类似于钢铁、化工等传统行业也在采取大胆的举措,建立动态的数字生态系统,以满足用户的需求。传统的运营模式着重于优化企业内部功能,而数字运营服务的重点是在于满足客户的需求,因此从传统运营模式转化为数字化运营模式是一项比较繁琐的过程,其中包括设计一套以客户为中心的数字化流程、提高公司对用户需求的洞察力、诱导用户采用数字化渠道等。
· 以客户为中心的数字化流程设计
提供良好的用户体验的关键是根据数字化用户需求重新设计一整套流程,其主要目标是彻底变革传统、低效的运营方式。在全新的数字化流程设计上,公司会以用户的需求和偏好作为产品的出发点,这意味着新的设计将根据用户反馈立即进行测试和迭代。这样的流程设计有助于为原始模型实时传输用户的动态数据,由此保证公司能够对用户行为进行连续性的监测。然而这种方法必须能够同现有营销渠道形成无缝链接,促使新流程能够与原始遗留进程同时运行,以保证新流程的设计满足原始客户的需求。
· 提高洞察力的速度和敏捷性
快速变化的消费者动态数据需要更快捷的、无阻碍的“实时”洞察,从而能够影响到众多领域的决策制定。传统的市场研究方法往往花费太长的时间,并且由于不能够进行迭代训练,从而缺少不断整合客户反馈信息的能力。因此公司需要采用速度更快的研究方法来提升洞察力,诸如对当前客户接触点进行深入的用户体验评估,然后将这些数据与竞争对手的行为模式进行比较。通过对比找出一些关于数字化用户体验设计的优点与缺点,由此指导以客户为中心的数据化流程的设计与实施。
· 诱导用户采用数字化渠道
近年来,大多数企业已显著提高建立有效数字渠道的意识。然而仍有许多原因导致客户无法采用数字化渠道,从而造成企业采集用户需求偏好、产品交付速度等数据指标的困难,并由此限制了企业效率的提升和成本的控制。因此,公司精心的策划去推动用户采用数字化渠道是成功转型的关键,其中包括三种常见的方法:客户推广,使用有效的营销手段对于吸引消费者是至关重要的,例如搜索引擎优化(SEO)、搜索引擎广告(SEA)或离线活动;功能捆绑,由于单个用户使用的应用数量有限,所以将多个功能整合到一个应用中,有助于提高用户使用的可能性;客户激励,提供激励也是推动用户采用数字化渠道的主要方式之一,公司一般会采用优惠券或奖金折价的方式诱导消费者通过数字渠道进行消费。
在快速变化的市场环境下,加深对客户的了解,提高用户体验的满意度,有助于增强公司整体的竞争优势。通过重塑传统的运营模式,取而代之的是一种将数字技术和运营能力结合起来的新的运营模式,由此公司便能够设计一套以客户为中心的数字化流程,以此提高对客户行为的洞察力,提升用户体验的满意度,将数据优势转化为用户体验优势。
15 Apr 2017
大数据时代的到来,越来越多的企业管理层意识到数字转化的重要性,但大多数企业的数字转化还处于炒作的层面,那么如何将数字转化变为公司日常的工作机制?数字化资源应该存储在哪里?需要实现哪些新的功能?其最首要的任务是建立一个具有速度、精确度和灵活度的操作模型,该模型可以通过改善客户体验、优化内部流程来解锁更多的客户价值,从而落实数字转化。由此本文将从以下四个方面阐述如何建立“下一代”操作模型,促成企业的快速、高效、数字化。
· 拥有跨职能的技术团队
“下一代”操作模型将以跨职能团队为运营核心,通过多种类技能的组合,突破传统模型专业局限性的问题。例如,现有许多保险公司正在组建新的索赔团队,其中包括传统团队中所需的律师、销售员等,还特别添加了医生、工程师等其他领域的专家,以便他们在工作时能获取额外的观察视角。这些团队还与技术专家紧密合作,设计数字工具与数据化流程,以最大限度提高承保的准确性和效率。在任何领域,管理层都需要广泛考虑如何配置团队,并通过不断的调整团队配置以适应不断变化的客户需求。
· 灵活的IT资源
技术团队在企业数字转化过程中的重要性的毋庸置疑的,他们从原始单一的功能需求研发转变为数字化商业模式的生产方式。IT基础结构需要灵活的模块化,以提供高效且具有成本效益的解决方案,并且能够快速的开发或修改应用程序。 技术团队必须与商业专家合作,以了解如何能够实现新的业务方式,并创造新的收入来源。与之对应,企业管理层也应该了解如何快速构建、测试及发布软件和基础设施改进的过程,从而能够高效的组合业务和技术人员,使得IT资源变得越发灵活。
· 快速响应的管理系统
“下一代”操作模型也涉及到学习、测试及实验,这意味着企业需要一套管理系统来进行维护。那么如何利用数据做出决策并高效运行?企业需要在前端、后台操作和产品团队之间建立快速反馈的机制,以确保正确的信息能够传递给决策者。为了实现这一目标,多数企业正在构建商业智能系统,以收集日常生产活动中产生的大量数据,并创建友好的管理界面及报告,其中一些可以实时捕捉用户活动。绩效管理也变得越来越真实,依据每天的数据来指导人员调控及任务分配。
· 一种敏捷地、客户为中心的商业文化
敏捷地、以客户为中心的商业文化在数字化过程中具有重要的意义。例如,公司不能再将产品发布作为一次性过程,在产品能够完美的适应市场需求之前,企业需要迅速的从客户反馈中学习经验,并针对需要交付的产品做出有必要的更改。管理层必须适应这种灵活性,并进行正确的调整以实现商业文化中的敏捷性。正如一家资产管理公司的顶级团队表示,当他们抛弃了原有的预算流程,并大力推动高管们获得更多价值时,在预算审查中,他们重新分配以获得了最高价值的资产项目
如今,大多数企业意识到,在大数据时代,需要进行数字转化来推动企业的长期发展。从上述四个方面开始,不断的进行测试及修改企业的操作模型以支持数字转化,从而成为一个真正的快速、高效、数字化的企业。