Categories
中文

关于学习

     从大三下开始,我就几乎再也没上过学校的必修课了。虽说新东方上课是出了名的没信息量,但是至少还蛮有趣的。但是我们的绝大部分必修课既没有信息量又没有趣味性。浪费老师自己的时间不说,更是浪费我们的时间。此外,必修课是硬性规定的,蛮多课我都毫无兴趣,完全是被强迫上的,效果可想而知了。当然也不能把必修课一棍子打死,在必修课中,也有蛮不错的课程,如喻之斌老师的C语言,汤燕斌老师的数分,文颢老师的数字图像处理,中国文化概论(忘了哪个老师上的呢)。不过这些优秀的课程只是凤毛麟角。
   相比之下,人文选修课中确不乏精品。如洪明老师的《当代世界政治与经济》,姜丹老师的《钢琴初级班》《钢琴高级班》,南利华老师的《声乐入门》《中外音乐欣赏》。还有《逻辑与幽默》等。我一般是选很多选修课,如果觉得哪门讲得不好,就干脆不去上了。所以我基本上保持着每个学期都挂一门选修课的记录。
   现在经常有人过来找我咨询,有些师弟师妹们可能会觉得我回答他们的问题的时候不太热情。这并非我有意为之,我只是真的不知道该如何回答而已。比如有的同学要学英语就问我有什么秘诀能让他们的GRE考到1400以上,想要参加数模就问我如何能拿到一等奖,想要出国就问我如何才能申请到top50,想要做研究就问我如何能够发表顶级paper。 我只能说,我做这些事情的时候实在是没精力考虑这个问题。我只是喜欢做然后就去做,如此而已。做这些事情已经耗去了我全部的精力,我实在没办法去考虑结果会是怎样。而事实上,我的很多结果都不太好。如数模我没拿过一等奖;做研究我也没有发过很有影响的论文; 我的选修课选了很多,但是核心学分不够,差点不能毕业;我的加权平均分一直都不算很高;
   但是我觉得,这个对我来说不算那么重要。因为做数模的时候,做研究的时候,我很开心,这种开心是很持久的。比如数模一年半,我每天都会想自得其乐的用数学来描绘我周围的事物。比如做研究,我每天也过的很充实和愉快(前提是自己主动的去做的情况下,这两天导师强迫我做的一些研究还是让我挺不愉快的)。但是结果只能给你短暂的快乐,快乐过了之后就是麻木,空虚,寂寞。 看看独孤求败吧,他的悲剧就是永远把自己的快乐建立在战胜别人的这个结果上,成了天下第一又怎么样,还不是孤独的死去。
   为什么总是要把自己的眼睛放在结果上呢?为什么总是要看自己是不是做的比别人好呢?尝试换一种视角的话,生活会更快乐一点。我听过一个故事:说是许多学生从小的成绩都是第一名,读研之后不比成绩了,他们就比发论文,出国之后比不了成绩和论文了,他们就比信用分数。我觉得一个人如果把自己的人生都寄托在这种量化值上面,是不是有点太悲哀了。
   找好自己的所爱,把握自己的方向,快快乐乐的去做自己喜欢的事情,我想结果也应该不会太差的,人生也会更加的生机盎然。

Categories
中文

谷歌出走二三论

投资人:
    说实话,谷歌这样做对投资人是极端不负责任的。谷歌是一家公司,而公司就是需要为投资人负责的。投资人投资谷歌是因为谷歌能给他们带来收益,但是现在谷歌的行为为他们带来的不是收益,而是道义。 对于指望着手上的股票换来面包的投资人来说,道义毫无用处。
    所以十年之前,如果我有钱,我绝不向金山投资,因为那时候的金山明知民族软件的大旗扛不住还要硬扛。今天如果我有钱也绝不会向谷歌投资(至少不做长期投 资),因为今天谷歌会退出中国市场,明天就可能退出伊朗市场,中东市场,非洲市场—-谷歌的管理层正在意气风发的用别人的财富购买自己的名誉。钱放在 这样的管理者手里无法使我放心。
    如果你的朋友未经你的同意,而且还是以他的名义将你的钱全部捐给希望工程了。你还会和他做朋友吗?对于投资人来说,谷歌退出中国和这是一个性质的。
对中国互联网市场的影响:
    李彦宏在05年的时候说过这样一句话:“几年之后搜索引擎将是百度一家独大”。 自从谷歌闹着要退出中国之后,李彦宏的预言似乎正在一步步的变成现实。 但是真是这样吗?依我看来。中国互联网搜索的份额不会发生大的改变。谷歌退出中国后仍将是中国第二大的搜索引擎,而且仍将占有相当份额。为什么? 这是因为至少到目前为止,谷歌仍然是不可替代的。
    第一: 这个世界仍然是英语为中心的。世界上绝大部分信息仍然是用英语表述的。百度从一开始就定位为中文搜索引擎,专注于中文既是它快速赢得市场的原因,也是他如 今裹足不前的原因。相当一部分文化程度较高的中国人需要使用搜索引擎来检索英文信息,但是遗憾的是百度办不到。一线搜索引擎是如此,那些二线搜索引擎就更 难办到了(至少目前为止)。
    第二:google.cn仅仅占谷歌在中国获得流量的一小部分。大部分人还是喜欢使用google.com。比如我,google.cn退出了中国其实 对我影响不太大,因为我就没怎么上过这个网。除非政府将google.com完全屏蔽(这不太可能),google.com在中国的流量不会明显减少
    第三:谷歌和百度其实是两家很不一样的公司。百度更像一个网络公司,但是谷歌更像一家软件公司。谷歌的声名鹊起和它的一系列杀手锏应用时分不开的,如gmail, 谷歌地球。这些应用,还没有一个本土化公司能够提供。
    既然谷歌的份额不会明显降低,那么这次退出对谷歌有什么影响吗? 其实影响是很严重的。最主要的就是失去了中国广告主的信任。谁会愿意在一个随时会被政府屏蔽的网站上投放广告?虽说广告和销售团队仍在,但是被暮气笼罩的 谷歌中国广告业务会快速萎缩是难以避免的。开个玩笑,中国人民从此用上了真正免费的谷歌了, 百度的团队也做上了 “搜索用谷歌,交钱到百度” 的无本生意。
李开复:
    我觉得感到最遗憾的应当是李开复。当初李开复来到google创立谷歌中国,是付出了极大的牺牲的。微软的诉讼几乎让他名誉扫地,但是当时他不后悔,因 为他相信谷歌中国将是他毕生追求的事业。可惜李开复做出这个选择的时候太理想化了,他完全没有预料到中国政府的古板和谷歌总部的固执。两边各不相让,吃亏 的只有他这个“打工仔”。
    现在看来,他离开谷歌后结束了自己的职业经理人生涯是不难理解的。职业经理人的尴尬就是没有total control,这种情况在跨国公司尤其严重。国际互联网公司沉戟中国大多因为这个原因。李开复转行创业之后也提到他希望拥有Total Control。 而巧合的是,在01年的采访里面,他的老对手李彦宏就已经句句不离total control了。
    蒙牛,国美,阿里,腾讯,华为,各行各业的企业龙头哪一个不是由极端强势的创始人一手抚养长大?没有谷歌中国的完全控制力,李开复如何强势得起来,他又 如何实现谷歌中国从无到有的历史使命呢?谷歌中国的失败其实早已注定。开复先生不幸搭错了船,愿他的创新工场以后能够办得顺利。
(本文在谷歌文档上写作完成)
Categories
中文

百度十周年所想 & 人计算

这两天生病了,于是停下了手中的工作和申请的事情。闲下来时候重新看了看百度十年来相关的资料。这些阅读加深我的一个观念:成功人士都是“偏执”狂。这种“偏执”其实就是对于信念的坚定。李彦宏从上大学开始就没有离开过搜索。在大学里面他就认识到了“人人都需要信息,人人都需要搜索”,这种预见能力是令人叹服的。

但更令我佩服的是他的“偏执”:在他毕业申请出国的时候应该知道转专业一定会影响到了他的申请,但他毅然从图书馆管理专业 转到计算机专业;在他布法罗念书的时候一定渴望顺利完成博士学位,成为一个令人尊敬的研究人员,至今他提到自己学位只是硕士时仍略带遗憾, 但他毅然转硕进入工业界;在他成为搜信的高级工程师的时候应该知道创业成功的人只是百万分之一,回国就可能一无所有,但他毅然放弃了国外的车子、房子、老婆独自回国。

如果他今天没有成功,他一定会被人嘲笑为“傻人”。李现在的名气大多因为他的样貌,财富和地位,这也是许多人所歆羡的。但当初做他做这些选择的不易估计也是常人难以体会和忍受的。

以前我认为,一个人的力量决定于他知识的多少,现在我更加倾向于,一个人的力量决定于他内心是否强大。这个世界上聪明的人很多,但是真正内心强大的人却不多。李彦宏就是这样一个人。他肯定算不上是最优秀的,他读书的时候一直都很少拿第一名。但是昔日的那些比他聪明的学生早已消失在茫茫人海之中,籍籍无名,而李彦宏却凭着自己内心对于搜索的坚定实现了他的人生信念:“让每个中国人都能够更加方便的获取信息”。

*************

闲话扯完,进入正题。百度去年提出了框计算,相较于谷歌的云计算,框计算更加贴近于市场,贴近于用户。如果说过去十年里,百度成功的实现了让人们能够更加“方便”的获取信息。未来李彦宏希望能让人们更加“舒服”的获取信息。框计算就是这个指导思想下的产物。

在我的理解里,框计算有前台和后台之分。前台分析用户需求,后台匹配海量数据。这些技术都不新鲜,每年各大实验室也有N多相关论文问世。所以李彦宏认为基于这样的思路的下一代搜索引擎将成为主流也是在情理之中的。

我同意在未来搜索引擎需要让人们更加舒服的获取信息。但是框计算或许难于成为下一代搜索引擎的主流。原因主要在于框计算的前台和后台的各项技术都是由机器还完成的,缺乏人的参与。

在人工智能完善之前,机器计算出来的结果是人感到完全满意是几乎不可能的事情。做过模糊聚类和评价的人都知道。在现今的理论框架下,几乎不存在一种模型在什么情况下都能够达到100%的分类准确率,不可能存在一种评价体系式式每个评价都合情合理。人心太复杂,现在对人的任何建模都不过式一种简单的抽象,是难于用于实际了。这种情况在最近的将来不会得到明显的改善。这些技术依赖于人工智能的发展,而人工智能的发展又依赖于生物学的发展。

我一直找不到一个合适的词汇来描述我对未来技术的预见。后来看到CMU提出的人计算(human computing),我觉得还是比较符合我的构想的。我相信,在不远的将来,人计算或者具有与之类似原理的计算将会广泛应用到各大搜索引擎的后台,慢慢积累而形成质变。当然,也有可能异军突起一个基于此的IT领袖,像当年的微软、雅虎和谷歌一样。结果如何,大家拭目以待吧。

转一篇关于人计算的小文:

——————————————————————————

转载自(http://blog.sina.com.cn/s/blog_5e718bc90100g6ei.html

人计算-Human Computing

最近一直在思考关于social computing 的方面问题,并想把它作为10年后的研究方向和重点,恰巧老板发来一片science上的文章《reCAPTCHA: Human-Based Character Recognition via Web Security Measures》,深感云计算太远,人计算开来更实际。简单介绍一下。

路易斯.凡.安(Luis Von Ahn),卡耐基梅隆(CMU)的研究者,28岁那年,获得麦克阿瑟(MacArthur)天才奖金,或许大家并不熟悉,但他的发明机会所有的网站所有的网民都要引用得到。2000年还是学生的他在导师的指导下,发明了验证码(CAPTCHA)使用机制,就是我们在网站登录时,需要添加的校验码。当初的发明初衷,是防止密码被盗用或者反垃圾邮件(anti-spamming),这项技术发明后短短五年内,每天就有2亿个检验码在被使用,十年之后的今天,几乎所有的网站都采用这个技术来校验用户身份,保证信息安全。

然而Luis Von Ahn并没有在安全认证领域止步,一方面将校验码的模式与程序公布在自己的网站上,供更多的网站使用,另外,Luis进一步拓展这个发明背后的实际上是一门新的学科,叫做“Human Computation”或者“Human-based Computation”。有人称之为“人本计算”或者“人计算”。即利用网络的分众性和协同性,可以轻易完成很多计算机不可能完成的事情。这门学科正是研究如何把人的这个优势发挥出来,与计算机互动,达到一个最佳结果。当所有的人都在思考如果是计算机替代人的时候,Luis Von Ahn却在想利用互联网,利用社会化的协同工作模式,实现计算机根本不可能完成的事情,以达成群体智能的效果。这就是《科学》上的另一个伟大实现,reCaptchas,与检验码身份验证如出一辙,却是另外一番天地的创造性应用。

《纽约时报》创刊与1851年,158年的历史,作为传统传媒业的需求是简单的,就是想把所有的报纸电子化,对于电子化出版之后的工作相对简单,但过往故纸堆上的文字就显得十分困难,传统OCR的技术不能实现百分之百的准确,如果如果人工录入的方式,整个工作耗时耗力不说,一个字一个字的打印录入,校对,短期内基本上是不可完成的任务。Luis Von Ahn的校验码2005年已经得到了广泛的使用,两者之间有什么联系吗?Luis给出的解决方案,当时互联网上每天有2亿个校验码被使用,虽然每个用户在录入校验码的时候只需要10秒钟,但如果把这些时间全部利用起来,就是20亿秒,相当于50多万个小时。Luis Von Ahn把这些事件利用起来,实现不可想象的伟大实践。现在看来,方法很简单,把扫描的《纽约时报》通过简单的分词形成,然后入库编码,作为校验码的素材提供给用户,用户每一次填注校验码的过程就是对文字的一次录入,通过众多用户的协同,当所有的人都对一个图片给出相同的单词结果时,这个结果就是正确的。无数的用户输入的内容整合链接起来,就是一个完整的数字化的《纽约时报》。

Luis Von Ahn的脚步依然没有停止,通过reCaptchas,他利用人的群体智慧和集体计算的模式,做了很多开创性的事情。他最常用的实现模式就是利用SNS的互动游戏的模式,来实现传统模式识别与计算科学中。他的主要应用成果在www.gwap.com上可以体验获得(Game With A Purpose)。

基于内容的图像识别与搜索中,样本的标注是一个很繁琐的问题,为了让计算机内识别图片里的内容,必须要用到许多标注好的图像样本来训练识别核,传统的方式只能通过人工进行大量的手工标准。2006年,Luis推出了一个著名的游戏,叫ESP Game。这一游戏的玩法其实很简单:进入游戏,网站会给你随机配一个伙伴,两人同时看一张图,让你在两分钟内给图片写出关键词,如天空、鸟、足球、奔跑等等。如果你们两人写的关键词一样,就可以得分。通过积分的方式激发用户参与的积极性,网站每天公布得分最高的游戏者,Luis通知这种方式收集的关键字超过了5000万。这个发明已经被谷歌所采用,在谷歌推出的产品Google Image Labeler中,使用的方式就是通过游戏互动的方式来实现图像标注,之后用户谷歌的图片检索引擎。人们在游戏中,已经为科学与商业过程做出来贡献。

Luis一招鲜,吃遍天,他又将这种思想用到了歌曲识别的样本标注上。一首歌曲,听到的人可以在上面进行标注,如“摇滚”“迈克尔杰克逊”“颤栗”……这样进行音乐搜索的时候,标注的人越多,搜索识别结果越精确。之后的游戏还有用于计算机视觉的Squigl(涂鸦)的游戏,还有用于收集语言网语料的Verbosity(唠叨)的游戏。Luis在他的研究中总结了三种常见的GWAP方式:

Output-agreement games.
Inversion-problem games.
Input-agreement games.

这三种方式,都是通过互动游戏的方式,利用协同计算或者人本计算的模式,解决了计算机不可能准确实现的问题。Luis Von Ahn利用人擅长做而计算机不擅长的能力,并通过游戏把这方面的资源尽可能开发收集起来,服务与科学过程。

当我们都在考虑云计算的时候,基于人的互动协同计算其实离我们很近,每天的校验码的登录填注,百度知道与维基网的点击阅读……我们可能都在不知不觉中,贡献了自己的力量。

附:

对我们的启示:

1、              自由的、不受束缚的思想更容易产生创新的智慧。看似废话,如果Luis Von Ahn接受了老师的安排,只停留在校验码的安全机制研究上,就不可能产生今天的人本计算(Human Computation)。如果瓦茨(小世界理论的发现者)只是授意与导师,研究昆虫共鸣的理论,没有与人类社会对应,就不会有今天的小世界模型。

2、              科学需要开放的胸怀,互联网的本质就是回归人原始本性的共享与开放。Luis Von Ahn将校验码的研究成果与源码在自己的网站上与人共享,也是今天所有的网站都在使用校验码模式的原因。倘若当初,Luis Von Ahn通过专利控制这项技术的扩散与使用,估计今天他也就是一篇学术论文而已。

3、              科研与实践需要持续积累。Luis Von Ahn在2000年开始做检验码方面的研究与实践,并在之后提出Human Computation的概念。之后的9年里,他将这种思想与理论应用到了极致,从文本识别,图像内容识别,语音识别,语义网等传统模式识别与机器学习领域,都有他的尝试。实践积累非一日之功,虽然没有复杂的公式推导与理论,但利用互联网的大量实践工作也同样证明了协同计算与演进式学习的有效性。

4、              结合中国的实践还有哪些应用。中国是人口大国,拥有最多的互联网用户与手机上网用户,这些人口资源与上网资源如何有效的利用与收集起来,服务科学上的突破,将会是中国学者需要深入思考和探讨的。比如淘宝网上将会有世界上最大的商品图片库与用户商品标注信息,这些信息将用于商品搜索;维基网与百度知道上有最全面的常识与词语解释,这个将成为语义网学习的语料,而这个语料是通过协同工作的方式,保证了语料的准确性和有效性。抛砖引玉,从事机器学习、模式识别、数据挖掘、web搜索的学者可以沿着这条思路,看看还有哪些需要人与机器互动来实现的过程。

2010-03-03 09:54

Categories
中文

互联网:钱从哪里来?

Conan Wang

hbhzwj@gmail.com

jingconan.wordpress.com

Division of Systems Engineering

Boston University

每一个系统都必须有足够的流入资金来支撑。每一个从事互联网的人都在努力挣钱,那么钱归根结底是从哪里来?

互联网是免费的经济学。广告是互联网中资本流动的媒介。如果将整个互联网生态系统比喻成为一个图的话,节点就是各个互联网企业,边就是广告关系。

资金进入这个系统目前主要有两种途径,第一传统企业在互联网投放广告,第二消费者在进行网上购物的时候支付的费用。这正好对应于互联网最基本的两大业务,在线广告,电子商务。在线广告已经趋向成熟,电子商务正在快速发展。

多大的饼决定了多大的行业规模。美国的网络广告花费刚刚超过了报纸的广告花费,达到了258亿美元。网络广告这个饼最大能有多大,我们可以从现有电视广告花费估算得到.大概美国一年在广告上的花费是1200亿美元。Not small, but not big as well. 假设最后在线广告能到站到所有推广的半壁江山,整个美国市场也只有600亿美金大概齐。放眼全球,整个市场也不会超过三千亿美元。而现在美国互联网广告三大巨头google, facebook, yahoo的营收之和接近四百亿美金。其中谷歌270亿美金左右,facebook20亿美金,yahoo60亿美金左右。谷歌一半营收来自美国,假定yahoo,facebook的比例也是如此。那么美国市场三巨头就吃掉了200亿美金,算上其他网络广告公司,总数肯定超过了总市场600美金的一半。如果网络广告市场的发展服从Logistic的曲线的话。超过总市场价值的一半就意味着增长开始放缓,变成一个平稳的市场。在这样的情况下,除非在细分市场耕耘,捡些边角利润,其他难有作为。所以新进入者的商业模式还是依赖广告的话,成长率相当有限。

电子商务的境遇要好得多,根据美国统计局的数据,11月份的零售额是$378.7 billion。估计全年会在4万亿美元左右。而在线零售巨头Amazon和Ebay的营业额加起来不到四百亿美元, 其中amazon大概250亿美元,ebay90亿美元。所以电子商务在整个零售业的比例仍然很小,未来还会有广阔的发展空间,将会成为互联网系统中最主要的资金来源之一。但是互联网领域本质是趋向于垄断的,巨头林立的情况下给新手机会已然不多,此外,如果互联网想要保持高速增长,电子商务这个发动机显然是不够的。

互联网不再是一个新生事物,全球互联网普及率已经超过20%,各项业务巨头林立,早期那种1000%的增长率似乎已不可能实现。据此,许多人认为互联网已经机会不多了。再我看来并非如此。一个技术只要还能够极大的提高降低生产成本,提高生产效率,他就能够产生巨大的市场,保持高速的增长。互联网技术之所以产生了如此革命性的变化,就在于它使得人们能够突破空间的限制,将社会内部的信息传输成本降至几乎为0。在互联网时代,传统需要实体媒介来完成的社会过程被一个个搬到了网上,从而降低了社会成本,降低的社会成本有多大,互联网的蛋糕就有多大。

从纸质广告到、电视广告再到互联网广告,广告信息不再需要印刷报纸、制作电视节目来作为传播媒介,从而降低了广告投放成本,产生新兴的市场;从市场买卖、邮购再到电子商务,商品流动不再需要百货商场、邮寄购物单作为媒介,从而降低了交易成本,产生了新兴的市场。

但是目前为止,劳动力市场还没有被很好的搬到互联网上,这个劳动力市场不是指“智联”这样的在线求职,而是真正的在线工作,可能未来我们只需要在家里工作就可以了。这是一个数十万亿的市场规模,只要有百分之一的被搬到网上,就有数千亿的规模。在线工作的概念很早就有人提出,但是一直没有快速的发展,这既有技术上的问题,也有文化上面的问题。但是潘多拉的魔盒打开之后,会成为互联网的有一个增长发动机,各个企业主的手续费可能成为在线广告和电子商务之后,互联网系统又一个资金流入渠道。

在线情况下雇主-雇员关系和现实生活中的肯定有很大的差别。你不可能把一个非常大的任务(比如说要一个月完成的任务)publish到网上,然后竞标让人完成,任务发布者对结果质量不会放心,也没有人愿意去做。这个时候人计算可能扮演一个重要的角色。详情可以参考我的另一篇博文:The Long Tail of Labor—Influence of Crowd Sourcing on Labor Market https://jingconan.wordpress.com/2010/12/01/the-long-tail-of-labor-influence-of-crowd-sourcing-on-labor-market/

[kantarmediana] http://www.kantarmediana.com/intelligence/press/kantar-media-reports-us-advertising-expenditures-increased-57-first-half-2010

[Reuter] http://www.reuters.com/article/idUSN0825407420100308

[census] http://www.census.gov/retail/