宝酷 | 宝酷 - sou-ip

GCC 用 C++ 来编译

2012年08月20日宝酷评论 41 条评论 38,236 人阅读

GCC在2012年8月15日的时候，merge了一个patch – Merge from cxx-conversion branch，这意味着，以后在GCC的编译只能用C++的编译器了，也意味着，gcc的实现代码开始转向C++了。

你可能会有两个问题，

一个问题是为什么GCC要转成C++的实现？

没有C++的编译器，我怎么编译C++编译器的代码？这不是“鸡生蛋还是蛋生鸡”的问题么？

那，我们来看一看吧。

为什么要用C++

在GNU的C++ Conversion文档中，我们可以在Background中看到这样的描述：

Whether we use C or C++, we need to try to ensure that interfaces are easy to understand, that the code is reasonably modular, that the internal documentation corresponds to the code, that it is possible for new developers to write new passes and to fix bugs. Those are the important issues for us to consider. The C++ features which are not present in C — features which are well documented in many books and many web sites — are not an important issue.

这句话的意思可以理解为，今天GCC在用C语言的实现已经有点hold不住了，因为，开发人员觉得，不管我们用C或C++，都需要努力确保接口是容易理解的，这样我们的代码是想当理性地被模块化的，这样内部文档和代码一致，这样可以更好地组织代码，这样有利于新人了fix-bug。而C++正好可以让他们更好的完成这些东西。

GNU还给出了下面这些理由：

…

阅读全文 Read More

(22 人打了分，平均分： 3.59 )

K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是，K-Means算法用来聚类，用来判断哪些东西是一个比较相近的类型，而KNN算法是用来做归类的，也就是说，有一个样本空间里的样本分成很几个类型，然后，给定一个待分类的数据，通过计算接近自己最近的K个样本来判断这个待分类数据属于哪个分类。你可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类。

Wikipedia上的KNN词条中有一个比较经典的图如下：

从上图中我们可以看到，图中的有两个类型的样本数据，一类是蓝色的正方形，另一类是红色的三角形。而那个绿色的圆形是我们待分类的数据。

如果K=3，那么离绿色点最近的有2个红色三角形和1个蓝色的正方形，这3个点投票，于是绿色的这个待分类点属于红色的三角形。

如果K=5，那么离绿色点最近的有2个红色三角形和3个蓝色的正方形，这5个点投票，于是绿色的这个待分类点属于蓝色的正方形。

我们可以看到，机器学习的本质——是基于一种数据统计的方法！那么，这个算法有什么用呢？我们来看几个示例。

…

阅读全文 Read More

(24 人打了分，平均分： 3.83 )

对技术的态度

2012年08月16日宝酷评论 132 条评论 126,545 人阅读

最近人品爆发，图灵社区，InfoQ，51CTO相继对我做了采访，前两天我把InfoQ对我的采访张贴了出来，今天，图灵社区和51CTO对我的采访发布了（图灵的访谈，51CTO的访谈），我是一个有技术焦虑症的人，我的经历比较特殊，对大家来说可能也没有什么意思，这两个采都有一些重叠的部分，不过有些观点我想再加强一些，并放在这里和大家一起分享一下。

对于日新月异的新技术，你是什么态度？

遇到新技术我会去了解，但不会把很大的精力放在这些技术（如：NoSQL，Node.js，等）。这些技术尚不成熟，只需要跟得住就可以了。技术十年以上可能是一个门槛。有人说技术更新换代很快，我一点儿都不觉得是这样想。虽然有不成熟的技术不断地涌出，但是成熟的技术，比如Unix，40多年，C，40多年，C++，30多年，TCP/IP，20多年，Java也有将近20年了……，所以，如果你着眼成熟的技术，其实并不多。

我的观点是——要了解技术就一定需要了解整个计算机的技术历史发展和进化路线。（这个观点，我在《程序员练级攻略》和《C++的坑多吗？》中提到过多次了。）因为，你要朝着球运动的轨迹去，而不是朝着球的位置去，要知道球的运动轨迹，你就需要知道它历史上是怎么跑的。

如果要捋一个技术的脉络，70年代Unix的出现，是软件发展方面的一个里程碑，那个时期的C语言，也是语言方面的里程碑。（当时）所有的项目都在Unix/C上，全世界人都在用这两样东西写软件。Linux跟随的是Unix, Windows下的开发也是 C/C++。这时候出现的C++很自然就被大家接受了，企业级的系统很自然就会迁移到这上面，C++虽然接过了C的接力棒，但是它的问题是它没有一个企业方面的架构，而且太随意了，否则也不会有今天的Java。C++和C非常接近，它只不过是C的一个扩展，长年没有一个企业架构的框架。而Java在被发明后，被IBM把企业架构这部分的需求接了过来，J2EE的出现让C/C++捉襟见肘了，在语言进化上，还有Python/Ruby，后面还有了.NET，但可惜的是这只局限在Windows平台上。这些就是企业级软件方面语言层面就是C -> C++ -> Java这条主干，操作系统是Unix -> Linux/Windows这条主干，软件开发中需要了解的网络知识就是Ethernet -> IP -> TCP/UDP 这条主干。另外一条脉络就是互联网方面的（HTML/CSS/JS/LAMP…）。我是一个有技术忧虑症的人，这几条软件开发的主线一定不能放弃。

另外，从架构上来说，我们可以看到，

…

阅读全文 Read More

(43 人打了分，平均分： 4.56 )

InfoQ的ArchSummit大会对我的采访

2012年08月12日宝酷评论 66 条评论 31,408 人阅读

偷个懒，做个更新，今天下午InfoQ的ArchSummit对我的一些采访。我整理了一下，算做是我个人写宝酷的一些想法和总结。不过问我的这些问题并不尖锐，呵呵，不像@图灵谢工问我的问题：“你的价值观太过理想，根本不现实，你站在道德的高点拷问社会，是不是想炒作自己？”。

1) 作为宝酷的博主，请您大概介绍下宝酷是什么时候开始的，初衷是什么？

我写blog是从2002年开始（那时还没有blog这个词），当时对我来说，没有自己的电脑，上网很不方便，而我有写学习笔记的习惯，读书和工作中学到的一些东西需要保存在某个地方，我希望这个地方可以让我在任何地方都可以调出来看看（因为我当时的工作出差太多），正好当时的CSDN有个“专家专栏”的功能，也就是后来出现的blog。

后来Blog出现后，CSDN把自己的“专家专栏”全部迁移到了blog.csdn.net上，07-08年这段时间，CSDN的blog基本上是不能使用，性能差得不能再差，每天宕机，上传图片，贴代码，都非常不好用。也许，这就是使用.NET/Windows平台的问题（开个玩笑）。

我是从2009年3月开始创建宝酷的，创建的初衷如下：

我需要一个更稳定，更方便的地方，我的博客的风格不会被大众的风格所掩盖的地方。
我的从事新闻的老婆很不待见我在CSDN的博客，她觉得太技术，书呆子。
我正好看到了煎蛋这个国外娱乐新闻文摘的blog，而我正好每天会有2个小时阅读国外社区的东西。

基于上述三个原因，我自己花了4500元/年租了个主机，建了宝酷。所以，这也是你一开始看到宝酷基本上是娱乐性比较强的博客，我收集一些比较有意思的程序员中发生的事情，也收集一各式各样的程序员圈子里的各处观点。

我当时的想法是，一些特别技术的东西，我会和CSDN同步，而一些轻松的话题，我会放在宝酷。我当时的初衷就是想说明程序员并不是一个木纳、书呆子、不食人间烟火、巨无趣的一个群体，程序员圈子里同样也有很多有趣的东西。所以，你可以看到11年初以前的东西我有很多网络恶搞式乱调侃的语言。

…

阅读全文 Read More

(24 人打了分，平均分： 4.13 )

C++的坑真的多吗？

2012年08月06日宝酷评论 237 条评论 210,630 人阅读

先说明一下，我不希望本文变成语言争论贴。希望下面的文章能让我们客观理性地了解C++这个语言。（另，我觉得技术争论不要停留在非黑即白的二元价值观上，这样争论无非就是比谁的嗓门大，比哪一方的观点强，毫无价值。我们应该多看看技术是怎么演进的，怎么取舍的。）

事由

周五的时候，我在我的微博上发了一个贴说了一下一个网友给我发来的C++程序的规范和内存管理写的不是很好（后来我删除了，因为当事人要求），我并非批判，只是想说明其实程序员是需要一些“疫苗”的，并以此想开一个“程序员疫苗的网站”，结果，@简悦云风同学直接回复到：“不要用 C++ 直接用 C , 就没那么多坑了。”就把这个事带入了语言之争。

我又发了一条微博：

@左耳朵耗子：说C++比C的坑更多的人我可以理解，但理性地思考一下。C语言的坑也不少啊，如果说C语言有90个坑，那么C++就是100个坑（另，我看很多人都把C语言上的坑也归到了C++上来），但是C++你得到的东西更多，封装，多态，继承扩展，泛型编程，智能指针，……，你得到了500%东西，但却只多了10%的坑，多值啊。

结果引来了更多的回复（只节选了一些言论）：

@淘宝褚霸也在微博里说：“自从5年前果断扔掉C++，改用了ansi c后，我的生活质量大大提升，没有各种坑坑我。”

@Laruence在其微博里说: “我确实用不到, C语言灵活运用struct, 可以很好的满足这些需求.//@左耳朵耗子: 封装，继承，多态，模板，智能指针，这也用不到？这也学院派？//@Laruence: 问题是, 这些东西我都用不到… C语言是工程师搞的, C++是学院派搞的”

那么，C++的坑真的多么？我还请大家理性地思考一下。

…

阅读全文 Read More

(53 人打了分，平均分： 4.43 )

一个fork的面试题

2012年08月01日宝酷评论 223 条评论 197,295 人阅读

前两天有人问了个关于Unix的fork()系统调用的面试题，这个题正好是我大约十年前找工作时某公司问我的一个题，我觉得比较有趣，写篇文章与大家分享一下。这个题是这样的：

题目：请问下面的程序一共输出多少个“-”？

#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>

int main(void)
{
   int i;
   for(i=0; i<2; i++){
      fork();
      printf("-");
   }

   wait(NULL);
   wait(NULL);

   return 0;
}

如果你对fork()的机制比较熟悉的话，这个题并不难，输出应该是6个“-”，但是，实际上这个程序会很tricky地输出8个“-”。

要讲清这个题，我们首先需要知道fork()系统调用的特性，

…

阅读全文 Read More

(74 人打了分，平均分： 4.68 )

各式各样的验证码

2012年07月19日宝酷评论 64 条评论 69,121 人阅读

还记得以前那篇《超强验证码》？其实这个世界变态的验证码还有很多，下面是一个列表向像展示了各种稀奇古怪的验证码。不过本文并不单单只是收集这验证码，前面的比较恶搞，后面的会向你展示什么是有accessibility验证码。

完全看不清楚的

这是人类的字符吗？

图案中的字母是什么？

…

阅读全文 Read More

(24 人打了分，平均分： 4.08 )

代码执行的效率

2012年07月13日宝酷评论 70 条评论 59,725 人阅读

在《性能调优攻略》里，我说过，要调优性需要找到程序中的Hotspot，也就是被调用最多的地方，这种地方，只要你能优化一点点，你的性能就会有质的提高。在这里我给大家举三个关于代码执行效率的例子（它们都来自于网上）

第一个例子

PHP中Getter和Setter的效率（来源reddit）

这个例子比较简单，你可以跳过。

考虑下面的PHP代码：我们可看到，使用Getter/Setter的方式，性能要比直接读写成员变量要差一倍以上。

<?php
	//dog_naive.php

	class dog {
		public $name = "";
		public function setName($name) {
			$this-&gt;name = $name;
		}
		public function getName() {
			return $this-&gt;name;
		}
	}

	$rover = new dog();
        //通过Getter/Setter方式
	for ($x=0; $x<10; $x++) {
		$t = microtime(true);
		for ($i=0; $i<1000000; $i++) {
			$rover->setName("rover");
			$n = $rover->getName();
		}
		echo microtime(true) - $t;
		echo "\n";
	}
        //直接存取变量方式
        for ($x=0; $x<10; $x++) {
		$t = microtime(true);
		for($i=0; $i<1000000; $i++) {
			$rover->name = "rover";
			$n = $rover->name;
		}
		echo microtime(true) - $t;
		echo "\n";
	}
?>

这个并没有什么稀，因为有函数调用的开销，函数调用需要压栈出栈，需要传值，有时还要需要中断，要干的事太多了。所以，代码多了，效率自然就慢了。所有的语言都这个德行，这就是为什么C++要引入inline的原因。而且Java在打开优化的时候也可以优化之。但是对于动态语言来说，这个事就变得有点困难了。

…

阅读全文 Read More

(18 人打了分，平均分： 3.72 )

28个Unix/Linux的命令行神器

2012年07月11日宝酷评论 121 条评论 262,003 人阅读

下面是Kristóf Kovács收集的28个Unix/Linux下的28个命令行下的工具（原文链接），有一些是大家熟悉的，有一些是非常有用的，有一些是不为人知的。这些工具都非常不错，希望每个人都知道。本篇文章还在Hacker News上被讨论，你可以过去看看。我以作者的原文中加入了官网链接和一些说明。

dstat & sar

iostat, vmstat, ifstat 三合一的工具，用来查看系统性能（我在《性能调优攻略》中提到过那三个xxstat工具）。

官方网站：http://dag.wieers.com/rpm/packages/dstat/

你可以这样使用：

alias dstat='dstat -cdlmnpsy'

dstat screenshot

slurm

查看网络流量的一个工具

官方网站： Simple Linux Utility for Resource Management

…

阅读全文 Read More

(27 人打了分，平均分： 4.11 )

关于闰秒

2012年06月30日宝酷评论 35 条评论 37,521 人阅读

2012年6月30日，也就今天晚上，时间会多出现一秒，也就是我们所说的闰秒。我不知道大家对闰秒的了解有多少，所以写下这篇文章。

背景知识

闰秒是在在UTC（中文“世界标准时间”或“世界协调时间”／英文“Coordinated Universal Time”／法文“Temps Universel Cordonné”）是基于Atomic Clock（原子时钟）的一种时间，向太阳时（Solar Time ）对齐的一种方法，因为太阳时是根据地球公转来计算的。所以，1972年制定的UTC为了确保其时间相对于UTC的时间误差不能超过0.9秒，因此在过一段时间后需要加一秒。下图是有UTC以来闰秒的调整表（来自Wikipedia闰秒的中文词条）

…

阅读全文 Read More

(13 人打了分，平均分： 4.08 )

宝酷 – sou-ip

享受编程和技术所带来的快乐 – Coding Your Ambition

Browsed by
作者：宝酷

GCC 用 C++ 来编译

2012年08月20日宝酷评论 41 条评论 38,236 人阅读

为什么要用C++

K Nearest Neighbor 算法

2012年08月17日宝酷评论 51 条评论 73,271 人阅读

对技术的态度

2012年08月16日宝酷评论 132 条评论 126,545 人阅读

对于日新月异的新技术，你是什么态度？

InfoQ的ArchSummit大会对我的采访

2012年08月12日宝酷评论 66 条评论 31,408 人阅读

C++的坑真的多吗？

2012年08月06日宝酷评论 237 条评论 210,630 人阅读

事由

一个fork的面试题

2012年08月01日宝酷评论 223 条评论 197,295 人阅读

各式各样的验证码

2012年07月19日宝酷评论 64 条评论 69,121 人阅读

完全看不清楚的

代码执行的效率

2012年07月13日宝酷评论 70 条评论 59,725 人阅读

第一个例子

28个Unix/Linux的命令行神器

2012年07月11日宝酷评论 121 条评论 262,003 人阅读

dstat & sar

slurm

关于闰秒

2012年06月30日宝酷评论 35 条评论 37,521 人阅读

背景知识