今年是CERNET建设30年。回望历史,作为中国首个互联网主干网,CERNET不仅见证了中国互联网从无到有、从小到大的发展奇迹,也为高校师生群体提供了创新的舞台,缔造了中国互联网历史上众多的第一。
中国第一个电子杂志的诞生
1995年1月12日,中国第一个电子杂志——《神州学人》电子版(英文名CHISA,取自China Scholars Abroad)诞生。
△1995年《神州学人》电子版的主页
承载与发布这本电子杂志的平台是1994年开始建设的我国首个覆盖全国的互联网——中国教育和科研计算机网CERNET。“一开始,我们就和CERNET结下了不解之缘。”曾任《神州学人》副总编辑的许珑说。
海外学子的呼声
创办于1987年5月的《神州学人》是一本专门面向我国海外留学人员的杂志。
“改革开放后,许多中国留学生奔赴世界各地,但当时的通讯之难,成本之高,现在难以想象。这本杂志像是一个情感的纽带,连接着身处全球的中国留学生们,大家对它有着非常特别的感情。”许珑回忆。
80年代末,互联网在国外大学首先兴起,大学师生是最早接触互联网的群体。“能不能把国内的信息及时发布在网上?”这是当时很多留学生们的渴望。中央有关部门得知这样的期待,于是在1994年10月21日,相关领导建议由国家教育委员会负责办理此事。国家教委非常重视这项工作,4天之后,就向中央递交了报告,指出已开始建立中国教育和科研计算机网CERNET,通过CERNET,即可让国外的留学生看到国内的媒体信息。于是,1995年1月,在中央的指导和国家教委的推动下,《神州学人》电子版在CERNET上诞生了。
△1995年,时任国家教委主任朱开轩、副主任韦钰等视察《神州学人》电子版
CERNET支撑CHISA的诞生
《神州学人》电子版CHISA诞生的前夜,1994年初,在当时国家计划委员会、教育委员会的领导下,清华大学吴建平、李星等一批年轻的专家开始牵头建设中国第一个互联网主干网——中国教育和科研计算机网CERNET。
一个偶然的机会,听说国家教委正在筹办《神州学人》电子版CHISA,李星立刻想到,能不能把这本电子刊放到CERNET上?在回国之前,他在国外留学8年,对《神州学人》很有感情。正是这样一种情结,使得李星极力争取,要把《神州学人》电子版放在刚刚建成的CERNET上发布。
这和国家教委的想法不谋而合,可能也正是许珑提到的“缘分”。当时CERNET的发起领导之一,也就是主管CERNET工作的国家教委副主任韦钰,也分管留学生工作,而韦钰本人的留学经历和其“报效祖国,责无旁贷”的留学理念,使得她对留学生和《神州学人》也有格外的关注和厚爱。天时地利人和,就这样,《神州学人》电子版和CERNET相伴而生。
《神州学人》电子版开辟了中国出版刊物上网的先河。对于这样的新鲜事物,大家感到非常新奇,也非常包容与支持。“我们去办理《神州学人》电子版出版手续时,新闻出版署期刊司说,这是一个全新的事物,他们之前也没有任何经验。让我们先办,也是给我国以后的电子刊摸索出一些经验。” 回忆起29年前去新闻出版署的场景,许珑说。
区别于《神州学人》杂志主要发表原创文章的模式,电子刊摘选汇集了当时许多媒体的精华文章。《神州学人》电子版的出版,主要分为两个部分:神州学人编辑部负责内容建设,CERNET负责电子刊的发布、网页的创建、运营和维护。
△2004年,CERNET网络中心李星、朱爽回顾CHISA的创办
名副其实的技术维护咨询
《神州学人》电子版最初的服务器是一台当时流行的Sun Sparc 20工作站,位于清华大学主楼CERNET的机房。
电子版的发布由CERNET网络中心朱爽和李星老师共同完成。在当年那十分简单,却十分醒目的《神州学人》电子版的版权页上,写着一行字:“技术维护咨询:朱爽,李星,chisa-tech@chisa.edu.cn ”。
“我们名副其实,哈哈。”朱爽回忆说。“为了赶国外读者阅读的时差,选定在每周周五发刊。”
虽然设备已经是当时的最好,但互联网是那么新,全球当时的网络硬件环境、发布技术和软件环境都刚刚起步:短短两万多字的文字内容,有时要花上几个小时才能发布完成。为了电子版的发布和网上传播万无一失,李星和朱爽进行了大量的准备。为保证1月12日顺利发刊,他们要在1月6日发布“试刊”。在试刊的过程中,解决了许多技术上的小挑战。
最初,电子刊只是简单的文件格式,编辑部制作成磁盘,由专人送到CERNET网络中心,后来通过FTP上传到网络中心,再后来,就直接以拨号上网的方式上传到服务器了。
在收到编辑部发来的期刊后,他们将当期的内容生成各种编码版本,包括GB、BIG5、HZ、T3、ISO2022-CN和Postscript等,这些今天我们看来非常简单的技术,在当时却是相当专业、超前的。经过编码后的版本被发布到FTP、GOPHER和WWW上,同时以UUCODE编码邮件,发送到海外留学人员的订阅邮箱中。
“无论是在外出差还是寒暑假,我们都想方设法地保证在周五按时发布上线。”朱爽说。
1995年1月15日,李星和朱爽到泰国参加第一届亚太地区网络信息中心会议。会后,在取道香港回北京时,正好是个周五——电子版第二期的发刊日。他们抵达香港后,顾不上忙其他事情,第一时间就去了香港中文大学网络中心,为的就是准时发布《神州学人》电子版。
“电子刊创刊仅仅几个月,随机浏览人数就达到了数万人,订阅人数有8000多个。”许珑说。一时间,《神州学人》电子版成为了中国互联网上的一道亮点,连版权页的技术维护咨询邮箱都收获了许多读者热情洋溢的来信。“有不少读者询问英文环境下阅读中文的问题,我们当即做了一个如何在网上阅读中文的指南。后来,为了方便读者查找信息,我们还做了详细目录分类检索。记得李星老师还常常现写一些小的软件来帮助发布,比如检查编码错误等等。”朱爽回忆。
在那段时间里,为了让电子刊发布得更好更快,他们研究出了很多小技巧,比如电子邮件讨论组技术(MAILING-LIST)。后来,《神州学人》电子版还有了详细的目录分类。当时李星教授带的一位研究生还针对电子版内容的特殊性,设计了最初的中英文搜索引擎,方便读者查找电子版上的有关资料。这在当时互联网刚刚兴起的全球,都是非常实用、有趣的探索。
开创了一个先河
1995年的夏天,时任国家教委主任朱开轩、副主任韦钰来到了位于CERNET网络中心的机房,视察电子刊工作的进展情况。韦钰表示:“《神州学人》电子版是与《神州学人》杂志比翼齐飞的一份电子杂志。”
“电子杂志发布后,收到了来自全世界的声音,每一期内容刊发后,都有几百个留学生给我们发Email互动。大家把身在异国他乡的所思所感都通过互联网与我们分享,非常让人感动。”许珑说。
在没有其他来自祖国的中文刊物上网的年代,这份来自祖国的声音弥足珍贵。当时的读者纷纷表示:“读到神州学人电子版,犹如饮到了沙漠中的甘泉,听到了来自北京的声音。”“在国外通过《神州学人》电子版直接点击国内要闻和自己感兴趣的栏目,倍觉亲切温暖,心能与祖国一起跳动。”
《神州学人》电子版的问世,开创了国内中文媒体进入国际互联网的先河,具有划时代的历史意义,它的创办,立即引起了国内媒体的关注,中央电视台新闻联播、新华社、人民日报等媒体都迅速发布了消息。
随着《神州学人》电子版影响力的增大,国务院新闻办公室将其纳入了国家对外新闻宣传平台。国内高校编写的新闻学教科书也将《神州学人》电子版的诞生作为开创性的历史事件,编入了我国新闻发展史。
1995年,美国国会图书馆电脑网络中心OCLC(Online Computer Library Center)将《神州学人》电子版正式编目,成为被此类大型图书馆编目的第一个中国大陆的中文新闻媒体。
“有一次我看王小丫主持的《开心辞典》,其中一个问题是‘我国最早的电子期刊是哪一家’?台下一位来自媒体的答题者很快就说:《神州学人》!我当时非常的激动和自豪。”回顾往事,已经退休多年的许珑说。
扩展阅读:1990年代的网络刊物发行技术
三十年前网络刊物发行技术与当今并不一样。为了适应全世界各个地区读者环境的多样性,《神州学人》网络版发行了不同的形式,使用不同的中文编码方法。
一、应用协议
1.邮件列表(Mailing List)
邮件列表的起源可以追溯到1975年,是互联网上最早的社区形式之一,也是Internet上的一种重要工具,用于各种群体之间的信息交流和信息发布。
早期的邮件列表是一个小组成员通过电子邮件讨论某一个特定话题,一般称为讨论组,由于早期联网的计算机数量很少,讨论组的参与者也很少。讨论组很快就发展演变出另一种形式,即有管理者管制的讨论组,也就是通常所说的邮件列表,或者叫狭义的邮件列表。
由于互联网早期使用ASCII编码,只有7比特,电子邮件、域名系统(DNS)等主流应用只支持7比特的透明传输,因此,对于中文等多字节文字(每个字节的全部8比特均需传输)必须转换成7比特字符。从而《神州学人》邮件列表采用了UUCODE编码。
2.文件传输协议(FTP)
文件传输协议(File Transfer Protocol)是在计算机网络的客户端和服务器间传输文件的应用层协议。传送文件(file transfer)和访问文件(file access)之间的区别在于:前者由FTP提供,后者由NFS等应用系统提供。文件传输协议由RFC959规范。
FTP是8位的客户端-服务器协议,能操作任何类型的文件而不需要后续处理,就像MIME或Unicode一样,但FTP有极高的延时,意味着从开始请求到第一次接收数据间的时间非常长,并且必须不时地执行一些冗长的登录进程。
Chrome和Firefox等主流浏览器都计划弃用对FTP的支持, 2019年推出的Chrome 82已停止对FTP支持,2020年疫情原因导致远程办公需求增加,Chrome短暂地恢复了FTP,但于2021年10月推出的Chrome95完全移除了FTP相关代码。而Firefox原计划在版本77中停止支持FTP,最终在2021年7月发行的90版正式停止支持FTP协议。微软的Edge浏览器也在2020年起停止支持FTP,Internet Explorer 11仍保留FTP客户端,直到2022年6月15日终止支持。
3.地鼠(Gopher)
Gopher是一个互联网上使用的分布型的文件搜集获取网络协议。它是1991年由明尼苏达大学发明的。“Gopher”(地鼠)这个名字有三层含义:第一是“挖掘信息”;第二,使用菜单形式搜集来的信息与地鼠洞相类似;第三,明尼苏达大学有一支运动队名叫“黄金地鼠队”。
Gopher最初的设计目标与万维网类似:共享文档。今天的万维网几乎已经替代了Gopher。但Gopher协议还提供了一些万维网先天缺乏的功能,比如在Gopher中所有信息都以层级形式存储,这被认为是存储大量信息的最好方式之一。
万维网在1991年被发明,由于耗用带宽较少,Gopher网络当时仍然是非常流行和制作精良的。1993年2月,明尼苏达大学宣布他们将对Gopher的使用收取执照费,这就部分减少了Gopher服务器数量。一些人相信这是Gopher变成互联网历史的原因。很多人相信Gopher的衰微实际上是它那有限制的结构造成的,这种结构使得它没有自由形态的HTML网页灵活。使用Gopher时,每个文档都已有一个预定义的格式和类型,一个Gopher用户必须通过一个服务器定义的系统菜单导航进某一个特定的文档。很多人不喜欢Gopher系统中这种人为制造的菜单和文件的区分,而Web网络上使用的超文本协议和交互式应用程序显得更为开放灵活。
4.万维网(WWW)
万维网(World Wide Web)是一个通过互联网访问的、由许多互相链接的超文本组成的信息系统。英国科学家蒂姆·伯纳斯-李于1989年发明了万维网,1990年,他在瑞士CERN工作期间编写了第一个网页浏览器。网页浏览器于1991年1月向其他研究机构发行,并于同年8月向大众开放。
万维网是信息时代发展的核心,也是数十亿人在互联网上进行交互和浏览的主要工具。网页主要是文本文件格式化和超文本置标语言(HTML)。除了格式化文字之外,网页还可能包含图片、影片、声音和软件组件,这些组件会在用户的网页浏览器中呈现为多媒体内容的页面。万维网并不等同于互联网,万维网只是互联网所能提供的服务之一,是靠着互联网运行的一项服务。
1993年4月30日,欧洲核子研究组织宣布万维网对任何人免费开放,且不收取任何费用。两个月之后,Gopher协议宣布不再免费使用,造成大量用户从Gopher转向万维网。早期流行的网页浏览器是用于Unix和X Windows系统的ViolaWWW。
学者普遍认为,万维网的一个转折点始于1993年推出的Mosaic网页浏览器,这是由伊利诺伊大学厄巴纳-香槟分校(NCSA-UIUC)的国家超级计算机应用中心团队所开发的图形接口浏览器,由马克·安德里森领导。Mosaic的资金来自美国高速运算及通信计划(High-Performance Computing and Communications Initiative)和高速运算及通信法案(High Performance Computing and Communication Act of 1991),这也是美国参议员阿尔·戈尔所发起的几项运算发展计划之一。在Mosaic发布之前,网页中的图片和文字混合并不常见,万维网的受欢迎程度远低于互联网上使用的旧协议,例如Gopher和WAIS。Mosaic的图形使用接口让万维网成为迄今为止最受欢迎的互联网协议。
1994年10月,万维网联盟(W3C)在麻省理工学院计算机科学实验室成立,建立者是万维网的发明者蒂姆·伯纳斯-李。到了1994年底,全球网站数量仍然相对稀少,但是很多著名网站已经相当活跃,这些网站已经预示或者启发了当今最流行的服务。
二、中文编码
1.UUCODE (uuencoding)
uuencode这个名字衍生自"Unix-to-Unix encoding",原先是Unix系统下将二进制的资料借由uucp邮件系统传输的一个编码程式,是一种二进制到文字的编码。uudecode是与uuencode搭配的解码程式,uuencode/decode常见于电子邮件中的档案传送以及usenet新闻组和BBS的贴文等等。近来已被MIME大量取代。
2.GB
GB/T 2312,GB/T 2312—80 或 GB/T 2312—1980 是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,通常简称GB(“国标”汉语拼音首字母),又称GB0,由中国国家标准总局于1980年发布,1981年5月1日实施。
在GB 2312内,每个汉字及符号的码位使用两个字节来表示。第一个字节称为“高位字节”,对应分区的编号(把区位码的“区码”加上特定值);第二个字节称为“低位字节”,对应区段内的个别码位(把区位码的“位码”加上特定值)。
3.BIG5
大五码(英语:Big5,又称五大项目码、五大码)是繁体中文社群最常用的电脑汉字字符集标准,共收录13060个汉字。
大五码是双字节字符集,以十六进制表示,使用双八码存储方法,以两字节安放一字。第一字节称为“高位字节”,第二字节称为“低位字节”。
4.Postscript
PostScript(PS)是一种页面描述语言和编程语言 ,由Adobe Systems公司于1984年推向市场。大概在这个时候,史蒂夫·乔布斯参观了Adobe公司的工作,并敦促他们改进PostScript作为驱动激光打印机的语言,将其添加到Canon打印机,诞生了LaserWriter。1985年3月,Apple LaserWriter是第一款带有PostScript的打印机,这也带来了1980年代中期的桌面印刷革命。它的技术优点和广泛应用使得PostScript成为打印应用领域影像输出的一个选择。直到1990年代,PostScript语言解释器,有时称作Raster image processor,曾经一度成为激光打印机的一个普通组成部分。随着使用电子方式发布文档最终版本成为事实上的标准,PostScript就在这个领域不断地被它的后续版本Portable Document Format(PDF)所超越。
5.HZ
HZ编码是1988年发明的编码系统。其目的是在7字节的限制下(如电子邮件)储存GB/T 2312的双字节字符。
其在ISO 2022编码字符的前后分别加上转义字符~{(7E 7B)和~}(7E 7D)后,使用正常的ASCII转码变成 ASCII 字符。部分机器也可以接受使用EUC-CN编码的转义字符。
HZ出现于RFC 1843《HZ - A Data Format for Exchanging Files of Arbitrarily Mixed Chinese and ASCII characters》,作者来自斯坦福大学。
6.T3
T3其目的是在7字节的限制下(如电子邮件)储存BIG5的双字节字符。
7.ISO2022-CN
为避开ASCII字符中的不可显示字符(十六进制为0×00至0×1F,十进制为0至31)及空格字符(十六进制为0×20,十进制为32),国标码(又称为交换码)参考ISO 2022规定表示非ASCII字符双字节编码范围为十六进制为 <21 21>-<7E 7E>,十进制为 (33, 33) 至 (126, 126)。因此,在进行码位转换时,须将“区码”和“位码”分别加上32(十六进制为0×20)作为国标码。
在这个编码模式内,软件需要使用低端控制字符(C0),高端控制字符(C1)和US-ASCII字符集(GL)标注字符属于单字节(ASCII)还是双字节,相对容易造成乱码(如丢失控制/转义字符)。
ISO2022-CN在RFC 1922《互联网消息的汉字编码》(Chinese Character Encoding for Internet Messages)中被定义。RFC1922是中国大陆的第一个RFC,其主要作者来自清华大学。
8.UNICODE
Unicode,全称为Unicode标准(The Unicode Standard),其官方机构Unicode联盟所用的中文名称为统一码,又译作万国码、统一字符码、统一字符编码,是信息技术领域的业界标准,其整理、编码了世界上大部分的文字系统,使得电脑能以通用的字符集来处理和显示文字,不但减轻在不同编码系统间切换和转换的困扰,更提供了一种跨平台的乱码问题解决方案。Unicode由非营利机构Unicode联盟(Unicode Consortium)负责维护,该机构致力于让Unicode标准取代既有的字符编码方案,因为既有方案编码空间有限,亦不适用于多语环境。
Unicode伴随着通用字符集ISO/IEC 10646的标准而发展,同时也以书本的形式对外发表。Unicode至今仍在不断增修,每个新版本都加入了更多新的字符。目前最新的版本为2022年9月公布的15.0.0,已经收录超过14万个字符(第十万个字符在2005年获得采纳)。Unicode标准不仅仅是为文字指定代码。除了涵盖视觉上的字形、编码方法、标准的字符编码资料外,联盟官方出版品还包含了关于各书写系统的细节及呈现方式,如规范化的准则、拆分、测序、绘制、双向文本显示、书写方向、字符特性(如大小写字母)等等。此外还提供参考资料和视觉图像,以帮助开发者和设计师正确应用标准。
Unicode备受认可,被ISO纳入国际标准,成为通用字符集,即 ISO/IEC 10646。Unicode兼容ISO/IEC 10646,能完整对应各个版本标准。Unicode广泛应用于电脑软件的国际化与本地化过程。很多新科技,如可扩展置标语言(Extensible Markup Language,简称:XML)、Java编程语言以及现代操作系统,都采用Unicode来编码。Unicode最普遍的编码格式是和ASCII兼容的UTF-8,以及和UCS-2兼容的UTF-16。
(以上资料来自网络)
来源:中国教育和科研计算机网CERNET