首页 排行 分类 完本 书单 用户中心
搜书趣 > 都市 > 重生之乘风而起 > 第七百四十六章 计算机语言

重生之乘风而起 第七百四十六章 计算机语言

簡繁轉換
作者:二子从周 分类:都市 更新时间:2024-12-18 20:54:05 来源:源1

“或许还是需要进行人工干预,但是工作强度已经大大降低,我们可以通过拍照,扫描等方式,将生僻字的图片扫入计算机,让程序去分析它,最后得到标准点阵字,编码之后加入到字库当中,对字库进行扩充。”

“要实现这个功能需要有几个前提,第一就是字库当中要有足够的样本,这个我们已经已经完成,因为我们现在已经有了四万个标准点阵字的字稿。”

“还是拿《康熙字典》来举例,我们先将《康熙字典》上每一个单字的扫描图扫入文字识别系统,然后提取其字体参数特征,再将这些参数赋给已有的标准点阵字,让系统计算出根据这些参数产生的‘系统字’。”

“再拿这些生成的‘系统字’,与‘扫描字’进行校验,通过四万个标准字生成的‘系统字’,去验证参数的代表性,最后将参数调整到最佳。”

“得到参数体系之后,我们就能够将它套在扫描进来的生字上,最终得到《康熙字典》全部近六万个单字的标准点阵字,字库就从四万扩充到六万了。”

“这个思路倒是新颖,然而却也是可行的。”麦明川点头:“不过还是有问题,就是存储和运算。”

“我也拿《康熙字典》来举例,近六万个单字,就是近六万张图片,我们就拿一张图片五兆来计算,这就是300G的空间,这也太可怕了。”

“那王院长觉得,这个系统多大的图片存储容量,可以被接受呢?”

“一个G,”麦明川脱口而出,想了想觉得实在是有点欺负人:“最多最多,两个G。”

1G是1024M,两百张5M的图片,两G就是400张。

“也就是说,如果按照这个标准,这个系统能够一次同时完成四百个字的扫描分析和成字入库的工作?”

“那还得分串行并行。”李红江已经上套,开始思索程序的工作方式了:“涉及到时间成本,学校也不可能将有限的计算资源全拿来做这事儿。”

“那我们可不可以像上级求助呢?”周至问道:“我们先把基础工作做好,然后申请国家级的运算资源来完成它,有没有机会呢?”

“国家资源那更紧张,全国无数单位排队呢。”麦明川苦笑着摇头。

辜老说道:“那干脆这样,我们将工作再做细一点,肘子说的这个文字识别反向推算点阵字的程序咱们先缓一缓,第一步先集中精力把标准定出来。”

“与此同时,我们这边,再把现在的四万字稿扩到七万。”

“小李那边,抓紧先开发出读字稿的程序,咱们先把七万字稿的数字化工作完成。”

“之后再拿着这七万汉字的数字化成就,去跟那个统一码联盟谈判,并且要留够下一步继续拓展的空间,力争让我们的大字库成为全球统一标准。”

“有了这个大字库,咱们再制定出几个子集,满足国内国际不同应用场景的需求。到此我们的第一步工作是不是就算完成了?”

“至于肘子说的文字识别,那也相当重要。”辜振铎补充道:“这个可是我们下一步搞典籍数字化的神器啊!”

辜老不由得叹了一口气:“这不是资源有限,怕排不上嘛?”

“那也不一定。”周至说道:“咱们大可以将这些思路都给一股脑儿报上去,咱漫天要价,在等着部委落地还钱,取乎其上,得乎其中嘛!”

大老们都哄笑起来,这肘子是懂部委的,要人家不拿捏你,百分之百满足你的要求,几乎都是不可能的,能够满足你五成那都是开恩了。

因此不妨将饼子划大一点,最后哪怕给砍掉一半,落个小饼子也差不多够吃。

今天只是一个务虚会,算是统合一下思路,研究一下文理跨学科合作的可能性,现在能够得到一个较为统一的意见,就已经算是超出会议预期了。

这里边主要功劳,还是周至已经完成的前期工作。

李红江就握着周至的手,热切地道:“要不再多修一个信息工程学位吧?我看肘子你虽然是文科生,但信息技术的基础这么好,多修个学位一点问题都没有的。”

“精力实在是太有限了。”周至只能婉拒李红江的好意:“不过那个文字识别系统我是非常有兴趣的,李教授要是有兴趣,我也可以参与研究。”

“你对编程熟悉不?BASIC或者PASCAL。”到现在李开江绝不相信周至会是外行。

“我更熟悉C语言。”周至回忆起当年被代码支配的恐惧。

“C?”李红江感觉自己好像捡到宝了:“那UNIX呢?”

“UNIX也还行。”周至问道:“学校这是有新引进的小型机了?可以运行ANSIC的那种?”

对于多数人来说,两人的对话好比天书。

计算机语言最基本当然就是直接对芯片操作的指令集,例如最早的打孔纸带,直接就是零和一的组合。

这种语言对计算机来说最直接,但是对人来说最不友好。

于是人们就发明了一套基于芯片的“基本指令集”,这就是汇编语言。

汇编语言同样还是针对芯片,但是至少可以让专业人士读懂这程序是要让机器干什么的了。

但是汇编语言有个问题,那就是无法移植,因为它是针对某一类芯片开发的,换到另一类芯片上,另一类芯片就看不懂。

于是人类又想出一种办法,设计出编译库概念和更高一级的程序,这就是面向过程的编程语言,C语言就是其中的佼佼者。

C语言很难,原因就在于它具备汇编语言简洁高效的特征,因此工作迅速,代码紧凑,可读性比汇编语言好,最关键是容易调试,修改和移植。

程序员只负责写代码,代码写好之后对其进行编译,就能够转化为能让计算机读懂的二进制代码,称为“应用程序”。

针对不同的芯片类型,编译库中有不同的编译方式,可以将C语言编写的程序编译成能够在不同系统上运行的程序。

这就解决了程序的移植问题,让同一个程序,既可以在DOS系统里运用,也可以在苹果系统里运用,还可以在UNIX系统里运用,不用分别编写三套。

目录
设置
设置
阅读主题
字体风格
雅黑 宋体 楷书 卡通
字体风格
适中 偏大 超大
保存设置
恢复默认
手机
手机阅读
扫码获取链接,使用浏览器打开
书架同步,随时随地,手机阅读
收藏
换源
听书
听书
发声
男声 女生 逍遥 软萌
语速
适中 超快
音量
适中
开始播放
推荐
反馈
章节报错
当前章节
报错内容
提交
加入收藏 < 上一章 章节列表 下一章 > 错误举报