回 帖 发 新 帖 刷新版面

主题:[讨论]习题求教:压缩文本文件

背景:

    压缩是一种有效的减小数据量的方法,目前已经被广泛应用于各种类型的信息系统之中。

    一种压缩文本文件的方法如下:

    1. 原始文本文件中的非字母的字符,直接拷贝到压缩文件中;

    2. 原始文件中的词(全部由字母组成),如果是第一次出现,则将该词加入到一个词的列表中,并拷贝到压缩文件中;否则该词不拷贝到压缩文件中,而是将该词在词的列表中的位置拷贝到压缩文件中。 

    3. 词的列表的起始位置为 1 。 词的定义为文本中由大小写字母组成的最大序列。大写字母和小写字母认为是不同的字母,即 abc 和 Abc 是不同的词。词的例子如下: * x-ray 包括两个词 x 和 ray * mary's 包括两个词 mary 和 s * a c-Dec 包括三个词 a 和 c 和 Dec 编写一个程序,输入为一组字符串,输出为压缩后的文本。

输入:

    输入为一段文本,你可以假设输入中不会出现数字、每行的长度不会超过 80 个字符,并且输入文本的大小不会超过 10M。

输出:压缩后的文本。

          
 测试输入
Please, please do it--it would please Mary very,↵
very much.↵
↵
Thanks↵
测试输出: 
Please, please do it--4 would 2 Mary very,↵
7 much.↵
↵
Thanks↵     


想了好久,没什么思路,望各位指教。

回复列表 (共1个回复)

沙发

这么试试呢?
在对单词进行导入的时候,根据单词首字母建立索引。
对应结构
#define MAX_SIZE 52
struct _WORD_INDEX
{
    long local;
    int  i_strlen;
    char *str;
    struct _WORD_INDEX *next;
};
struct _WORD_INDEX *INDEX[MAX_SIZE];
比如it重复出现时,检索到i = 'i' - '0';
扫描INDEX[i]这个链串,有重复,此时local = 4,导出时填上local
个人愚见,还有更多更好的方法请各位分享、

我来回复

您尚未登录,请登录后再回复。点此登录或注册