ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
# 电影评论情感分类(imdb) 数据集来自 IMDB 的 25,000 条电影评论,以情绪(正面/负面)标记。评论已经过预处理,并编码为词索引(整数)的序列表示。为了方便起见,将词按数据集中出现的频率进行索引,例如整数 3 编码数据中第三个最频繁的词。这允许快速筛选操作,例如:「只考虑前 10,000 个最常用的词,但排除前 20 个最常见的词」。 作为惯例,0 不代表特定的单词,而是被用于编码任何未知单词。 ## 用法: ~~~ from AADeepLearning.datasets import imdb (x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz", num_words=None, skip_top=0, maxlen=None, seed=113, start_char=1, oov_char=2, index_from=3) ~~~ * **返回:** * 2 个元组: * **x\_train, x\_test**: 序列的列表,即词索引的列表。如果指定了`num_words`参数,则可能的最大索引值是`num_words-1`。如果指定了`maxlen`参数,则可能的最大序列长度为`maxlen`。 * **y\_train, y\_test**: 整数标签列表 (1 或 0)。 * **参数:** * **path**: 如果你本地没有该数据集 (在`'~/.aadeeplearning/datasets/' + path`),它将被下载到此目录。 * **num\_words**: 整数或 None。要考虑的最常用的词语。任何不太频繁的词将在序列数据中显示为`oov_char`值。 * **skip\_top**: 整数。要忽略的最常见的单词(它们将在序列数据中显示为`oov_char`值)。 * **maxlen**: 整数。最大序列长度。 任何更长的序列都将被截断。 * **seed**: 整数。用于可重现数据混洗的种子。 * **start\_char**: 整数。序列的开始将用这个字符标记。设置为 1,因为 0 通常作为填充字符。 * **oov\_char**: 整数。由于`num_words`或`skip_top`限制而被删除的单词将被替换为此字符。 * **index\_from**: 整数。使用此数以上更高的索引值实际词汇索引的开始。