计算环境使用说明

本服务器（10.40.13.225）是统计与数据科学学院的“分布式存储与计算”和“数据库课程”的上机实验用服务器，使用前请阅读此说明。

注意事项

虽然服务器硬件配置很好，但考虑到分布式存储与计算课程选课人数非常多，服务器在高峰期的负载会非常大，因此请务必:

所有spark作业请连接到本地已有的master(spark://10.40.13.225:7077)，不要新建local集群
在使用spark-shell后及时Ctrl+D退出
在使用pyspark后及时输入exit()退出
在使用notebook结束后，及时在jupyterlab中结束kernel
避免长期存储特别大的文件（GB级）
避免运行内存负载特别大的程序（10GB以上）

如不遵守上述原则，系统/管理员可能会终止你的作业导致数据丢失，若长时间严重占用系统资源，则可能会暂时禁用你的jupyterhub和系统用户访问权限。

课程结束一个月后我们将删除学生账号，届时个人目录下的文件会无法恢复，请及时备份个人文件。

目录

一些参考资料

林子雨 - 子雨大数据之Spark入门教程（Scala版）
http://dblab.xmu.edu.cn/blog/spark/
林子雨 - 子雨大数据之Spark入门教程(Python版)
http://dblab.xmu.edu.cn/blog/1709-2/
Spark官方文档
https://spark.apache.org/docs/3.3.0/
多看官方文档，比网上的博客更权威和详细

GitHub Next »