1 Star 1 Fork 2

huahua456123/pyspark

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
codeRdd.py 907 Bytes
一键复制 编辑 原始数据 按行查看 历史
huahua456123 提交于 2019-09-24 22:09 +08:00 . Add files via upload
from pyspark.sql import Row
from pyspark.sql import SparkSession
from pyspark import SparkConf
from pyspark.sql.types import *
spark = spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()
# 下面生成表头
schemaString = 'name age'
fields = [StructField(field_name, StringType(), True) for field_name in schemaString.split(' ')]
schema = StructType(fields)
# 下面生成表中的记录
lines = spark.sparkContext.textFile('file:///D:/spark/resources/people.txt')
parts = lines.map(lambda x: x.split(','))
people = parts.map(lambda p: Row(p[0], p[1].strip()))
# 下面把表头和表中的记录拼接在一起
schemaPeople = spark.createDataFrame(people, schema) # 表中记录放前面,表头放后面
# 注册一个临时表供下面查询使用
schemaPeople.createOrReplaceTempView('people')
results = spark.sql('select name, age from people')
results.show()
Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/huahua456123/pyspark.git
git@gitee.com:huahua456123/pyspark.git
huahua456123
pyspark
pyspark
master

搜索帮助