Spark海量数据取任意第Kth行的实现

Spark artisan 795℃ 0评论
val  df =  (1 to 100000).toSeq.toDF("id")
val  orderDF  = df.orderBy("id").rdd.zipWithIndex()
orderDF.filter(t=>t._1.getAs[Int]("id")==100).take(5) // 获取低排名为100的行(从0开始排名)
//查询结果: Array[(org.apache.spark.sql.Row, Long)] = Array(([100],99))

转载请注明:Java工匠师 » Spark海量数据取任意第Kth行的实现

喜欢 (9)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址