日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

Java 5億整數大文件怎么排序

瀏覽:138日期:2022-09-03 18:08:44

問題

給你1個文件bigdata,大小4663M,5億個數,文件中的數據隨機,如下一行一個整數:

61963023557681612158020393452095006174677379343122016371712330287901712966901...7005375

現在要對這個文件進行排序,怎么搞?

內部排序

先嘗試內排,選2種排序方式:

3路快排:

private final int cutoff = 8;public <T> void perform(Comparable<T>[] a) { perform(a,0,a.length - 1); } private <T> int median3(Comparable<T>[] a,int x,int y,int z) { if(lessThan(a[x],a[y])) { if(lessThan(a[y],a[z])) {return y; } else if(lessThan(a[x],a[z])) {return z; }else {return x; } }else { if(lessThan(a[z],a[y])){return y; }else if(lessThan(a[z],a[x])) {return z; }else {return x; } } } private <T> void perform(Comparable<T>[] a,int low,int high) { int n = high - low + 1; //當序列非常小,用插入排序 if(n <= cutoff) { InsertionSort insertionSort = SortFactory.createInsertionSort(); insertionSort.perform(a,low,high); //當序列中小時,使用median3 }else if(n <= 100) { int m = median3(a,low,low + (n >>> 1),high); exchange(a,m,low); //當序列比較大時,使用ninther }else { int gap = n >>> 3; int m = low + (n >>> 1); int m1 = median3(a,low,low + gap,low + (gap << 1)); int m2 = median3(a,m - gap,m,m + gap); int m3 = median3(a,high - (gap << 1),high - gap,high); int ninther = median3(a,m1,m2,m3); exchange(a,ninther,low); } if(high <= low) return; //lessThan int lt = low; //greaterThan int gt = high; //中心點 Comparable<T> pivot = a[low]; int i = low + 1; /* * 不變式: * a[low..lt-1] 小于pivot -> 前部(first) * a[lt..i-1] 等于 pivot -> 中部(middle) * a[gt+1..n-1] 大于 pivot -> 后部(final) * * a[i..gt] 待考察區域 */ while (i <= gt) { if(lessThan(a[i],pivot)) {//i-> ,lt ->exchange(a,lt++,i++); }else if(lessThan(pivot,a[i])) {exchange(a,i,gt--); }else{i++; } } // a[low..lt-1] < v = a[lt..gt] < a[gt+1..high]. perform(a,low,lt - 1); perform(a,gt + 1,high); }

歸并排序:

/** * 小于等于這個值的時候,交給插入排序 */ private final int cutoff = 8; /** * 對給定的元素序列進行排序 * * @param a 給定元素序列 */ @Override public <T> void perform(Comparable<T>[] a) { Comparable<T>[] b = a.clone(); perform(b, a, 0, a.length - 1); } private <T> void perform(Comparable<T>[] src,Comparable<T>[] dest,int low,int high) { if(low >= high) return; //小于等于cutoff的時候,交給插入排序 if(high - low <= cutoff) { SortFactory.createInsertionSort().perform(dest,low,high); return; } int mid = low + ((high - low) >>> 1); perform(dest,src,low,mid); perform(dest,src,mid + 1,high); //考慮局部有序 src[mid] <= src[mid+1] if(lessThanOrEqual(src[mid],src[mid+1])) { System.arraycopy(src,low,dest,low,high - low + 1); } //src[low .. mid] + src[mid+1 .. high] -> dest[low .. high] merge(src,dest,low,mid,high); } private <T> void merge(Comparable<T>[] src,Comparable<T>[] dest,int low,int mid,int high) { for(int i = low,v = low,w = mid + 1; i <= high; i++) { if(w > high || v <= mid && lessThanOrEqual(src[v],src[w])) {dest[i] = src[v++]; }else {dest[i] = src[w++]; } } }

數據太多,遞歸太深 ->棧溢出?加大Xss? 數據太多,數組太長 -> OOM?加大Xmx?

耐心不足,沒跑出來.而且要將這么大的文件讀入內存,在堆中維護這么大個數據量,還有內排中不斷的拷貝,對棧和堆都是很大的壓力,不具備通用性。

sort命令來跑

sort -n bigdata -o bigdata.sorted

跑了多久呢?24分鐘.

為什么這么慢?

粗略的看下我們的資源: 1. 內存 jvm-heap/stack,native-heap/stack,page-cache,block-buffer 2. 外存 swap + 磁盤

數據量很大,函數調用很多,系統調用很多,內核/用戶緩沖區拷貝很多,臟頁回寫很多,io-wait很高,io很繁忙,堆棧數據不斷交換至swap,線程切換很多,每個環節的鎖也很多.

總之,內存吃緊,問磁盤要空間,臟數據持久化過多導致cache頻繁失效,引發大量回寫,回寫線程高,導致cpu大量時間用于上下文切換,一切,都很糟糕,所以24分鐘不細看了,無法忍受.

位圖法

private BitSet bits; public void perform( String largeFileName, int total, String destLargeFileName, Castor<Integer> castor, int readerBufferSize, int writerBufferSize, boolean asc) throws IOException { System.out.println('BitmapSort Started.'); long start = System.currentTimeMillis(); bits = new BitSet(total); InputPart<Integer> largeIn = PartFactory.createCharBufferedInputPart(largeFileName, readerBufferSize); OutputPart<Integer> largeOut = PartFactory.createCharBufferedOutputPart(destLargeFileName, writerBufferSize); largeOut.delete(); Integer data; int off = 0; try { while (true) {data = largeIn.read();if (data == null) break;int v = data;set(v);off++; } largeIn.close(); int size = bits.size(); System.out.println(String.format('lines : %d ,bits : %d', off, size)); if(asc) {for (int i = 0; i < size; i++) { if (get(i)) { largeOut.write(i); }} }else {for (int i = size - 1; i >= 0; i--) { if (get(i)) { largeOut.write(i); }} } largeOut.close(); long stop = System.currentTimeMillis(); long elapsed = stop - start; System.out.println(String.format('BitmapSort Completed.elapsed : %dms',elapsed)); }finally { largeIn.close(); largeOut.close(); } } private void set(int i) { bits.set(i); } private boolean get(int v) { return bits.get(v); }

nice!跑了190秒,3分來鐘. 以核心內存4663M/32大小的空間跑出這么個結果,而且大量時間在用于I/O,不錯.

問題是,如果這個時候突然內存條壞了1、2根,或者只有極少的內存空間怎么搞?

外部排序

該外部排序上場了. 外部排序干嘛的?

內存極少的情況下,利用分治策略,利用外存保存中間結果,再用多路歸并來排序; map-reduce的嫡系.

Java 5億整數大文件怎么排序

Java 5億整數大文件怎么排序

1.分

內存中維護一個極小的核心緩沖區memBuffer,將大文件bigdata按行讀入,搜集到memBuffer滿或者大文件讀完時,對memBuffer中的數據調用內排進行排序,排序后將有序結果寫入磁盤文件bigdata.xxx.part.sorted. 循環利用memBuffer直到大文件處理完畢,得到n個有序的磁盤文件:

Java 5億整數大文件怎么排序

2.合

現在有了n個有序的小文件,怎么合并成1個有序的大文件? 把所有小文件讀入內存,然后內排? (⊙o⊙)… no!

利用如下原理進行歸并排序:

Java 5億整數大文件怎么排序

我們舉個簡單的例子:

文件1:3,6,9 文件2:2,4,8 文件3:1,5,7

第一回合: 文件1的最小值:3 , 排在文件1的第1行 文件2的最小值:2,排在文件2的第1行 文件3的最小值:1,排在文件3的第1行 那么,這3個文件中的最小值是:min(1,2,3) = 1 也就是說,最終大文件的當前最小值,是文件1、2、3的當前最小值的最小值,繞么? 上面拿出了最小值1,寫入大文件.

第二回合: 文件1的最小值:3 , 排在文件1的第1行 文件2的最小值:2,排在文件2的第1行 文件3的最小值:5,排在文件3的第2行 那么,這3個文件中的最小值是:min(5,2,3) = 2 將2寫入大文件.

也就是說,最小值屬于哪個文件,那么就從哪個文件當中取下一行數據.(因為小文件內部有序,下一行數據代表了它當前的最小值)

最終的時間,跑了771秒,13分鐘左右.

less bigdata.sorted.text...9999966999996799999689999969999997099999719999972999997399999749999975999997699999779999978...

到此這篇關于Java 5億整數大文件怎么排序的文章就介紹到這了,更多相關Java 大文件排序內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Java
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
亚洲综合电影一区二区三区| 日韩有码av| 里番精品3d一二三区| 欧美交a欧美精品喷水| 精品视频一区二区三区在线观看| 久久av日韩| 91精品韩国| 国内亚洲精品| 天堂av在线一区| 日韩精彩视频在线观看| 欧美a一区二区| 欧美精选视频一区二区| 日韩视频在线一区二区三区 | 夜鲁夜鲁夜鲁视频在线播放| 国产精品呻吟| 国产伦精品一区二区三区视频 | 国产精品视频一区二区三区综合| 激情久久一区二区| 久久久影院免费| 亚洲婷婷丁香| 麻豆精品视频在线观看| 色婷婷精品视频| 亚洲欧美日韩国产一区| 麻豆一区二区三| 日韩不卡免费高清视频| 中文欧美日韩| 国产福利资源一区| 一区二区三区四区在线看| 亚洲精品四区| 国产欧洲在线| 亚洲精品极品| 国产v综合v| 国产欧美精品| 亚洲自拍另类| 97精品一区二区| 亚洲精品视频一二三区| 精品欧美一区二区三区在线观看| 亚洲精品乱码| 欧美日韩中文字幕一区二区三区| 视频精品一区| 亚洲一级二级| 丁香婷婷久久| 91久久精品无嫩草影院| 精品在线99| 久久精品天堂| 日韩三级一区| 欧美亚洲在线日韩| 精品亚洲自拍| 日韩高清在线观看一区二区| 激情欧美一区| 色爱综合网欧美| 青草综合视频| 国产亚洲激情| 99精品视频精品精品视频| 日韩精品91亚洲二区在线观看| 久久婷婷激情| 国产精品久久久久久av公交车| 欧美日韩国产高清| 色婷婷色综合| 日韩av三区| 亚洲一区二区三区无吗| 91亚洲国产成人久久精品| 日韩高清一区在线 | 你懂的国产精品| 日韩在线视频一区二区三区| 蜜臀av免费一区二区三区| 美女毛片一区二区三区四区最新中文字幕亚洲 | 亚洲一区欧美二区| 蜜桃免费网站一区二区三区| 国产综合色区在线观看| 麻豆免费精品视频| 国产欧美在线观看免费| 日韩高清在线不卡| 日韩精品午夜视频| 日韩午夜av在线| 久久国产精品成人免费观看的软件| 精品国产一区二区三区性色av| 欧美专区一区| 国产视频一区二区在线播放| 午夜久久av| 亚洲一区二区免费在线观看| 美女精品在线| 亚洲狼人精品一区二区三区| 午夜在线一区| 亚洲最新av| 日韩精品一二三四| 首页欧美精品中文字幕| 蜜臀av一区二区三区| 久久亚洲美女| 自拍日韩欧美| 亚洲激情另类| 老鸭窝亚洲一区二区三区| 亚洲综合二区| 日韩中文字幕| 国产福利亚洲| 成人精品国产亚洲| 电影天堂国产精品| 激情五月色综合国产精品| 美女网站一区| 蜜臀av亚洲一区中文字幕| 在线一区二区三区视频| 亚洲精品进入| 国产精品分类| 美女精品视频在线| 精品久久久久久久| 欧洲av不卡| 国产一区导航| 欧美久久精品| www.九色在线| 欧美日韩国产综合网| 亚洲精品人人| 麻豆高清免费国产一区| 98精品视频| 午夜精品影院| 日本午夜免费一区二区| 麻豆视频观看网址久久| 日韩精品欧美激情一区二区| 国产精品毛片一区二区三区| 日韩免费精品| 卡一卡二国产精品| 麻豆mv在线观看| 成人av二区| 日韩av一级片| 日韩欧美1区| 免费人成在线不卡| 国产精品三级| 1000部精品久久久久久久久| 涩涩涩久久久成人精品| 国产一区二区三区四区五区| 午夜日本精品| 国产精品v亚洲精品v日韩精品| 91精品韩国| 亚洲va久久久噜噜噜久久| 精品一区91| 亚洲免费影视| 精品国产一区二区三区2021| 婷婷激情综合| 国产精品一区二区美女视频免费看 | 国产精品天天看天天狠| 欧美日韩免费看片| 亚洲精选91| 国产一区二区三区四区五区 | 国产精品日本| 久久av影院| 亚洲欧美日韩精品一区二区 | av中文资源在线资源免费观看| 性色av一区二区怡红| 欧美激情亚洲| 中国女人久久久| 国产一区二区三区不卡视频网站 | 亚洲tv在线| 精品日韩视频| 国产精品一区高清| 亚洲欧美日韩高清在线| 精品国产乱码久久久久久1区2匹| 伊人成人网在线看| 9999国产精品| 久久激情av| 老色鬼久久亚洲一区二区| 丝袜美腿一区| 成人午夜亚洲| 国产九九精品| 亚洲九九精品| 玖玖玖国产精品| 蜜桃国内精品久久久久软件9| 高清精品久久| 欧美极品一区二区三区| 亚洲精品免费观看| 日本韩国欧美超级黄在线观看| 亚洲精品极品| 婷婷综合亚洲| 蜜桃成人精品| 国产一区二区三区黄网站| 国产亚洲人成a在线v网站| 国产精品试看| 日韩精品一区二区三区免费观影| 国产精品一区高清| 亚洲精品大片| 日韩精品一二三四| 好看不卡的中文字幕| 91tv亚洲精品香蕉国产一区| 老色鬼精品视频在线观看播放| 日本一区二区三区视频在线看| 欧美精品一二| 日韩亚洲一区在线| 国产精品蜜月aⅴ在线| 香蕉久久一区| 亚洲精品日韩久久| 亚洲欧美高清| 亚洲免费婷婷| 美女精品网站| 免费精品视频最新在线| 亚洲欧美日本国产专区一区| 欧美女激情福利| 亚洲国产专区| 91精品啪在线观看国产18| 激情国产在线| 欧美丰满日韩| 欧美日韩视频免费观看| 日韩电影免费在线观看|