差異處
這裏顯示兩個版本的差異處。
下次修改 | 前次修改 | ||
公開:csv與excel [2020/12/04 04:40] kent 建立 |
公開:csv與excel [2021/01/08 14:40] (目前版本) kent [爬蟲的範例程式含註解] |
||
---|---|---|---|
行 1: | 行 1: | ||
- | ====== Open Data 來源 ====== | + | ====== 課堂練習範例 ====== |
+ | |||
+ | [[https://www.dropbox.com/s/1mxk13bnweq2owz/BigDataDemo_20201204-1.zip?dl=0|課堂練習範例(至12/04)]] | ||
+ | |||
+ | ====== Open Data ====== | ||
+ | [[https://zh.wikipedia.org/wiki/開放資料|何謂 Open Data?]] | ||
+ | <file> | ||
+ | 開放資料 (英語:Open data) 指的是一種經過挑選與許可的資料。這種資料不受著作權、專利權,以及其他管理機制所限制,可以開放給社會公眾,任何人都可以自由出版使用,不論是要拿來出版或是做其他的運用都不加以限制。 | ||
+ | </file> | ||
[[https://data.gov.tw/|政府 Open Data 網站]] | [[https://data.gov.tw/|政府 Open Data 網站]] | ||
+ | |||
+ | [[https://www.data.gov|The home of the U.S. Government’s open data]] | ||
[[https://special.moe.gov.tw|全國特殊教育資訊網]] | [[https://special.moe.gov.tw|全國特殊教育資訊網]] | ||
行 6: | 行 17: | ||
[[https://www.set.edu.tw|教育部特殊教育通報網]] | [[https://www.set.edu.tw|教育部特殊教育通報網]] | ||
- | ====== 專有名詞 ====== | + | {{:公開:截圖_2020-12-04_上午4.56.42.png?800|}} |
+ | |||
+ | ====== CSV ====== | ||
[[https://zh.wikipedia.org/wiki/逗号分隔值|何謂 CSV?]] | [[https://zh.wikipedia.org/wiki/逗号分隔值|何謂 CSV?]] | ||
+ | |||
+ | [[https://www.dropbox.com/s/m6x7npom7l7rbb5/BigData_CSV_Samples.zip?dl=0|CSV樣本]] | ||
+ | |||
+ | ====== Excel套件選擇 ====== | ||
+ | |||
+ | * openpyxl: 支援讀跟寫,以及篩選、公式、插入圖片等,還可以產生圖表。 | ||
+ | * xlsxwriter: 功能與openpyxl相似,但只能產出(寫),不能讀取,但可以支援 VBA 語法。 | ||
+ | * 其他還有別的套件,但限制頗多: [[https://www.itread01.com/p/446412.html|Python-Excel 模組哪家強?]] | ||
+ | |||
+ | ====== openpyxl ====== | ||
+ | |||
+ | [[https://openpyxl.readthedocs.io/en/stable/charts/introduction.html|支援的圖表種類]] | ||
+ | |||
+ | ====== 爬蟲的範例程式含註解 ====== | ||
+ | |||
+ | 此範例程式可以把特殊教育相關新聞的最新200則爬回來,並輸出為 Excel 檔。 | ||
+ | |||
+ | [[https://www.dropbox.com/s/t2ihrec74oz07eq/HelloCrawlGoogleNewsSearch_Demo.ipynb.zip?dl=0|範例程式]] | ||
+ | |||
+ | 使用方式: | ||
+ | - 下載後解開zip取得 ipynb 檔。 | ||
+ | - 把 ipynb 檔上傳至您 docker 的環境中。 | ||
+ | - 開啟並且執行。 | ||
+ | - 執行完畢後,會於同一個目錄中輸出 Output.xlsx 裡面會包含有爬到的新聞內容。 | ||
+ | |||
+ | |||
+ | |||