Tag Archives: google

Data Crawling Using Google Script

สวัสดีท่านผู้อ่านอีกครั้งนะครับ ในวันนี้เราจะนำเสนอของฟรี (หรือไม่ฟรีก็ไม่แน่ใจ) ที่เจ๋งประมาณหนึ่งนั่นคือ Google Script ผมเคยลองใช้ให้ส่งเมล์ทุกวันแบบตั้งเวลาไว้ โดยแนบ Google Sheet จาก Google Drive ซึ่งคือ Daily Update ของโปรเจคหนึ่ง บอกเลยว่าผลออกมาดีเกินคาด ช่วยให้การทำงานซ้ำๆในทุกวันสนุกขึ้น

ซึ่งในวันนี้เราจะนำเสนอแนวทางการใช้งานที่กำลังน่าจะเป็นหัวข้อฮิตของช่วงนี้สำหรับ Big Data คือตอนนี้เราพูดถึงมันเยอะแต่ว่าคนทำจริงที่มีประสบการณ์มีน้อยเพราะมีข้อมูลสาธารณะให้วิเคราะห์น้อย พวกคนที่ยังไม่มีประสบการณ์ก็จำเป็นที่จะต้องหาฐานข้อมูลเหล่านั้นขึ้นมาเอง ซึ่งพอเป็นแบบนั้นเนี่ยส่วนใหญ่ก็จะนึกถึงต้องมีเครื่องที่ทำงานตลอดเวลาเพื่อดึงข้อมูลจากอินเตอร์เน็ต (หรือผมคิดคนเดียวก็ไม่รู้นะ) พอจะให้เปิดคอมทิ้งไว้ที่บ้านก็กล้วบ้านไฟตกบ้างหล่ะไฟใหม้บ้างละ จะเช่าเซิร์ฟเวอร์ก็แบบจนอ่ะนะ คืออยากมีประสบการณ์แต่ไม่ต้องเสียเงินมากอ่ะมีมั้ย (เพราะเงินเดือนมันน้อยตามประสบการณ์) บอกเลยฮะว่ามีแต่ต้องพยายามนิดนึง

วันนี้เราจะแสดงตัวอย่างการดึงข้อมูลจากฟีด (พาดหัวข่าว ในที่นี้ใช้ฟีดจากกรุงเทพธุรกิจ) แล้วมาเก็บไว้ใน Google Sheets โดยอย่างแรกเราต้องสร้าง Sheet และนำเอา id ของ Sheet นั้นๆ ออกมาก่อนโดยมันจะเป็นตัวเลขผสมตัวอักษรตรงแอดเดรสหลัง /d/ เพื่อสำหรับเขียนข้อมูลที่อ่านมาได้จากฟีดนั่นเอง จากนั้นก็เปลี่ยนชื่อของชีทที่เราทำงานอยู่ให้เป็น feed เพื่อให้ง่ายต่อการเรียกใช้

ฟีดที่เราได้มานั้นจะอยู่ในรูป XML เราจะใช้ XML Service ที่ Google มีให้มาใช้เพื่อช่วยอ่านค่าจาก XML (Google XML Service) จากนั้นก็บันทึกลงในชีท ส่วนเรื่องราวหลังจากนั้นก็แล้วแต่นักวิทยาศาสตร์ข้อมูลแล้วแหละว่าจะใช้ให้มีประโยชน์สูงสุดได้อย่างไร ส่วนโค้ดตัวอย่างอยู่ข้างล่างนี้ครับ (เพียงปรับ URL กับ Sheet ID ก็น่าจะทำงานได้นะฮะ)

function getFeed() {
  var sheet = SpreadsheetApp.openById('Sheet ID').getSheetByName('feed');

  var url = '-- Your Feed Link --';
  var xml = UrlFetchApp.fetch(url).getContentText();
  var document = XmlService.parse(xml);
  var items = document.getRootElement().getChild('channel').getChildren('item');

  Logger.log('Found %s items', items.length);
  for(var i=0; i < items.length; ++i) {
    var title = items[i].getChild('title').getValue();
    var description = items[i].getChild('description').getValue();
    var link = items[i].getChild('link').getValue();
    var pubDate = items[i].getChild('pubDate').getValue();
    
    sheet.appendRow([pubDate, title, description, link]);
    
    Logger.log(title);
  }
}

นอกจากนี้เนี่ยเรายังสามารถสร้าง trigger ให้ฟังก์ชันของเรานั้นทำงานทุกกี่ชั่วโมงกี่นาทีก็ได้แล้วแต่ แต่ต้องไม่เยอะจนทำให้เวปเดือดร้อนนะครับ ข้างล่างเป็นภาพของข้อมูลที่ทดลองดึงมาได้ครับ ขอให้ผู้อ่านทุกท่านโชคดี ติดปัญหาตรงไหนก็โพสถาม Stack Overflow ได้นะครับ หรือจะมาถามในโพสนี้ก็ได้ ขอบคุณที่ติดตามขอให้มีโอกาสหน้าที่จะได้มาเล่าเรื่องสู่กันฟังอีก วันนี้ต้องไปก่อน

Advertisements

Using Email with Google App Engine

สวัสดีครับ วันนี้อยากแนะนำ cloud ของ google (ไม่ได้เงินค่าโฆษณาแต่อย่างใด) สำหรับใครที่มองหา Server ฟรีสำหรับทำโปรเจคส่งอาจารย์ เช่น โปรเจคเกี่ยวกับ IoT (Internet of Things) ถ้าเงินไม่มีแนะนำ Google App Engine ครับฟรีถึงแม้โควต้าจะไม่เยอะเท่าไหร่แต่ก็ทำให้ได้ Server ดีๆ ได้เลยทีเดียว ลองเข้าไปศึกษากันได้ที่ Google Cloud Platform

สำหรับ Google App Engine รองรับหลายภาษาไม่ว่าจะเป็น Python Java PHP และ Go (ซึ่งในที่นี้ผมถนัด Python นะบอกเลย–น่าจะเดาได้จากหลายๆ โพสที่ผ่านมา) สำหรับฐานข้อมูลนั้นไม่ได้มี MySQL หรือ MongoDB ที่หลายคนถนัดต้องใช้ App Engine Datastore ซึ่งมีโควต้านับเป็นจำนวนครั้งในการอ่านเขียน และโควต้าของ GAE นั้นนับเป็นวันครับ ถ้าวันนั้นใช้เกินโควต้าเว็บหรือเซอร์วิสที่เราพัฒนาจะไม่สามารถเข้าใช้งานได้ ก็รอไปจนครบ 24 ชม (ระหว่างนั้นก็ไปช้อปปิ้ง เล่นเกม) แล้วระบบจะรีเซ็ทให้เหลือศูนย์ใหม่ แล้วก็จะเข้าเว็บได้เหมือนเดิม เหมาะสำหรับผู้ริเริ่มอะไรใหม่ๆ

วันนี้จะแนะนำการใช้เซอร์วิส Email ของ GAE นะครับ นอกจากจะโฮสเว็บได้แล้วยังมีระบบรับส่งอีเมล์ให้เราได้ใช้อีกด้วย สำหรับโค้ดสามารถหาได้จาก SimpleEmailGAE ซึ่งผมเขียนไว้เองแหละ ผู้อ่านสามารถเอาไปต่อยอดไปศึกษา (เดา) จากโค้ดกันได้แน่นอน โค้ดไม่ได้ซับซ้อนมาก โดยการทำงานของโค้ดคือเมื่อส่งเมล์เข้าเมล์ของแอพนั้น จะทำการส่งเมล์ตอบกลับมาก็เท่านั้นเอง ที่สำคัญคือในไฟล์ app.yaml ใน section handlers ห้ามสลับลำดับมั่วนะครับ เดี๋ยวมันจะทำงานผิด แล้วก็ต้องไปเปลี่ยน sender ในไฟล์ handle_incoming_email.py ให้ตรงกับชื่อแอพที่ลงทะเบียนไว้ด้วยนะครับ

นอกจากนั้น GAE ยังอำนวยความสะดวกให้เราได้โดยที่เราสามารถรัน server แบบ localhost (page – localhost:8080 และ admin panel – localhost:8000) ใน Admin panel สามารถส่งเมล์ ดูข้อมูลที่เราเก็บไว้ใน Datastore และดู log ที่เกิดขึ้นได้ สำหรับการส่งอีเมล์ต้องตั้งค่า SMTP ก่อนถึงจะส่งจาก localhost ได้แต่บน GAE ไม่ต้องตั้งค่าก็ใช้งานได้เลย เมื่อทดสอบได้แล้วก็ลองนำไป Deploy บน GAE ได้เลย